中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

概述

本文介绍了针对搭载华为Kunpeng920 5220处理器的鲲鹏服务器的HDFS EC性能调优手段,旨在提高RS-6-3-1024k策略下HDFS EC读写性能。

HDFS简介

HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是指被设计成适合运行在通用硬件上的分布式文件系统。

HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS是Apache Hadoop的一部分,Hadoop是一个开源的分布式存储及计算框架,被广泛用于海量数据的存储及处理,可以以可靠、高效、可伸缩的方式进行数据处理。

更多关于Hadoop信息请参见:Apache Hadoop 3.1.0

EC简介

EC(Erasure Coding,纠删码)是一种存储系统的数据保护方法,通过将原始的数据进行编码得到冗余,并将数据和冗余一并存储起来,以达到容错的目的。

将n块原始数据,通过编码得到m块冗余数据(校验块),然后将n+m块数据通过DHT算法分别存储在不同的硬盘中。当其中任意小于等于m块数据出错(包括原始数据和冗余数据)时,均可以通过对应的重构算法恢复出原始的n块数据。

更多关于EC信息请参见:HDFS Erasure Coding