鲲鹏社区首页
中文
注册
生命科学行业概述
生命科学领域广泛运用脑科学、基因组学、表观遗传学、蛋白质组学等手段进行科学研究,再借助数学分析与模拟、生物信息学等对整个生命系统行为的精准理解和预测,其需要海量基因数据的分析与挖掘,需要高性能的计算集群才能满足需求。生物医药行业和脑科学领域中分子建模,数据管理,药物分子设计、基因测序、冷冻电镜等,基于华为鲲鹏HPC解决方案,全栈自主可控,极大地加速新药研发的效率和节约运算时间。
暂无评分
我要评分
基因测序
基因测序技术是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,已经广泛应用于医疗和非医疗等各个领域,如产前检查,遗传检测,癌症靶向治疗等,高通量低成本的测序技术让基因测序走进千家万户。
基因数据分析过程根据研究目的不同,会有I/O密集型、CPU密集型、内存密集型等各种计算实例需求,需要海量基因数据的分析与挖掘。目前已经有GATK、Ont-tombo 、HISAT2 等50+应用完成鲲鹏适配。
冷冻电镜
冷冻电镜(cryo-electron microscopy,cryo-EM)技术是将生物大分子在毫秒时间尺度内快速冷冻在玻璃态的冰中,应用低温透射电子显微镜收集生物大分子的二维投影,并利用三维重构的方法得到大分子三维精细结构的生物物理学技术。对计算密集度极高:包括图像数据校正、有效大分子颗粒识别、颗粒聚类、空间构造和数据转换,一次作业的数据处理时间往往需要数天。高速I/O:需要在很短的时间读入包含数百GB数据的大文件;relion、 eman2等已经完成鲲鹏适配迁移,性能更优。
典型案例
GATK应用优化案例
应用背景
GATK是Genome Analysis ToolKit的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling软件之一。
GKL( Genomics Kernel Library )是针对GATK和HTSJDK基因测序应用的计算内核优化库,支持64bit Linux及Mac OSX平台,基于x86 AVX、AVX2、AVX-512、 multicore、FPGA实现,在ARM平台使能需将x86 AVX指令集转化为Neon指令集实现。
当前GKL主要包含三大模块:PairHMM,Smith-Waterman和DEFLATE(compression/decompression),前两者为基于AVX指令的算法优化库,DEFLATE为Intel实现的压缩解压优化库。
使用软件
应用软件: GATK4.0.0.0
基础软件:鲲鹏Avx2Neon加速库
测试算例:数据集ReadsPipeline
成果
基于鲲鹏Avx2Neon加速库的应用优化后,GATK应用在鲲鹏平台单节点运行的整体性能上提升达160%。主要优化措施如下:
  • 使用鲲鹏Avx2Neon加速库,对GKL进行ARM平台的迁移,提升GATK的性能。
  • 在鲲鹏平台上对Spark线程进行NUMA绑核可以大幅提升Spark多线程计算性能。
  • Spark内存分配优化策略,提升内存访问效率。
核心应用
HPC行业主流开源软件调优指导请参考《调优指南》
软件名版本号操作系统源码包移植指南