鲲鹏精度调优简介
在气象行业中,精度是非常重要的。因为气象预报不仅关系到企业生产、人民生活,还关系到防灾减灾和人民生命财产的安全。在气象局的招标活动中,为确保新集群环境更准确、更稳定、更快投入生产,客户都会要求新建集群的预报结果必须与现有集群(一般是x86)保持一致。为了确保计算结果的准确性和稳定性,气象局过往在更换集群服务器时(无论是IBM小型机替换国产服务器,还是Intel x86服务器替换IBM小型机)都经历了大量人力投入和至少半年优化的过程。同样地,气象集群迁移到鲲鹏服务器时,也可能会出现运行结果与现有的集群运行结果不一致的现象。
当然不仅仅是气象领域,在HPC程序中更换集群、更换不同架构的CPU以及更换编译器都有可能导致计算结果不一致的情况。即使是一个细小的差异,经过HPC大量的迭代和计算后也会不断积累和放大,最终导致巨大的计算结果偏差。WRF(Weather Research and Forecasting Model,天气预报模型)的应用有助于分析和解决该问题。WRF是一个用于精细尺度的天气模拟与预报模型,是HPC应用的重要场景之一,详情可参见图1
在此模型中,客户最关心的三个指标按照优先级顺序排列如下:
- 准确性:预报结果与实况天气比偏差小,比如降水区域、降水大小。
- 稳定性:在不同时间、不同机器、不同运算规模下,测试结果需保持一致。
- 性能:计算时间快,满足气象预报的时效性要求。
本文档描述了鲲鹏HPC应用常用的精度优化方法和分析工具,分别从编译器、数学库、MPI和应用程序优化这4个方面展开阐述。
父主题: 简介