中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
鲲鹏小智

NVCC编译参数优化

当前已知对GPU计算性能影响较大的编译选项如表1所示,可在编译时添加。

表1 NVCC编译参数

编译选项

优化原理

-gencode;arch=compute_xx,code=sm_xx

指定对应GPU卡类型和架构,以获取更好的兼容性和性能,比如A100的典型配置为-gencode;arch=compute_80,code=sm_80。

--ftz=fase/true

是否将极小值置为0,减少计算,默认false。

--prec-sqrt=true/false

是否使用精确的平方根函数,默认true。

--prec-div=true/false

是否使用精确的除法计算,默认true。

--fmad=ture/fasle

是否使能乘加合并计算,默认true。

--use_fast_math

是否开启快速计算模式,相当于--ftz=true --prec-div=false --prec-sqrt=false --fmad=true。

-O 0 1 2 3 4

代码优化级别,O0为不优化,O1到O4优化操作逐渐增多,建议O4。

-Xptxas -allow-expensive-optimizations

用最大资源来实现优化。

-Xptxas -dlcm=ca/cg

是否开启L1 cache,ca为开启,cg为关闭,默认ca。

参考文档:《NVIDIA HPC Compilers Reference Guide

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词