自定义优化选项

毕昇编译器支持通过-mllvm驱动的自定义优化选项，由于基于鲲鹏架构优化，使能自定义优化选项需要指定鲲鹏架构，如-mcpu=tsv110。

-mllvm -force-customized-pipeline=<true|false>

强制使用自定义的pass顺序。设为true开启该优化，默认关闭。

-mllvm -sad-pattern-recognition=<true|false>

对差值的绝对值求和运算（sum += abs(a[i] - b[i])）进行优化，生成更简单高效的运算序列。设为true开启该优化，默认开启。

-mllvm -instcombine-ctz-array=<true|false>

实现对De Bruijn序列查表计算的优化。设为true开启该优化，默认开启。

-mllvm -aarch64-loopcond-opt=<true|false>

减少某些条件下的循环条件判断中的冗余指令，生成更优的代码。设为true开启该优化，默认开启。

-mllvm -aarch64-hadd-generation=<true|false>

对于矢量化的运算 (x[i] + y[i] + 1) >> 1，使用一条ARM NEON指令URHADD完成运算，从而生成更优的代码。设为true开启该优化，默认开启。

-mllvm -aarch64-ldp-stp-noq=<true|false>

禁止生成stp/ldp q1, q2, addr形式的指令，此形式的指令性能较差。设为true开启该优化，默认开启。

-mllvm -enable-func-arg-analysis=<true|false>

增强LLVM的值域分析能力，使LLVM的function specialization优化可以覆盖更多的函数场景。设为true开启该优化，默认开启。

-mllvm -enable-modest-vectorization-unrolling-factors=<true|false>

使得步长较小的循环更容易被矢量化。设为true开启该优化，默认开启。

-mllvm -instcombine-shrink-vector-element=<true|false>

通过提高矢量化指令的并行度，消除矢量化过程中生成的标量中间值，达到增强循环矢量化的效果。设为true开启该优化，默认开启。

-mllvm -instcombine-reorder-sum-of-reduce-add=<true|false>

通过更改reduction操作的顺序生成更优的reduction代码。设为true开启该优化，默认开启。

-mllvm -replace-fortran-mem-alloc=<true|false>

在fortran代码中，对于已知大小的内存分配（如数组），使用栈内存代替堆内存，从而提升性能。设为true开启该优化，默认开启。

此优化生效的内存大小由-mllvm -max-fortran-heap-to-stack-size=<Int number>指定，默认为4096。

-mllvm -enable-pg-math-call-simplification=<true|false>

优化fortran多个数学库函数调用，提升fortran数学函数调用的性能。设为true开启该优化，默认开启。

-mllvm -instcombine-gep-common=<true|false>

优化多维数组在复杂场景下（如嵌套多层循环）的元素地址计算，减小寄存器压力，提高程序性能。设为true开启该优化，默认开启。

-mllvm -enable-sroa-after-unroll=<true|false>

使能循环展开后添加SROA的功能，减少访存操作，将变量保存在寄存器中。设为true开启该优化，默认开启。

-mllvm -disable-recursive-bonus=<true|false>

使递归函数中的函数调用更容易被inline，可以给调用频繁的递归函数带来更好的性能。设为true关闭该功能，默认为false，使能inline操作。

-mllvm -disable-recip-sqrt-opt=<true|false>

在fastmath场景下，对A = (C / sqrt(Y)); B = A * A的形式进行优化，使用更少的指令完成运算。设为true关闭该优化，默认false，使能该优化。

-mllvm -disable-loop-aware-reassociation=<true|false>

在Reassociate Pass中增加循环感知，将一些操作限制在循环边界内，避免因循环内部的指令数量增加导致的性能下降。设为true关闭该优化，默认false，使能该优化。

-mllvm -enable-gzipcrc32=<true|false>

识别代码中的crc32计算逻辑，使用处理器内置指令进行替代以加速计算。设为true开启该优化，false关闭优化，默认关闭。

若开启本选项：

需确保是AArch64架构
需确保优化等级为O3
需添加链接选项 -lclang_rt.irlib -L <install_path>/lib/clang/19/lib/aarch64-unknown-linux-gnu

若<install_path>/lib/clang/19/lib/aarch64-unknown-linux-gnu/clang_rt.irlib文件不存在，请勿开启本选项

-mllvm -enable-aes=<true|false>

识别代码中的aes计算逻辑，使用处理器内置指令进行替代以加速计算。设为true开启该优化，false关闭优化，默认关闭。

若开启本选项：

需确保是AArch64架构
需确保优化等级为O3
需添加链接选项 -lclang_rt.irlib -L <install_path>/lib/clang/19/lib/aarch64-unknown-linux-gnu

若<install_path>/lib/clang/19/lib/aarch64-unknown-linux-gnu/clang_rt.irlib文件不存在，请勿开启本选项

-mllvm -enable-mayalias-loadpromotion=<true|false>

开启-flto优化且优化等级大于等于O3时，识别循环分支中不必要的load指令并删除。设为true开启该优化，false关闭优化，默认关闭。

-mllvm -enable-merge-reversed-icmps=<true|false>

优化等级大于等于O3时，合并反向的连续的整数比较（要求target是小端序的）。设为true开启该优化，false关闭优化，默认关闭。

-fno-inline-reduction-intrinsic

优化等级大于等于O1时，毕昇编译器使能了flang1阶段内联minloc和maxloc，内联后，函数调用成为简单的for-loop，在LLVM中可以进一步优化。使用本选项可以禁用内联功能，行为与O0一致。

-mllvm -update-iv-scev

在Induction variable users pass更新SCEV分析的结果以暴露更多的优化机会。该选项默认开启，可能会增加编译时长，如果对编译时长要求较高可以使用-mllvm -update-iv-scev=false选项进行关闭。

gep-common

通过删除用作索引的add指令，为来自同一指令的GEP cluster生成一个公共父代。

-mllvm -gep-common=<true|false>控制该优化，设为true开启优化，默认开启。
-mllvm -gep-cluster-min=<Int number>设置GEP cluster阈值，默认为3。
-mllvm -gep-loop-mindepth=<Int number>设置循环阈值，默认为3。

array-restructuring

数组重排优化，改进程序中一个或多个数组的内存访问模式，进行数组重排，从而减少运行时间。

-mllvm -enable-array-restructuring=<true|false>控制该优化，设为true开启优化，默认开启。
-mllvm -skip-array-restructuring-codegen=<true|false>禁用该优化pass的指令生成部分，设为true禁用，默认false。

struct-peel

结构体剥离优化，提高访问结构体数组中的结构字段时的局部缓存，从而减少运行时间。

-mllvm -enable-struct-peel=<true|false>控制该优化，设为true开启优化，默认开启。
-mllvm -struct-peel-skip-transform=<true|false>禁用该优化pass的指令生成部分，设为true禁用，默认false。
-mllvm -struct-field-merge=<true|false>控制高级结构体字段压缩优化，不支持嵌套结构体和Union，默认开启。

-fopenmp-reduction-duplicate

openmp reduction场景向量化能力增强，仅在AArch64后端和C、C++ 前端起效，默认开启，在-fopenmp开启时生效。-fno-openmp-reduction-duplicate可关闭。

-fopenmp-firstprivatize-locals

openmp firstprivatize场景向量化能力增强，仅在AArch64后端和C、C++ 前端起效，默认开启，在-fopenmp开启时生效。-fno-openmp-firstprivatize-locals可关闭。

-mllvm -sort-ivusers-before-lsr

对Induction Variable的Users进行排序后才开始做Loop Strength Reduce(LSR)优化，避免可能出现在多次构建时保持二进制汇编出现不一致。

为了节省编译耗时，该选项默认关闭。

-finline-fortran-runtime-calls

毕昇编译器使能了flang2阶段内联字符串比较，内联后，函数调用成为简单的for-loop字符比较，在LLVM中可以进一步优化。该内联功能默认关闭，使用本选项可以使能内联功能。

-foverflow-shift-alt-behavior

对于超出整型数据类型位宽大小的未定义移位行为，如(int) a << 40，毕昇编译器将表达式提前优化为整型常量，以避免在不同优化遍中会被识别优化成不同的值，该选项默认关闭。

-mllvm -warn-large-symbols=<num>

在C/C++/Fortran程序中，如果存在超大体积符号，符号寻址的重定位类型将无法支持如此大的范围偏移，该选项用于识别源码中可能存在的大符号（大符号的阈值由选项参数控制num MBytes），并给出相应的告警。

-mllvm -aggressive-instcombine-simplify-mul64=<true|false>

将两个64比特的操作数相乘输出一个128比特数据的算法简化为更加高效的指令。设为true开启该优化，默认开启。当前语言支持C，C++，后端支持AArch64。

-mllvm -replace-sqrt-compare-by-square=<true|false>

将比较条件中的开方计算替换为其结果的平方计算，从而转换此比较条件。该优化需在-ffast-math开启的前提下开启，设为true开启该优化，默认关闭。当前语言支持C，C++，后端支持AArch64。

-mllvm -enable-combine-sqrt-exp=<true|false>

优化sqrt(exp(x))为exp(x*0.5)，消除执行代价较高的sqrt运算。该优化需开启-ffast-math，设为true开启该优化，默认开启。当前语言支持C/C++，后端支持AArch64。

-mllvm -loop-load-widen-patterns=<id1>,<id2>,...

对于部分数据可以用更宽的数据类型进行访问的场景优化，当前支持的场景有三个，id分别为 0，1，2。若缺省则全部使能。若指定了一个小于0的id (例如-1)，则关闭该优化。当前语言支持C，后端支持AArch64。

-mllvm -enable-aggressive-inline=<true|false>

不考虑源码中的__attribute__((noinline))限制，强制将该函数视为普通函数来判断是否进行inline优化，设为true开启该优化，默认关闭。当前语言支持C/C++，后端支持AArch64。

shift rounding

对rounding场景进行匹配，选用更合适的指令，从而减少运行时间。

-mllvm -aarch64-optimize-rounding=<true|false> 控制该优化是否生效，设true为开启优化，默认开启。
-mllvm -aarch64-optimize-rounding-saturation=<true|false> 控制是否对SQRSHRUN/ UQRSHRN场景优化，设true为开启，默认开启。
-mllvm -aarch64-extract-vector-element-trunc-combine=<true|false> 对于部分场景进行更优的指令选择，设true为开启，默认开启。
-mllvm -aarch64-rounding-search-max-depth=<integer> 对于rounding场景的搜索深度设置，默认为4。

-mllvm -aggressive-instcombine-simplify-sqr64=<true|false>

对64位的sqr操作进行优化，采用更精简的指令，从而提升性能，设为true开启该优化，默认开启。当前语言支持C/C++，后端支持AArch64。

-mllvm -enable-value-spec=<true|false>

对于res = x ? y : z三目运算符表达式，当y或者z中包含零并选择了它做为结果时，引用res变量的乘法等计算可以被优化消除以提升性能。此优化通过识别三目运算符在IR中形成的select指令，将使用了select结果的部分冗余指令进行消除。注意，只有当三目运算符在编译器中端形成select指令时，此优化才会针对select指令进行变换。

-mllvm -vspec-min-select-users=<integer> 控制使用目标select结果的冗余指令数量，当实际数量大于设定值时，优化被开启。默认为5。
-mllvm -vspec-search-users-depth=<integer> 控制从目标select所在基本块向下寻找包含冗余指令的基本块的深度。默认为5。

-mllvm -relaxed-ordering-level=<disable|0|1|2>

disable表示关闭弱内存序防护，0|1|2表示开启弱内存序防护：0使用基本修复策略，确保应用正常执行，性能损失最大；1使用最安全的修复策略，性能损失较大；2应用组件优化规则，可以减少性能损失。

-mllvm -enable-highlevel-branch-prediction=<true|false>

基于代码中的信息，预测分支的执行方向。设为true开启优化，false关闭优化，默认关闭。

-mllvm -enable-boscc-vectorization

在代码矢量化的基础上，重新引入标量循环中的控制流。设为true开启优化，false关闭优化，默认关闭。

-mllvm -ahead-prefetch=<true|false>

对于使能openmp的结构简单的循环计算，提前对整段计算数组进行数据预取。仅在AArch64后端起效。设为true开启优化，false关闭优化，默认开启。

-mllvm -antisca-spec-mitigations=<true|false>

对于所有可能访问内存的指令，都加上防护指令以防止Spectre Variant 1攻击。

-mllvm -enable-spectre-detect=<true|false>

针对15种Spectre Variant 1攻击场景，通过改选项进行检测，并通过Warning信息给出具体的文件名行号。

-mllvm -aarch64-slh-vuln-loads-only=<true|false>

对-mllvm -enable-spectre-detect选项检测到的场景添加防护指令。

-mllvm -enable-new-loop-distribute=<true|false>

使能更激进的循环拆分优化，以促成循环的矢量化。

-mllvm -aarch64-enable-early-sve-libcall-opts=<true|false>

将std::find()替换为毕昇编译器内部基于SVE矢量化指令实现的性能更优的版本。

-mllvm -enable-sm4 -march=armv8-a+sm4

使能后端SM4分组密码算法指令。

-mllvm -enable-malloc-distribute=<true|false>

针对部分可能成为性能瓶颈的对多个数组进行malloc操作的循环进行拆分，提升访存性能。

-mllvm -loop-iteration-prefetch-funcs=<func>:<iter>

使用该选项时，对函数<func>内的所有循环，在循环的每<iter>轮迭代对未来<iter>轮迭代内的需要访问的数据执行一次集中预取。适用于优化在循环的一轮迭代内，存在多处访存操作，这些访存操作实际访问的地址又非常离散的场景。

-mllvm -licm-enable-sink-store-cfg=true

针对部分带有控制流的循环单退出块场景做了增强，支持带有__restrict__关键字约束的一维数组与普通指针变量的Store下沉至循环外，以减少内存的读写操作。

-mllvm -simplifycfg-hoist-abs

针对部分因为控制流阻塞矢量化的场景，使用select指令来简化分支跳转，从而帮助矢量化。

-mllvm -combine-complex-gather-load

针对gather load访问复数类型的场景，通过合并load指令提升访存效率。

-mllvm -ascend-load-address=[true|false]

使能该特性后，在指令调度时，将可进行调度的load类型指令按照偏移立即数的大小，从小到大进行调度排列。

-mllvm -loop-versioning-overlap=true

针对手写循环进行的内存拷贝，生成特化版本，提升内存拷贝的效率。

-m[no-]fcmla

针对复数相关的计算（复数乘法、减乘和共轭乘法等）生成更高效指令FCMLA，以提升性能。通过-mfcmla使能，-mno-fcmla关闭。

-fopenmp-htl

毕昇编译器支持在OpenMP场景下使用轻量级线程HTL替代系统线程。用户无需修改代码，由编译器的runtime支持。轻量级线程库HTL尚未直接集成在毕昇中，关于HTL的下载与更多信息，请参考鲲鹏社区HTL。

编译器使能HTL的使用方式如下：

编译阶段：通过-L指定轻量级线程库libhtl.so的路径
运行阶段：通过LD_LIBRARY_PATH指定libhtl.so的路径
控制选项：-fopenmp-htl（-fopenmp-htl和-fopenmp同时使用时-fopenmp-htl优先级更高）
环境变量：KMP_HTL_NUM_ESS：设置运行在OS级线程上的执行流的数量（类似于指定Pthread的数量）

-mllvm -indvar-simply-to-canonical=[true|false]

当前LLVM版本支持的外层向量化场景中，要求循环规范化，即迭代变量的初始值为0，步长为1，该选项在某些条件下可将循环进行变换，使得迭代变量初始值转换成0，仅支持整型变量，不支持指针。设为true开启该功能，默认为false。

-mllvm -replace-gather-load=[true|false]

毕昇编译器在特定的循环sve gather load自动向量化场景下，即当循环内存在连续6条间隔为6访问的load操作时，可以通过使能该选项使用ld3d+uzp1/uzp2组合来替换gather load指令。设为true开启该功能，默认为false。

-mllvm -enable-crc-recognize=[true|false]

毕昇编译器针对符合CRC32模式（32 位宽度、多项式常量为 0xEDB88320，无字节序交换）的循环，直接使用硬件CRC指令进行实现。设为true开启该功能，默认为false。

-mllvm -aarch64-endianness-opts=[true|false]

毕昇编译器针对大小端格式转化场景进行优化，减少实现所需的指令条数。设为true开启该功能，默认为false。

-fopenmp-simplified-reduction

毕昇编译器针对openmp reduction场景进行性能优化。默认关闭，可通过该选项开启对应功能。

父主题： 毕昇编译器选项说明