获取代码

- 机器学习算法运行需要获取算法加速库适配代码编译出的jar包,也需要获取到核心算法jar包。其中,适配算法库的jar包可以通过编译而来,也可以直接获取。代码获取地址如表1所示。
- 运行除xgboost外的算法时只需要部署boostkit-ml-acc_2.11-1.3.0-spark2.3.2.jar,boostkit-ml-core_2.11-1.3.0-spark2.3.2.jar和boostkit-ml-kernel_2.11-1.3.0-spark2.3.2-aarch64.jar三个jar包。
- 运行xgboost算法,需要部署libboostkit_xgboost_kernel.so、boostkit-xgboost4j-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar、boostkit-xgboost4j_2.11-1.3.0.jar和boostkit-xgboost4j-spark2.3.2_2.11-1.3.0.jar。boostkit-ml-kernel-client_2.11-1.3.0-spark2.3.2.jar不需要部署在Spark集群,仅在开发阶段为编译提供依赖。
获取机器学习算法加速库适配代码Spark-ml-algo-lib
机器学习算法加速库适配代码基于开源软件Spark 2.3.2和spark 2.4.6开发,用于编译机器学习算法加速库。
下载大数据机器学习算法加速库的适配Spark 2.3.2的开源仓代码或适配Spark 2.4.6的开源仓代码到指定目录下,如“/opt/”,并解压(以下操作都以适配Spark 2.3.2的包为例)。
1 2 |
cd /opt/ unzip Spark-ml-algo-lib-1.3.0-spark2.3.2.zip |
机器学习算法加速库提供了已编译完成的适配包,该包的编译过程详见编译代码;若获取该包,可跳过编译代码过程直接进行软件安装部署,获取后放置到指定目录,如“/opt/”;其中boostkit-ml-kernel-client_2.11-1.3.0-spark2.3.2.jar和boostkit-ml-kernel-client_2.11-1.3.0-spark2.4.6.jar包是应用开发时的依赖库,不需要部署在Spark集群,仅在开发阶段编译时使用。获取方式如表1所示,由于xgboost算法和非xgboost算法需要获取的包不同,所以分别进行展示。
适配Spark版本 |
是否为xgboost算法包 |
获取包名及地址 |
---|---|---|
Spark 2.3.2 |
是 |
|
否 |
boostkit-ml-acc_2.11-1.3.0-spark2.3.2.jar |
|
Spark 2.4.6 |
是 |
|
否 |
boostkit-ml-acc_2.11-1.3.0-spark2.4.6.jar |
获取机器学习算法加速库的核心jar包
机器学习算法加速库核心jar包的压缩包BoostKit-ml_1.3.0.zip可在support上获得,获取途径可见软件获取,解压得到boostkit-ml-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar、boostkit-xgboost4j-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar以及libboostkit_xgboost_kernel.so,并放在“/opt/”目录下。
- 解压压缩包BoostKit-ml_1.3.0.zip。
1 2
cd /opt/ unzip BoostKit-ml_1.3.0.zip
- 复制boostkit-ml-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar、boostkit-xgboost4j-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar以及libboostkit_xgboost_kernel.so并放入“/opt/”目录中。
1 2 3 4
cd BoostKit-ml_1.3.0 cp boostkit-ml-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar /opt/ cp boostkit-xgboost4j-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar /opt/ cp libboostkit_xgboost_kernel.so /opt/
需要注意的是,下载的软件包后需要校验软件包,确保与网站上的原始软件包一致,校验方法:
- 获取软件数字证书和软件。
当前版本软件包受限商用,用户获取时需要提交申请且审批通过后才能下载使用。
- 在如下链接中获取校验工具和校验方法。
https://support.huawei.com/enterprise/zh/tool/pgp-verify-TL1000000054
- 参见2中下载的《OpenPGP签名验证指南》进行软件包完整性检查。

本指南中均以基于spark 2.3.2版本的Boostkit算法包为例,基于spark 2.4.6版本的算法包的使用与之相同,可参考本指南。