中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

获取代码

  • 机器学习算法运行需要获取算法加速库适配代码编译出的jar包,也需要获取到核心算法jar包。其中,适配算法库的jar包可以通过编译而来,也可以直接获取。代码获取地址如表1所示。
  • 运行除xgboost外的算法时只需要部署boostkit-ml-acc_2.11-1.3.0-spark2.3.2.jar,boostkit-ml-core_2.11-1.3.0-spark2.3.2.jar和boostkit-ml-kernel_2.11-1.3.0-spark2.3.2-aarch64.jar三个jar包。
  • 运行xgboost算法,需要部署libboostkit_xgboost_kernel.so、boostkit-xgboost4j-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar、boostkit-xgboost4j_2.11-1.3.0.jar和boostkit-xgboost4j-spark2.3.2_2.11-1.3.0.jar。boostkit-ml-kernel-client_2.11-1.3.0-spark2.3.2.jar不需要部署在Spark集群,仅在开发阶段为编译提供依赖。

获取机器学习算法加速库适配代码Spark-ml-algo-lib

机器学习算法加速库适配代码基于开源软件Spark 2.3.2和spark 2.4.6开发,用于编译机器学习算法加速库

下载大数据机器学习算法加速库的适配Spark 2.3.2的开源仓代码适配Spark 2.4.6的开源仓代码到指定目录下,如“/opt/”,并解压(以下操作都以适配Spark 2.3.2的包为例)。

1
2
cd /opt/
unzip Spark-ml-algo-lib-1.3.0-spark2.3.2.zip

机器学习算法加速库适配代码是由Spark 2.3.2、Breeze 0.13.1、xgboost 1.1.0的部分原生代码文件打入Patch后进行构建而来,构建方法详见参考

机器学习算法加速库提供了已编译完成的适配包,该包的编译过程详见编译代码;若获取该包,可跳过编译代码过程直接进行软件安装部署,获取后放置到指定目录,如“/opt/”;其中boostkit-ml-kernel-client_2.11-1.3.0-spark2.3.2.jar和boostkit-ml-kernel-client_2.11-1.3.0-spark2.4.6.jar包是应用开发时的依赖库,不需要部署在Spark集群,仅在开发阶段编译时使用。获取方式如表1所示,由于xgboost算法和非xgboost算法需要获取的包不同,所以分别进行展示。

获取机器学习算法加速库的核心jar包

机器学习算法加速库核心jar包的压缩包BoostKit-ml_1.3.0.zip可在support上获得,获取途径可见软件获取,解压得到boostkit-ml-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar、boostkit-xgboost4j-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar以及libboostkit_xgboost_kernel.so,并放在“/opt/”目录下。

  1. 解压压缩包BoostKit-ml_1.3.0.zip。
    1
    2
    cd /opt/
    unzip BoostKit-ml_1.3.0.zip
    
  2. 复制boostkit-ml-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar、boostkit-xgboost4j-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar以及libboostkit_xgboost_kernel.so并放入“/opt/”目录中。
    1
    2
    3
    4
    cd BoostKit-ml_1.3.0
    cp boostkit-ml-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar /opt/
    cp boostkit-xgboost4j-kernel-2.11-1.3.0-spark2.3.2-aarch64.jar /opt/
    cp libboostkit_xgboost_kernel.so /opt/
    

需要注意的是,下载的软件包后需要校验软件包,确保与网站上的原始软件包一致,校验方法:

  1. 获取软件数字证书软件

    当前版本软件包受限商用,用户获取时需要提交申请且审批通过后才能下载使用。

  2. 在如下链接中获取校验工具和校验方法。

    https://support.huawei.com/enterprise/zh/tool/pgp-verify-TL1000000054

  3. 参见2中下载的《OpenPGP签名验证指南》进行软件包完整性检查。

本指南中均以基于spark 2.3.2版本的Boostkit算法包为例,基于spark 2.4.6版本的算法包的使用与之相同,可参考本指南。