机器学习&图分析算法加速库

Spark组件提供原生的机器学习MLlib和图GraphX算法库，支持在分布式集群上运行。鲲鹏基于算法原理和芯片特征针对机器学习和图分析算法进行深入优化，实现相比原生算法性能提升50%。

机器学习&图分析算法加速库提供以下算法优化，后续版本会持续更新增加算法。

机器学习算法：
分类回归（Random Forest、GBDT、SVM、Logistic Regression、Linear Regression、Decision Tree、XGBoost、KNN）、聚类（K-means、DBSCAN、LDA）、特征工程（PCA、SPCA、SVD、Pearson、Covariance、Spearman、IDF、DTB、Word2Vec）、模式挖掘（ALS、PrefixSpan、SimRank）。
图分析算法：
中心性分析（K-Core、PageRank、TrustRank、Personal PageRank、Closeness、Betweenness、Degree、Weighted PageRank、Incremental PageRank、Trillion PageRank）、拓扑度量（TriangleCount、Modularity、ClusteringCoefficient）、路径分析（MSSP、BFS、CD）、社团挖掘（WCE、MCE、SCC、Louvain、LPA、CC）、图表示学习（Node2Vec）、相似性分析（Subgraph Matching）。

算法的常用应用场景如下表。

算法分类	算法名称	应用行业
算法分类	算法名称	运营商	金融	交通
机器学习算法	Random Forest	高价值客户细分终端生命周期分析用户换机行为分析	保险欺诈识别线上交易欺诈侦测信贷风险评估债务风险评级和预警	飙车分析模型黄牛党分析信号配时优化
	GBDT	异网高价值客户识别全网通、双卡终端分析终端违规销售	客户信用评估信贷风险评估债务风险评级和预警贷后风险评级客户金融画像保险客户风险分析保险客户流失分析保险企业营销策略模型	交通事件检测车辆检查
	SVM	价值客户识别拉新升档客户识别提升	国际碳金融市场价格预测企业破产预测汽车保险定价	套牌/假牌车辆识别路网交通流量预测交通流量预测飙车分析模型
	Logistic Regression	欺诈预警风险评估智能能耗预测	互联网金融P2P业务信用风险分析贷后风险分析企业大额外汇资金交易识别客户信用评估上市公司信用评级金融市场极端风险预警	路网交通流量预测行车安全指数模型道路通行能力评估套牌/假牌车辆识别交通流量预测飙车分析模型
	Linear Regression	国际长途、漫游业务分析信用评级	上市公司财务报告舞弊识别商业银行财务风险预警客户信用风险因素评估中小企业信用风险评估供应链金融风险评估	道路通行能力评估套牌/假牌车辆识别路网交通流量预测交通态势分析
	Decision Tree	带宽离网预警用户预警带宽到期客户预警	互联网金融精准营销客户分类商业银行电话营销分类模型量化投资策略模型信用卡审批模型贷后风险评级	飙车分析模型黄牛党分析交通事件检测
	XGBoost	携号客户细分携出客户预测智能运维-故障检测与预测智能能耗管理-基站/服务器能耗预测	债务风险评级和预警线上交易欺诈侦测用户消费行为预测和风险分析基金收益率方向预测基金重仓股预测保险客户风险分析保险客户流失分析保险企业营销策略模型	交通拥堵分析信号配时优化出行方式推荐车辆检查设防人物画像/全息档案（研判职住地、年龄层次、性别、消费水平、职业等）目标动向预测
	KNN	终端APP洞察校园营销客户常驻小区识别	信用卡欺诈风险监测金融数据异常监测医保审核	交通异常行为分析同行分析
	K-means	沉默用户激活定向资费设计用户套餐适配	金融IC卡城市推广规划事实汇率制度分类保险客户信用分析消费者互联网保险购买意愿	车辆出现OD分析卡口数据治理高风险区域识别
	DBSCAN	客户家庭群组识别校园客户识别拉新异网客户识别反挖客户群体分布	商业银行客户价值细分银行贷款风险管理保险欺诈监测中小银行同业业务风险识别保险业CRM客户细分模型	轨道交通站点热力分析轨交客群热力分析常走(通勤)线路分析落脚点分析
	LDA	不良信息治理内容推荐	面向金融知识服务的股票聚类金融科技媒体情绪与网贷市场关系分析金融决策支持知识获取公司年报文本知识发现金融时间信息抽取医疗保险欺诈监测	交通热点区域识别交通执法案件数字化
	PCA	用户关键特征提取用户标识用户征信特征推荐模型数据工程风险评估模型数据工程	机动车辆保险欺诈识别-数据工程供应链金融信用风险评估模型-数据工程借贷企业逾期还款预警	交通标志图像识别道路安全性预测交通事故成因分析和关联分析城市交通路口相关性分析
	SVD	异常订单流量检测网络毒害攻击检测与定位网络云传输数据压缩供应商选择供应商评价方法	战略新兴产业金融支持效率分析-数据工程商业银行客户价值细分模型-数据工程量化投资选股因子降维股票投资组合推荐	交通数据预处理车辆出行行为特征提取交通流量数据压缩周期流量特征提取
	Pearson	移动站定位同行分析异常订单流量检测迁徙客户识别拉新用户匹配策略	市场风险管理资产风险价值模型分析保险赔付分析	路段通行时间预测车辆多传感器信息融合智能派单交通异常动向检测
	Covariance	用户忠诚度分析用户偏好分析用户流失分析有价卡违规销售渠道养卡	股票相关性分析投资组合分析资产配置分析资产风险价值模型分析	道路路况预测拥堵传播性分析动向匹配分析智能派单交通异常动向检测
	Spearman	用户匹配策略权益偏好用户用户流失分析以固带移用户	信用卡开卡推荐客户权益推荐欺诈团伙分析保险业客户画像	客流预测分析城市拥堵区域挖掘交通异常动向检测智能派单
	DTB	高价值用户挖掘用户套餐推荐移动基站选址推荐	信用卡审批模型优质用户推荐广告精准推荐	信号灯智能优化危险驾驶人员识别拥堵路段预测
	word2vec	内容推荐校园营销用户APP偏好分析	客户金融画像信贷风险评估金融数据异常监测资产风险价值模型分析	交通热点区域识别相似路线推荐
	ALS	携入客户产品适配校园/返乡营销一级电渠精确营销旅游服务升档客户识别提升业务推荐内容推荐	智能APP推荐分红寿险定价人寿保险需求结构性差异分析投资人情绪测度美式期权定价模拟	危险驾驶人员发现相似路线推荐
	PrefixSpan	智能运维-故障检测与预测智能能耗管理-基站/服务器能耗预测	债务风险评级和预警线上交易欺诈侦测用户消费行为预测和风险分析基金收益率方向预测基金重仓股预测	交通拥堵分析信号配时优化出行方式推荐车辆检查设防
图分析算法	K-core	营销类服务（王卡用户模型：王卡感染用户挖掘、异网主卡用户反挖）维系类服务（携转客户预测、用户离网预测）	精准营销类（VIP客户群体推荐、客户群体画像）智能风控类（反欺诈评分、团体欺诈识别）	路网规划类（关键节点选址：公交地铁站点选址，天桥地下通道选址，安防监测选址，警示路牌选址）指挥管控类（拥堵事件预测）
	PageRank	营销类服务（用户价值模型：高价值客户细分）营销类服务（生命周期模型：风险用户细分）	精准营销类（VIP客户推荐、社交媒体营销策略制定、广告精准投放、客户精准画像、理财产品推荐/手机银行产品推荐）智能风控类（反欺诈评分、潜在拒贷用户识别、欺诈团伙核心成员识别、客户偿贷能力评估、账户风险评估）	信息惠民类（交通知乎图谱-景点热点指数排序）路网规划类（关键节点选址：公交地铁站点选址，天桥地下通道选址，安防监测选址，警示路牌选址）
	TrustRank	维系类服务（携转客户预测、用户离网预测）	精准营销类（VIP客户推荐、社交媒体营销策略制定、广告精准投放、客户精准画像）智能风控类（欺诈账户识别、潜在拒贷用户识别、客户偿贷能力评估）	指挥管控类（拥堵站点预测）
	Closeness	营销类服务（生命周期模型：不限量潜客识别、高风险客户细分）	精准营销类（VIP客户推荐、社交媒体营销策略制定、广告精准投放、客户精准画像、理财产品推荐/手机银行产品推荐）智能风控类（反欺诈评分、潜在拒贷用户识别、欺诈团伙核心成员识别、客户偿贷能力评估、账户风险评估）	路网规划类（关键节点选址：公交地铁站点选址，天桥地下通道选址，安防监测选址，警示路牌选址）指挥管控类（拥堵事件预测）
	Betweenness	营销类服务（用户价值模型：异网高价值客户识别）合营类服务（交通-公交枢纽调度；新零售：热点选址）	精准营销类（VIP客户推荐、社交媒体营销策略制定、广告精准投放、客户精准画像、理财产品推荐/手机银行产品推荐）智能风控类（反欺诈评分、潜在拒贷用户识别、欺诈团伙核心成员识别、客户偿贷能力评估、账户风险评估）	路网规划类（关键节点选址：公交地铁站点选址，天桥地下通道选址，安防监测选址，警示路牌选址）指挥管控类（城市交通网拥堵关键节点识别）
	Degree	营销类服务（内容推荐：数字广告发放）	精准营销类（VIP客户推荐、社交媒体营销策略制定、广告精准投放、客户精准画像、理财产品推荐/手机银行产品推荐）智能风控类（反欺诈评分、潜在拒贷用户识别、欺诈团伙核心成员识别、客户偿贷能力评估、账户风险评估）	信息惠民类（共享单车投放推荐）智能服务类（物流仓位推荐，物流资源配置与优化）
	TriangleCount	维系类服务（携转客户预测、用户离网预测）	智能风控类（信贷风险识别、客户违约预测）	指挥管控类（交通站点流量预测、公交地铁站点流量监测、重点路段流量监测、重点道路拥堵识别）
	Modularity	营销类服务（潜在集团群体亲密度细分）	精准营销类（社交媒体营销效果预测）	智能服务类（物流仓位推荐、物流资源配置与优化、物流供需分析）
	ClusteringCoefficient	维系类服务（携转客户预测、用户离网预测）	智能风控类（信贷风险识别、客户违约预测）	指挥管控类（交通站点流量预测）智能服务类（物流仓位推荐，物流资源配置与优化，物流供需分析）
	MSSP	营销类服务（迁徙客户识别拉新）合营类服务（交通-公交枢纽调度）	精准营销类（客源获取渠道挖掘）智能风控类（最短路触黑、资产转移查控）	信息惠民类（交通知乎图谱-最优路线查询）智能服务类（无人驾驶道路推荐，出行方式推荐，停车场推荐）指挥管控类（警力动态部署）
	BFS	合营类服务（交通-人群流量预测、敏感旅客识别）	精准营销类（客源获取渠道挖掘）智能风控类（一度/二度触黑、资产转移查控）	信息惠民类（交通知乎图谱-可达路线查询）指挥管控类（公交地铁线路组合优化，目标车辆识别）
	CD	合营类服务（金融-互金风险识别）	智能风控类（循环担保识别、异常资金流追溯、资产转移查控）	智能服务类（路径导航，出行方式推荐，无人驾驶道路推荐）
	WCE	营销类服务（业务推荐：集团客户识别/集团业务推送）	精准营销类（客户群体画像、个性化理财产品推荐/手机银行产品推荐、社交媒体营销效果预测）智能风控类（团体欺诈识别）基础服务类（全网用户群体细分）	智能服务类（物流仓位推荐）
	MCE	营销类服务（业务推荐：家庭套餐推荐/亲情号推荐）	精准营销类（潜在VIP客户群体推荐）智能风控类（团体欺诈识别）	信息惠民类（共享单车投放推荐）
	SCC	基础类服务（全用户/全业务/全渠道：细分用户群）	精准营销类（客户群体画像）智能风控类（团体欺诈识别）基础服务类（全网用户群体细分、社交媒体营销效果预测）	智能服务类（物流仓位推荐）路网规划类（车道方向优化）
	Louvain	基础类服务（全用户/全业务/全渠道：细分用户群）	精准营销类（客户群体画像、个性化理财产品推荐/手机银行产品推荐、社交媒体营销效果预测）智能风控类（团体欺诈识别）基础服务类（全网用户群体细分）	指挥管控类（交通碰瓷团伙挖掘）智能服务类（出行方式推荐，停车场推荐，物流仓位推荐，物流资源配置与优化，物流供需分析）信息惠民类（出行群体分析）
	LPA	维系类服务（携转客户预测、用户离网预测）	精准营销类（新客户画像、个性化理财产品推荐/手机银行产品推荐、社交媒体营销效果预测、广告精准投放）智能风控类（反欺诈评分、团体欺诈识别）基础服务类（全网用户群体细分）	信息惠民类（出行群体分析）路网规划类（关键节点选址：公交地铁站点选址，天桥地下通道选址，安防监测选址，警示路牌选址）
	CC	基础类服务（全用户/全业务/全渠道：大颗粒用户分群）	精准营销类（客户群体画像、个性化理财产品推荐/手机银行产品推荐、社交媒体营销效果预测）智能风控类（团体欺诈识别）基础服务类（全网用户群体细分）	智能服务类（物流仓位推荐）路网规划类（车道方向优化）
	Node2Vec	维系类服务（携转客户预测、用户离网预测、用户续约预测）合营类服务（金融-信贷风险识别）	精准营销类（VIP客户推荐、客户群体画像、社交媒体营销策略制定、个性化广告投放、客户精准画像、个性化理财产品推荐/手机银行产品推荐、潜在VIP客户群体推荐、社交媒体营销效果预测）智能风控类（反欺诈评分、潜在拒贷用户识别、欺诈团伙核心成员识别、客户偿贷能力评估、账户风险评估）基础服务类（全网用户群体细分）	指挥管控类（拥堵事件预测）指挥管控类（交通站点流量预测）
	Subgraph Matching	合营类服务（金融-信贷风险识别）	精准营销类（精准客户推荐、广告精准投放、客户精准画像、社交媒体营销效果预测、理财产品推荐）智能风控类（欺诈团伙核心成员识别、高风险账户识别、循环担保识别、异常资金流追溯、资产转移查控、一度/二度触黑）	指挥管控类（重点车辆行为模式匹配）路网规划类（道路优化与改建：拥堵路段识别，拥堵时段识别，道路设施损毁识别与维护）
	PPR	营销类服务（王卡用户模型：王卡感染用户挖掘、异网主卡用户反挖）	精准营销类（VIP客户推荐、社交媒体营销策略制定、个性化广告投放、客户精准画像、个性化理财产品推荐/手机银行产品推荐）智能风控类（欺诈账户识别、潜在拒贷用户识别、客户偿贷能力评估）	信息惠民类（交通知乎图谱-热点景点推荐）路网规划类（关键节点选址：公交地铁站点选址，天桥地下通道选址，安防监测选址，警示路牌选址）

大数据算法加速库提供与原生Spark MLlib和GraphX相同的接口，保证客户的应用程序无需任何修改即可使用算法库。算法库输出件包括BoostKit-ML-Kernel和BoostKit-Graph-Kernel核心算法实现二进制包，以及机器学习对接原生Spark接口的ML-API-Patch代码。

图1 算法库组成

大数据算法加速库具体部署操作参见《机器学习算法加速库特性指南》和《图分析算法加速库特性指南》。

基于网络公开的数据集，鲲鹏920 5250处理器运行机器学习&图分析算法加速库，相比友商运行Spark原生算法，计算性能提升50%以上。

图2 算法库性能对比
点击放大

父主题： 方案特性