机器学习&图分析算法加速库
Spark组件提供原生的机器学习MLlib和图GraphX算法库,支持在分布式集群上运行。鲲鹏基于算法原理和芯片特征针对机器学习和图分析算法进行深入优化,实现相比原生算法性能提升50%。
机器学习&图分析算法加速库提供以下算法优化,后续版本会持续更新增加算法。
- 机器学习算法:
分类回归(Random Forest、GBDT、SVM、Logistic Regression、Linear Regression、Decision Tree、XGBoost、KNN)、聚类(K-means、DBSCAN、LDA)、特征工程(PCA、SPCA、SVD、Pearson、Covariance、Spearman、IDF、DTB、Word2Vec)、模式挖掘(ALS、PrefixSpan、SimRank)。
- 图分析算法:
中心性分析(K-Core、PageRank、TrustRank、Personal PageRank、Closeness、Betweenness、Degree、Weighted PageRank、Incremental PageRank、Trillion PageRank)、拓扑度量(TriangleCount、Modularity、ClusteringCoefficient)、路径分析(MSSP、BFS、CD)、社团挖掘(WCE、MCE、SCC、Louvain、LPA、CC)、图表示学习(Node2Vec)、相似性分析(Subgraph Matching)。
算法的常用应用场景如下表。
算法分类 |
算法名称 |
应用行业 |
||
---|---|---|---|---|
运营商 |
金融 |
交通 |
||
机器学习算法 |
Random Forest |
|
|
|
GBDT |
|
|
|
|
SVM |
|
|
|
|
Logistic Regression |
|
|
|
|
Linear Regression |
|
|
|
|
Decision Tree |
|
|
|
|
XGBoost |
|
|
|
|
KNN |
|
|
|
|
K-means |
|
|
|
|
DBSCAN |
|
|
|
|
LDA |
|
|
|
|
PCA |
|
|
|
|
SVD |
|
|
|
|
Pearson |
|
|
|
|
Covariance |
|
|
|
|
Spearman |
|
|
|
|
DTB |
|
|
|
|
word2vec |
|
|
|
|
ALS |
|
|
|
|
PrefixSpan |
|
|
|
|
图分析算法 |
K-core |
|
|
|
PageRank |
|
|
|
|
TrustRank |
维系类服务(携转客户预测、用户离网预测) |
|
指挥管控类(拥堵站点预测) |
|
Closeness |
营销类服务(生命周期模型:不限量潜客识别、高风险客户细分) |
|
|
|
Betweenness |
|
|
|
|
Degree |
营销类服务(内容推荐:数字广告发放) |
|
|
|
TriangleCount |
维系类服务(携转客户预测、用户离网预测) |
智能风控类(信贷风险识别、客户违约预测) |
指挥管控类(交通站点流量预测、公交地铁站点流量监测、重点路段流量监测、重点道路拥堵识别) |
|
Modularity |
营销类服务(潜在集团群体亲密度细分) |
精准营销类(社交媒体营销效果预测) |
智能服务类(物流仓位推荐、物流资源配置与优化、物流供需分析) |
|
ClusteringCoefficient |
维系类服务(携转客户预测、用户离网预测) |
智能风控类(信贷风险识别、客户违约预测) |
|
|
MSSP |
|
|
|
|
BFS |
合营类服务(交通-人群流量预测、敏感旅客识别) |
|
|
|
CD |
合营类服务(金融-互金风险识别) |
智能风控类(循环担保识别、异常资金流追溯、资产转移查控) |
智能服务类(路径导航,出行方式推荐,无人驾驶道路推荐) |
|
WCE |
营销类服务(业务推荐:集团客户识别/集团业务推送) |
|
智能服务类(物流仓位推荐) |
|
MCE |
营销类服务(业务推荐:家庭套餐推荐/亲情号推荐) |
|
信息惠民类(共享单车投放推荐) |
|
SCC |
基础类服务(全用户/全业务/全渠道:细分用户群) |
|
|
|
Louvain |
基础类服务(全用户/全业务/全渠道:细分用户群) |
|
|
|
LPA |
维系类服务(携转客户预测、用户离网预测) |
|
|
|
CC |
基础类服务(全用户/全业务/全渠道:大颗粒用户分群) |
|
|
|
Node2Vec |
|
|
|
|
Subgraph Matching |
合营类服务(金融-信贷风险识别) |
|
|
|
PPR |
营销类服务(王卡用户模型:王卡感染用户挖掘、异网主卡用户反挖) |
|
|
大数据算法加速库提供与原生Spark MLlib和GraphX相同的接口,保证客户的应用程序无需任何修改即可使用算法库。算法库输出件包括BoostKit-ML-Kernel和BoostKit-Graph-Kernel核心算法实现二进制包,以及机器学习对接原生Spark接口的ML-API-Patch代码。
大数据算法加速库具体部署操作参见《机器学习算法加速库 特性指南》和《图分析算法加速库 特性指南》。
基于网络公开的数据集,鲲鹏920 5250处理器运行机器学习&图分析算法加速库,相比友商运行Spark原生算法,计算性能提升50%以上。