python如何调取模型_如何使用 Java 调取 Python、R 的训练模型（） python如何调取模型

在工业界，我们经常会使用 Python 或 R 来训练离线模型，使用 Java 来做在线 Web 开发应用——这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。
PMML
PMML 是 Predictive Model Markup Language 的缩写，翻译为中文就是“预测模型标记语言”。它是一种基于XML的标准语言，用于表达数据挖掘模型，可以用来在不同的应用程序中交换模型。
也就是说它定义了一个标准，不同语言都可以根据这个标准来实现。关于 PMML 内部的实现原理细节，我们这里不做深究，感兴趣的可以参见：http://dmg.org/pmml/v4-3/GeneralStructure.html。
PMML 能做什么
介绍完了 PMML 的概念后，大家可能还是很懵，不清楚它有什么用。先来相对正式地说下它的用处：对于 PMML，使用一个应用程序很容易在一个系统上开发模型，并且只需通过发送XML配置文件就可以在另一个系统上使用另一个应用程序部署模型。也就是说我们可以通过 Python 或 R 训练模型，将模型转为 PMML 文件，再使用 Java 根据 PMML 文件来构建 Java 程序。
来看一张关于 PMML 用途的图片：

文章图片

这张图的信息来一一说明下：
整个流程分为两部分：离线和在线。
离线部分流程是将样本进行特征工程，然后进行训练、生成模型。一般离线部分常用 Python 中的 sklearn、R 或者 Spark ML 来训练模型。
在线部分是根据请求得到样本数据，对这些数据采用与离线特征工程一样的方式来处理，然后使用模型进行评估。一般在线部分常用 Java、C++ 来开发。
离线部分与在线部分是通过 PMML 连接的，也就是说离线训练好了模型之后，将模型导出为 PMML 文件，在线部分加载该 PMML 文件生成对应的评估模型。
我们可以看到，PMML 是连接离线与在线环节的关键，一般导出 PMML 文件和加载 PMML 文件都需要各个语言来做单独的实现。不过幸运的是，已经有很多大神实现了这些，可以参见：https://github.com/jpmml 。

文章图片

实战环节
训练并导出 PMML
我们这里仍然是通过 sklearn 训练一个随机森林模型，我们需要借助 sklearn2pmml 将 sklearn 训练的模型导出为 PMML 文件。如果没有 sklearn2pmml，请输入以下命令来安装：
pip install --user git+https://github.com/jpmml/sklearn2pmml.git
我们来看下如何使用 sklearn2pmml 。
fromsklearn.datasetsimportload_iris
fromsklearn.ensembleimportRandomForestClassifier
fromsklearn2pmmlimportPMMLPipeline, sklearn2pmml
iris = load_iris()
# 创建带有特征名称的 DataFrame
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
# 创建模型管道
iris_pipeline = PMMLPipeline([
("classifier", RandomForestClassifier())
])
# 训练模型
iris_pipeline.fit(iris_df, iris.target)
# 导出模型到 RandomForestClassifier_Iris.pmml 文件
sklearn2pmml(iris_pipeline,"RandomForestClassifier_Iris.pmml")
导出成功后，我们将在当前路径看到一个 PMML 文件：RandomForestClassifier_Iris.pmml。
导入 PMML 并进行评估
生成了 PMML 文件后，接下来我们要做的就是使用 Java 导入(加载)PMML文件。这里借助了 Java 的第三方依赖：pmml-evaluator。我们需要在 pom.xml 文件中加入以下依赖：
org.jpmml
pmml-evaluator
1.4.1
org.jpmml
pmml-evaluator-extension
1.4.1
引入 PMML 文件并进行评估的代码如下：
importorg.dmg.pmml.FieldName;
importorg.dmg.pmml.PMML;
importorg.jpmml.evaluator.*;
importorg.jpmml.model.PMMLUtil;
importorg.xml.sax.SAXException;
importjavax.xml.bind.JAXBException;
importjava.io.FileInputStream;
importjava.io.FileNotFoundException;
importjava.io.IOException;
importjava.io.InputStream;
importjava.util.ArrayList;
importjava.util.HashMap;
importjava.util.List;
importjava.util.Map;
publicclassClassificationModel{
privateEvaluator modelEvaluator;
/**
* 通过传入 PMML 文件路径来生成机器学习模型
*
*@parampmmlFileName pmml 文件路径
*/
publicClassificationModel(String pmmlFileName){
PMML pmml =null;
try{
if(pmmlFileName !=null) {
InputStream is =newFileInputStream(pmmlFileName);
pmml = PMMLUtil.unmarshal(is);
try{
is.close();
}catch(IOException e) {
System.out.println("InputStream close error!");
}
ModelEvaluatorFactory modelEvaluatorFactory = ModelEvaluatorFactory.newInstance();
this.modelEvaluator = (Evaluator) modelEvaluatorFactory.newModelEvaluator(pmml);
modelEvaluator.verify();
System.out.println("加载模型成功！");
}
}catch(SAXException e) {
e.printStackTrace();
}catch(JAXBException e) {
e.printStackTrace();
}catch(FileNotFoundException e) {
e.printStackTrace();
}
}
// 获取模型需要的特征名称
publicListgetFeatureNames(){
List featureNames =newArrayList();
List inputFields = modelEvaluator.getInputFields();
for(InputField inputField : inputFields) {
featureNames.add(inputField.getName().toString());
}
returnfeatureNames;
}
// 获取目标字段名称
publicStringgetTargetName(){
returnmodelEvaluator.getTargetFields().get(0).getName().toString();
}
// 使用模型生成概率分布
privateProbabilityDistributiongetProbabilityDistribution(Map arguments){
Map evaluateResult = modelEvaluator.evaluate(arguments);
FieldName fieldName =newFieldName(getTargetName());
return(ProbabilityDistribution) evaluateResult.get(fieldName);
}
// 预测不同分类的概率
publicValueMappredictProba(Map arguments){
ProbabilityDistribution probabilityDistribution = getProbabilityDistribution(arguments);
returnprobabilityDistribution.getValues();
}
// 预测结果分类
publicObjectpredict(Map arguments){
ProbabilityDistribution probabilityDistribution = getProbabilityDistribution(arguments);
returnprobabilityDistribution.getPrediction();
}
publicstaticvoidmain(String[] args){
ClassificationModel clf =newClassificationModel("RandomForestClassifier_Iris.pmml");
List featureNames = clf.getFeatureNames();
System.out.println("feature: "+ featureNames);
// 构建待预测数据
Map waitPreSample =newHashMap<>();
waitPreSample.put(newFieldName("sepal length (cm)"),10);
waitPreSample.put(newFieldName("sepal width (cm)"),1);
waitPreSample.put(newFieldName("petal length (cm)"),3);
waitPreSample.put(newFieldName("petal width (cm)"),2);
System.out.println("waitPreSample predict result: "+ clf.predict(waitPreSample).toString());
System.out.println("waitPreSample predictProba result: "+ clf.predictProba(waitPreSample).toString());
}
}
输出结果：
加载模型成功！
feature: [sepal length (cm), petal width (cm), sepal width (cm), petal length (cm)]
waitPreSample predict result: 1
waitPreSample predictProba result: {0=0.0, 1=0.5, 2=0.5}
可以看到，模型需要的特征为：[sepal length (cm), petal width (cm), sepal width (cm), petal length (cm)]，预测该样本最终属于目标编号为 1 的类型，预测该样本属于不同目标编号的概率分布，{0=0.0, 1=0.5, 2=0.5}。
小结
【python如何调取模型_如何使用 Java 调取 Python、R 的训练模型（）】为了实现 Java 跨语言调用 Python/R 训练好的模型，我们借助 PMML 的规范，将模型固化为 PMML 文件，再使用该文件生成模型来评估

python如何调取模型_如何使用 Java 调取 Python、R 的训练模型（）

推荐阅读

基本生产成本明细账是如何设立的基本生产成本按什么分设明细账

德国相机品牌,世界上最好的相机品牌

淘宝网页登录入口淘宝电脑版

泡了温泉的泳衣怎么清洗

兄弟m118w清零-施乐m118w显示无法打印05

bios一键还原系统一键恢复系统怎么用，gghost一键恢复怎么用

iccid是什么意思

外贸公司,现在想租用服务器,具体怎样操作？

测试服务器失败是什么原因测试服务器怎么注销

孕妇朋友们可以吃青蒜吗

80岁老人过生日送什么礼物好 80岁老人过生日送哪些礼物好

佳能m6套机镜头怎么样佳能m6套头拍照技巧

第三次大组会

尼康28-105和24-120 尼康和18-105和28-105

看完你就明白的锁系列之自旋锁

科因沃奇和天梭手表哪种好

成由勤俭下一句是什么

腊八节是怎么来的腊八节的由来

亲子日记第196篇

分析应用层总结,微信应用层协议分析