Spark Structed Streaming + ML ML

场景在工业互联网场景中，工厂的现场积累了很多从设备上采集到的历史数据，可以用于数据模型的训练，同时通过现场的OPC Server 和Modbus Master 可以连接设备上的传感器进行实时数据的采集，将采集到的实时流数据应用到训练的模型，用于现场的设备故障预测。本文主要讨论基于Spark Structured Streaming 进行模型应用的实际应用。
方案基于工厂的实际情况，历史数据基于Spark的ML库进行模型的训练和模型的存储，采集的实时数据会汇总到Kafka中，同时使用Spark Structured Streaming 加载存储的数据模型进行模型应用，最终的预测数据重新写回到Kafka中，通过websocket协议推送到前端进行可视化显示。
选择使用Spark Streaming，主要三个原因：
1、由于Spark的2.4版本已经不再进行Spark Streaming 的更新，2.4版本对于流式处理方面特性都是基于Structured Streaming 的更新
2、Structured Streaming 提供了基于Dataset/Dataframe的统一API，使用更友好、与ML库的结合更便捷。
3、Structured Streaming不在是微批次的进行数据的处理，可以进行毫秒级的实时数据处理。
实践资源准备 1、Kafka 2.12
2、Spark 2.4
3、Scala 2.11
4、CentOS 7.4 64位
具体代码创建SparkSession，建立与Spark集群的建立，对于生产环节推荐使用集群模式的Spark集群，最少也要是 Standalone的方式。

?SparkSessionspark = SparkSession.builder().master("spark://master:7077").appName("ModelApplicationTask").getOrCreate();

建立source完成与kafka的连接、基于Topic进行数据的消费，获取到的DataSet的Scheml格式如下：

Dataset df = spark.readStream().format("kafka").option("kafka.bootstrap.servers",bootstrapServers).option("subscribe",topic).option("startingOffsets","earliest").load();

整理Dataset中的数据，生成模型应用需要的特征列

Dataset data = https://www.it610.com/article/df.withColumn("splitcol",split(col("value"),",")).select(col("splitcol").getItem(0).as("dpname"),col("splitcol").getItem(1).as("time"),col("splitcol").getItem(2).as("dptype"),col("splitcol").getItem(3).as("dpvalue")).drop("splitcol");

根据数据点名称，过滤数据集中的数据，生成用于预测的数据集

Dataset filterData = https://www.it610.com/article/data.where("dpname = '"+dataPointName+"'");
Dataset predict_data = https://www.it610.com/article/filterData.selectExpr("CAST(time AS STRING)","CAST(dpname AS STRING)","CAST(dptype AS STRING)","CAST(dpvalue AS DOUBLE)");
VectorAssembler assembler_for_predict =newVectorAssembler().setInputCols(newString[]{"dpvalue"}).setOutputCol("features");
Dataset vecDF_for_predict = assembler_for_predict.transform(predict_data);

加载hdfs或本地磁盘加载训练后的模型，如果没有hdfs环境，可以通过Spark集群广播的方式将本地加载的模型，广播到Spark集群中。

LinearRegressionModellrModel = LinearRegressionModel.load(modelPath);

设置模型特征列，应用模型进行预测

Datasetprediction = lrModel.transform(vecDF_for_predict);

将预测结果，重新组合成逗号分隔的字符串，写回到Kafka中

String separator =",";
StreamingQuery ds = prediction.select(concat_ws(separator, col("dpname"), col("time"), col("dptype"), col("prediction")).cast("STRING").as("value")).writeStream().option("checkpointLocation", checkpointLocation).format("kafka").option("kafka.bootstrap.servers",bootstrapServers).option("topic","test").start();
ds.awaitTermination();

打包成jar包，通过submit提交到spark集群

sudobin/spark-submit --master spark://master:7077--name test --total-executor-cores1--executor-memory600M--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0--class ModelApplicationTask ./jars/TestSpark.jar

通过消费kakfa中数据验证，模型是否应用成功。

./kafka-console-consumer.sh --bootstrap-server172.16.22.210:9092--topic test

问题

问题1：java.lang.AssertionError: assertion failed: Concurrent update to thelog. Multiple streamingjobsdetectedfor1936

原因：主要是checkpointLocation目录一样了，导致更新log是出错啦
解决办法:一个提交的app占用一个独立的 checkpointLocation目录

问题2：Please deploy the applicationasper the deployment sectionof"Structured Streaming + Kafka Integration Guide".

原因：官方提供的Spark 2.4版本发布包的jars目录中缺少kafka的包
解决办法:在/spark-submit 是加入以上参数--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0

问题3：WARN TaskSchedulerImpl: Initial job has not accepted any resources; checkyour cluster UItoensure that workersareregisteredandhave sufficient resources

原因：Spark Structured Streaming采用预分配资源的方式，不支持动态资源调度，长期占用系统资源，无法最大化利用系统硬件资源
解决方法：通过total-executor-cores 和 executor-memory 参数，限定每个任务占用的core和内存大小
总结 Spark Structured Streaming结合Kafka数据源，应用ML机器学习库可以快捷的实现数据模型的流式应用，但是采用的预分配硬件资源的方式，将长期占用系统资源，无法最大化利用Spark集群的资源，需要结合具体的情况进行权衡后选择。
【Spark Structed Streaming + ML】