在Spark char计数示例中, 我们发现特定文件中每个字符的出现频率。在这里, 我们使用Scala语言执行Spark操作。
执行Spark字符计数示例的步骤
在此示例中, 我们找到并显示每个字符的出现次数。
- 在本地计算机上创建一个文本文件, 并在其中写入一些文本。
$ nano sparkdata.txt
文章图片
- 检查在sparkdata.txt文件中编写的文本。
$ cat sparkdata.txt
文章图片
- 在HDFS中创建一个目录, 用于保存文本文件。
$ hdfs dfs -mkdir /spark
- 在指定目录的HDFS上上传sparkdata.txt文件。
$ hdfs dfs -put /home/codegyani/sparkdata.txt /spark
文章图片
- 现在, 按照以下命令在Scala模式下打开火花。
$ spark-shell
文章图片
- 让我们使用以下命令创建一个RDD。
scala>
val data=http://www.srcmini.com/sc.textFile("sparkdata.txt");
【Spark Char Count示例】在这里, 传递包含数据的任何文件名。
- 现在, 我们可以使用以下命令读取生成的结果。
scala>
data.collect;
文章图片
- 在这里, 我们使用以下命令以单个单词的形式拆分现有数据。
scala>
val splitdata = http://www.srcmini.com/data.flatMap(line =>
line.split(""));
- 现在, 我们可以使用以下命令读取生成的结果。
scala>
splitdata.collect;
文章图片
- 现在, 执行地图操作。
scala>
val mapdata = http://www.srcmini.com/splitdata.map(word =>
(word, 1));
在这里, 我们为每个单词分配一个值1。
- 现在, 我们可以使用以下命令读取生成的结果。
scala>
mapdata.collect;
文章图片
- 现在, 执行reduce操作
scala>
val reducedata = http://www.srcmini.com/mapdata.reduceByKey(_+_);
在这里, 我们总结了生成的数据。
- 现在, 我们可以使用以下命令读取生成的结果。
scala>
reducedata.collect;
文章图片
在这里, 我们得到了期望的输出。
推荐阅读
- Apache Spark组件
- Spark架构
- Mac的6款最佳视频编辑软件列表(包括 M1 Mac)
- Mac的5款最佳税务软件有哪些(哪个最好用?)
- Mac常用的最佳统计软件列表(更有效地分析数据)
- 12款Mac的最佳免费统计软件合集(哪一个最好())
- 5款Mac的最佳绘图软件(Microsoft Paint & Paint 3D替代品)
- Mac和Windows的10个最佳外汇交易平台合集
- Mac的10款最佳图形设计软件列表(哪一个更好())