spark读写csv文件
【spark读写csv文件】如果是spark1.6.0请添加maven:
com.databricks
spark-csv_2.10
1.4.0
compile
如果是spark2.0+就不用添加maven了,因为spark2.0内部集成了读写csv文件。
package com.egridcloud.spark
import org.apache.spark.sql.{DataFrame, SQLContext}
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by LHX on 2018/3/20 13:26.
*/
object SparkReadFile {
def main(args: Array[String]): Unit = {
val localpath="D:\\input\\word.csv"
val outpath="D:\\output\\word2"
val conf = new SparkConf()
conf.setAppName("SparkReadFile")
conf.setMaster("local")
val sparkContext = new SparkContext(conf)
val sqlContext = new SQLContext(sparkContext)
//读csv文件
val data: DataFrame = sqlContext.read.format("com.databricks.spark.csv")
.option("header", "false") //在csv第一行有属性"true",没有就是"false"
.option("inferSchema", true.toString) //这是自动推断属性列的数据类型
.load(localpath)
//data.show()
// 写csv文件
data.repartition(1).write.format("com.databricks.spark.csv")
.option("header", "false")//在csv第一行有属性"true",没有就是"false"
.option("delimiter",",")//默认以","分割
.save(outpath)
sparkContext.stop()
}
}
推荐阅读
- Spark|Spark 数据倾斜及其解决方案
- 我用我的坚持来推动读写
- python对数据进行分类|python对数据进行分类、文件是csv文件_用Python将处理数据得到的csv文件分类(按顺序)保存...
- HDFS读写数据流
- 2018年6月25日+06号蒋昕妍+《卓有成效的管理者》第五章+21天阅读写作自律计划
- 2018年7月10日+20号water+最美的教育最简单+21天阅读写作自律计划
- 鲤鱼跃龙门&心灵读写(第260天)
- java文件读写操作实例详解
- 如何将EDI报文转换为CSV格式文件()
- python文件读写(二)-rar|python文件读写(二)-rar, zip,tar, gz压缩,解压缩文件