本文概述
- 1.下载CSVSplitter
- 2.分割CSV数据集
1.下载CSVSplitter CSVSplitter是ERD Concepts公司为Windows开发的桌面应用程序。使用此工具, 你可以根据行数(行)将大型逗号分隔文件(CSV)拆分为较小的文件。 CSV拆分器将在短短几分钟内处理数百万条记录。它会在后台运行, 因此你无需等待完成即可继续工作, 但是, 作为个人提示, 如果数据集很大(与本示例中的25GB相比), 我们建议你仅将提到的应用程序已打开, 因此它将使用计算机的所有可用资源, 并且处理时间将更快, 并且不会影响你同时打开的其他应用程序的性能。
你可以直接从此链接下载该工具, 也可以查看ERD公司提供的所有工具的列表, 然后从此处的列表中下载。网站的zip文件将包含一个简单的可移植.exe文件和.txt文件, 这些文件是与可执行文件一起使用所必需的, 只需将内容提取到某个目录中即可开始工作:
文章图片
有关此工具的更多信息, 请不要忘记在此处访问ERD Concepts官方网站。
2.分割CSV数据集 首先, 你需要将CSV文件分割成小块。在我们的示例中, 我们有一些文件的未压缩文件大小为25GB, 显然, 在Excel或什至纯文本编辑器中打开此类文件都将导致程序崩溃!例如, 以下包含标题的CSV结构(第一行指定列):
id, name, description1, "Bruce Wayne", "I'm Batman"2, "Alfred Pennyworth", "I'm Batman's Butler"...7691502, "Comissioner Gordon", "Best Comissioner Ever"
正如我们所描述的, 该文件有7.514.701行, 因此, 理想情况下, 我们可以将文件分成每个文件250.000行的大块, 因此可以在自己的脚本中获得不错的性能。
你只需要打开应用程序, 然后选择要处理的输入CSV文件以及应该存储结果的输出目录。有2个复选框使你可以:
- 第一行包含列标题:如果你的CSV结构将第一行描述为每个字段的列名, 则应对此进行标记, 以免将第一行作为数据处理。
- 在每个新程序包中包含标头:此选项指定第一行是否确实具有列标头, 然后每个输出文件也应包含标头。
文章图片
处理整个文件花了23分钟, 从原始文件中生成了30个块(文件)。输出文件如下所示:
文章图片
编码愉快??!
推荐阅读
- 如何在带有Darcula主题的黑暗模式下使用NetBeans
- 安卓在代码中设置TextView的drawableLeftdrawableRightdrawableTopdrawableBottom
- Linux系统移植篇5(STM32MP1微处理器之Trusted Firmware-A简介)
- 软件公开的秘密
- 零基础上手HAL库之—GPIO点灯
- 安卓ProgressBar水平进度条的颜色设置
- [C语言小白]scanf函数的细节理解与感悟
- linux关于ftp查看不到文件列表的问题
- HarmonyOS 数据库系列之对象关系映射数据库