本文概要
- 什么是数据集?
- 数据集中的数据类型
- 需要的数据集
- 机器学习数据集热门来源
在了解机器学习数据集的来源之前,让我们先讨论一下数据集。
什么是数据集?数据集是按一定顺序排列的数据集合。数据集可以包含从数组序列到数据库表的任何数据。下表显示了数据集的一个示例
国家 | 年龄 | 薪水 | 购买 |
---|---|---|---|
India | 38 | 48000 | No |
France | 43 | 45000 | Yes |
德国 | 30 | 54000 | 没有 |
France | 48 | 65000 | No |
Germany | 40 | Yes | |
印度 | 35 | 58000 | 是 |
数据集中的数据类型
- 数值数据:比如房价,温度等
- 分类数据:比如是/否,真/假,蓝/绿等。
- 有序数据:这些数据类似于分类数据,但可以比较的基础上进行测量。
如果数据集没有很好地准备和预处理,任何ML项目背后应用的技术都不能正常工作。
在ML项目的开发过程中,开发人员完全依赖于数据集。在构建ML应用程序时,数据集分为两部分
- 训练数据集
- 测试数据集
文章图片
注:数据集是大的尺寸,所以下载这些数据集,你必须有快速的互联网在你的电脑。机器学习数据集热门来源下面是数据集的列表,这些数据集是免费提供给公众使用的
1. Kaggle数据集
文章图片
Kaggle是为数据科学家和机器学习者提供数据集的最佳来源之一。它允许用户以一种简单的方式查找、下载和发布数据集。它还提供了与其他机器学习工程师一起工作并解决与数据科学相关的难题的机会。
Kaggle提供不同格式的高质量的数据集,我们可以很容易地找到和下载。
Kaggle数据集的链接是https://www.kaggle.com/datasets。
2. UCI机器学习库
文章图片
UCI机器学习知识库是机器学习数据集的重要来源之一。这个存储库包含数据库、领域理论和数据生成器,机器学习社区广泛使用它们来分析ML算法。
自1987年以来,它被学生、教授、研究人员广泛用作机器学习数据集的主要来源。
根据回归、分类、聚类等机器学习的问题和任务对数据集进行分类。它还包含一些流行的数据集,如虹膜数据集,汽车评估数据集,扑克手数据集等。
【如何获得机器学习数据集】UCI机器学习存储库的链接是https://archive.ics.uci.edu/ml/index.php。
3.AWS数据集
文章图片
我们可以搜索、下载、访问和共享通过AWS资源公开提供的数据集。这些数据集可以通过AWS资源访问,但由不同的政府组织、研究人员、企业或个人提供和维护。
任何人都可以通过AWS资源使用共享数据分析和构建各种服务。云上共享的数据集帮助用户将更多的时间花在数据分析上,而不是获取数据上。
此源提供了各种类型的数据集以及使用数据集的示例和方法。它还提供了搜索框,我们可以使用它搜索所需的数据集。任何人都可以将任何数据集或示例添加到AWS上的开放数据注册表。
该资源的链接是https://registry.opendata.aws/。
4.谷歌的数据集搜索引擎
文章图片
谷歌数据集搜索引擎是谷歌于2018年9月5日推出的搜索引擎。这个来源帮助研究人员获得可免费使用的在线数据集。
谷歌数据集搜索引擎的链接是https://toolbox.google.com/datasetsearch。
5.微软数据集
文章图片
微软发布了“微软研究开放数据”存储库,收集了自然语言处理、计算机视觉和特定领域科学等各个领域的免费数据集。
使用这个资源,我们可以下载数据集在当前设备上使用,也可以直接在云基础设施上使用。
从这个资源下载或使用该数据集的链接是https://msropendata.com/。
6.Awesome公共数据集
文章图片
Awesome公共数据集提供了高质量的数据集,这些数据集按照农业、生物、气候、复杂网络等主题在列表中以良好的组织方式排列。大多数数据集是免费的,但有些可能不是,所以最好在下载数据集之前检查许可。
Awesome 公共数据集的链接是https://github.com/awesomedata/awesome-public-datasets。
7.政府数据集
获取政府相关数据有不同的来源。各国公布从不同部门收集的政府数据供公众使用。
提供这些数据集的目的是提高人民政府工作的透明度,并以创新的方式使用这些数据。以下是一些政府数据集的链接
- 印度政府数据集
- 美国政府数据集
- 北爱尔兰公共部门的数据集
- 欧盟开放数据门户网站
文章图片
Visual data提供了多个针对计算机视觉的海量数据集,如图像分类、视频分类、图像分割等。因此,如果你想建立一个项目的深度学习或图像处理,那么你可以参考这个来源。
从这个源下载数据集的链接是https://www.visualdata.io/。
9. Scikit-learn数据集
文章图片
Scikit-learn是机器学习爱好者的好资源。这个来源提供玩具和真实世界的数据集。这些数据集可以从sklearn获得。数据集包和使用通用的数据集API。
可以使用一些预定义的函数加载scikit-learn上可用的玩具数据集,如load_boston([return_X_y])、load_iris([return_X_y])等,而不必从外部源导入任何文件。但是这些数据集并不适合实际的项目。
从这个源下载数据集的链接是https://scikit-learn.org/stable/datasets/index.html。
推荐阅读
- 机器学习数据预处理
- 人工智能和机器学习之间的区别
- 安装Anaconda和Python
- 机器学习开发的生命周期
- 机器学习中的应用
- 机器学习的历史
- 重点CS 4365
- 计算机视觉|OpenAI新研究(扩散模型在图像合成质量上击败BigGAN,多样性还更佳)
- Unbox|C++ 调用 Mask R-CNN Detectron2