0_数据集|标识别,人脸识别等常用数据集

参考博客: https://www.cnblogs.com/weiyinfu/p/8016405.html#32
常用数据集
一、Cifar数据集

  • Hinton参与收集
  • 彩色图像(RGB)
  • 图像尺寸相同
  • 分为两种:Cifar10和Cifar100
  • 用于图片分类
Cifar10包含60000条数据,50000条用于训练,10000条用于测试。这60000条数据中,包含10类,每类6000张图片(5000训练,1000测试)。
Cifar100包含60000条数据,100类图片,每类600张(500训练,100测试)。
每张图片都为3232的RGB图像,故每张图片大小为3232*3=3072B。
CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32×32,10,000个测试图像。CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
数据集大小:~170MB
下载地址:
http://www.cs.toronto.edu/~kriz/cifar.html
二、Mnist数据集 【0_数据集|标识别,人脸识别等常用数据集】NIST名叫“美国国家标准与技术研究院”,该机构收集了两堆手写数字,结构比较混乱,Yann Lecun进行了一些整理,所以叫Mixed NIST。
  • Yan Lecun 1988年整理收集
  • 二值图像
  • 图像尺寸相同(28*28)
Mnist数据集包含60000张图片,10个类别(0~9共10个数字),每张图片6000张(5000训练,1000测试)。
http://yann.lecun.com/exdb/mnist/index.html
三、ImageNet数据集 1500万张图片,仿照WordNet的形式进行组织。
由斯坦福李飞飞整理,用于替代Pascal和labelMe数据集。
ImageNet数据集可谓是目前影响力最大的数据集,它极大地促进了计算机视觉的发展。根据ImageNet数据集,人们举办了ILSVRC(International Large Scale Visual Recognition Challenge)。该比赛从2010年开始举办,2017年为最后一届,在这8年间,计算机视觉取得空前发展。ILSVRC包括的比赛项目有:
  • 物体检测 Object Detection
  • 物体定位 Object Localization
  • 视频中的物体检测
  • 场景分类 Scene Classification
历年比赛都有重大成果:
  • 2012年,AlexNet(巨大、复杂)
  • 2014年,VGG和GoogleNet(节省空间)
  • 2015年,ResNet(孙剑、何凯明提出残差网络)
四、牛津花卉数据集 Oxford flower dataset
  • 图片尺寸不一,图片来源于网络
  • 有两种数据集:17类的和102类的
Oxford17包括17类花卉,每类80张图片,总共1360张图片。
Oxford102包括102类花卉,每类40~258张图片不等。
五、COCO数据集 COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
Google开源的开源了图说生成模型show and tell就是在此数据集上测试的,想玩的可以下下来试试哈。
数据集大小:~40GB
下载地址:http://mscoco.org/
六、PASCAL VOC PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
数据集大小:~2GB
下载地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html
七、OPEN Image 过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司,自然也要做出些表示,于是乎就有了Open Image。
Open Image是一个包含~900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。
谷歌出品,必属精品!唯一不足的可能就是它只是提供图片URL,使用起来可能不如直接提供图片方便。
此数据集,笔者也未使用过,不过google出的东西质量应该还是有保障的。
数据集大小:~1.5GB(不包括图片)
下载地址:
https://github.com/openimages/dataset
八、Youtube-8M Youtube-8M为谷歌开源的视频数据集,视频来自youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。
此数据集的下载提供下载脚本,由于国内网络的特殊原因,下载此数据经常断掉,不过还好下载脚本有续传功能,过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载,这样就不用一直守着了。(截至发文,断断续续的下载,笔者表示还没下完呢……)
数据集大小:~1.5TB
下载地址:https://research.google.com/youtube8m/
九、Iris鸢尾花数据集 Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
数据集特征: 多变量
记录数: 150
领域: 生活
属性特征: 实数
属性数目: 4
捐赠日期 1988-07-01
相关应用: 分类
缺失值? 无
网站点击数: 563347
十、Adult数据集 该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
数据集特征: 多变量
记录数: 48842
领域: 社会
属性特征: 类别型,整数
属性数目: 14
捐赠日期 1996-05-01
相关应用: 分类
缺失值? 有
网站点击数: 393977
十一、Wine 这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
数据集特征: 多变量
记录数: 178
领域: 物理
属性特征: 整数,实数
属性数目: 13
捐赠日期 1991-07-01
相关应用: 分类
缺失值? 无
网站点击数: 337319
十二、Car Evaluation 这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
数据集特征: 多变量
记录数: 1728
领域: N/A
属性特征: 类别型
属性数目: 6
捐赠日期 1997-06-01
相关应用: 分类
缺失值? 无
网站点击数: 272901
十三、著名的UCI http://archive.ics.uci.edu/ml/index.php
加州大学欧文(尔湾)分校(UCI)University of California,Irvine是一所四年制公立大学,成立于1965年。它虽然是加州大学各成员学院中历史最短的一所,但排名却紧追伯克利、洛杉矶之后,列全美最好的公立学校前十名之一。加州大学尔湾分校除了拥有崭新优美的建筑外,教职人员皆具有深厚的专业背景,其中有三人为诺贝尔奖的获得者。UCI最好的学科是批判文学,生物学、社会生态学、英文、经济和政治科学,因为生物科学是全大学最好和学生选修最多的学科,不少有志将来念医科的青年人,都希望能在这里修读生物学。此外,加州尔湾分校有47%学生是亚裔美国人,包括不少在美国落地生根的中国人、日本人、南韩人、新马泰人等.
十四、音乐相关数据集
  • Piano-midi.de: classical piano pieces (http://www.piano-midi.de/)
  • Nottingham : over 1000 folk tunes (http://abc.sourceforge.net/NMD/)
  • MuseData: electronic library of classical music scores (http://musedata.stanford.edu/)
  • JSB Chorales: set of four-part harmonized chorales (http://www.jsbchorales.net/index.shtml)
  • FMA: A Dataset For Music Analysis (https://github.com/mdeff/fma)
十五、其它图像相关数据集
  • Caltech 101: pictures of objects belonging to 101 categories (http://www.vision.caltech.edu/Image_Datasets/Caltech101/)
  • Caltech 256: pictures of objects belonging to 256 categories (http://www.vision.caltech.edu/Image_Datasets/Caltech256/)
  • Caltech Silhouettes: 28×28 binary images contains silhouettes of the Caltech 101 dataset
  • STL-10 dataset is an image recognition dataset for developing unsupervised feature learning, deep learning, self-taught learning algorithms. It is inspired by the CIFAR-10 dataset but with some modifications. http://www.stanford.edu/~acoates//stl10/
  • The Street View House Numbers (SVHN) Dataset – http://ufldl.stanford.edu/housenumbers/
  • NORB: binocular images of toy figurines under various illumination and pose (http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/)
  • Imagenet: image database organized according to the WordNethierarchy (http://www.image-net.org/)
  • Pascal VOC: various object recognition challenges (http://pascallin.ecs.soton.ac.uk/challenges/VOC/)
  • Labelme: A large dataset of annotated images, http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
  • COIL 20: different objects imaged at every angle in a 360 rotation(http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php)
  • COIL100: different objects imaged at every angle in a 360 rotation (http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php)
十六、人造数据集
  • Arcade Universe – An artificial dataset generator with images containing arcade games sprites such as tetris pentomino/tetromino objects. This generator is based on the O. Breleux’s bugland dataset generator.
  • A collection of datasets inspired by the ideas from BabyAISchool:
  • BabyAIShapesDatasets : distinguishing between 3 simple shapes
  • BabyAIImageAndQuestionDatasets : a question-image-answer dataset
  • Datasets generated for the purpose of an empirical evaluation of deep architectures (DeepVsShallowComparisonICML2007):
  • MnistVariations : introducing controlled variations in MNIST
  • RectanglesData : discriminating between wide and tall rectangles
  • ConvexNonConvex : discriminating between convex and nonconvex shapes
  • BackgroundCorrelation : controlling the degree of correlation in noisy MNIST backgrounds
十七、人脸数据集
  • Labelled Faces in the Wild: 13,000 images of faces collected from the web, labelled with the name of the person pictured (http://vis-www.cs.umass.edu/lfw/)
  • Toronto Face Dataset
  • Olivetti: a few images of several different people (http://www.cs.nyu.edu/~roweis/data.html)
  • Multi-Pie: The CMU Multi-PIE Face Database (http://www.multipie.org/)
  • Face-in-Action (http://www.flintbox.com/public/project/5486/)
  • JACFEE: Japanese and Caucasian Facial Expressions of Emotion (http://www.humintell.com/jacfee/)
  • FERET: The Facial Recognition Technology Database (http://www.itl.nist.gov/iad/humanid/feret/feret_master.html)
  • mmifacedb: MMI Facial Expression Database (http://www.mmifacedb.com/)
  • IndianFaceDatabase: http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase/)
  • (e.g. The Yale Face Database (http://vision.ucsd.edu/content/yale-face-database) and The Yale Face Database B (http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html)).
十八、文本数据集
  • 20 newsgroups: classification task, mapping word occurences to newsgroup ID (http://qwone.com/~jason/20Newsgroups/)
  • Reuters (RCV*) Corpuses: text/topic prediction (http://about.reuters.com/researchandstandards/corpus/)
  • Penn Treebank : used for next word prediction or next character prediction (http://www.cis.upenn.edu/~treebank/)
  • Broadcast News: large text dataset, classically used for next word prediction (http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44)
  • Wikipedia Dataset
  • Multidomain sentiment analysis dataset: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
  • ## 十九、语音数据集
  • TIMIT Speech Corpus: phoneme classification (http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC93S1)
  • Aurora : Timit with noise and additional information
二十、推荐系统数据集
  • MovieLens: Two datasets available from http://www.grouplens.org. The first dataset has 100,000 ratings for 1682 movies by 943 users, subdivided into five disjoint subsets. The second dataset has about 1 million ratings for 3900 movies by 6040 users.
  • Jester: This dataset contains 4.1 million continuous ratings (-10.00 to +10.00) of 100 jokes from 73,421 users.
  • Netflix Prize: Netflix released an anonymised version of their movie rating dataset; it consists of 100 million ratings, done by 480,000 users who have rated between 1 and all of the 17,770 movies.
  • Book-Crossing dataset: This dataset is from the Book-Crossing community, and contains 278,858 users providing 1,149,780 ratings about 271,379 books.
二十一、其它数据集
  • “Musk” dataset
  • CMU Motion Capture Database: (http://mocap.cs.cmu.edu/)
  • Brodatz dataset: texture modeling (http://www.ux.uis.no/~tranden/brodatz.html)
  • Million Song dataset: http://labrosa.ee.columbia.edu/millionsong/
  • Merck Molecular Activity Challenge – http://www.kaggle.com/c/MerckActivity/data
二十二、推荐系统常用数据集(二)
  • 推荐系统常用的:
  • 1)MovieLens
  • MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模的库是943个独立用户对1682部电影作的10000次评分的数据;大规模的库是6040个独立用户对3900部电影作的大约100万次评分。
  • 2)EachMovie
  • HP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放.之后,这个推荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的.这个数据集有72916个用户对l628部电影进行的2811983次评分。早期大量的协同过滤的研究工作都 是基于这个数据集的。2004年HP重新开放EachMovie,这个数据集就不提供公开下载了。
  • 3)BookCrossing
  • 这个数据集是网上的Book-Crossing图书社区的278858个用户对271379本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。
  • 4)Jester Joke
  • Jester Joke是一个网上推荐和分享笑话的网站。这个数据集有73496个用户对100个笑话作的410万次评分。评分范围是-10~10的连续实数。这些数据是由加州大学伯克利分校的Ken Goldberg公布的。
  • 5)Netflix
  • 这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflix prize),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480189个匿名用户对大约17770部电影作的大约lO亿次评分。
  • 6)Usenet Newsgroups
  • 这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD2007上的论文。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。
  • 7)UCI知识库
  • UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库,其中存储大量用于模型训练的标注样本。
  • 8) http://snap.stanford.edu/na09/resources.html
  • 9) http://archive.ics.uci.edu/ml/
  • 10) http://www.ituring.com.cn/article/details/1188
  • 转自: http://www.cnblogs.com/zz-boy/archive/2012/08/27/2658063.html
二十三、公开人脸数据集 本页面收集到目前为止可以下载到的人脸数据库,可用于训练人脸深度学习模型。
人脸识别
数据库 描述 用途 获取方法
WebFace 10k+人,约500K张图片 非限制场景 链接
FaceScrub 530人,约100k张图片 非限制场景 链接
YouTube Face 1,595个人 3,425段视频 非限制场景、视频 链接
LFW 5k+人脸,超过10K张图片 标准的人脸识别数据集 链接
MultiPIE 337个人的不同姿态、表情、光照的人脸图像,共750k+人脸图像 限制场景人脸识别 链接 需购买
MegaFace 690k不同的人的1000k人脸图像 新的人脸识别评测集合 链接
IJB-A 人脸识别,人脸检测 链接
CAS-PEAL 1040个人的30k+张人脸图像,主要包含姿态、表情、光照变化 限制场景下人脸识别 链接
Pubfig 200个人的58k+人脸图像 非限制场景下的人脸识别 链接
wyfAbout
常用数据集
一、Cifar数据集
  • Hinton参与收集
  • 彩色图像(RGB)
  • 图像尺寸相同
  • 分为两种:Cifar10和Cifar100
  • 用于图片分类
Cifar10包含60000条数据,50000条用于训练,10000条用于测试。这60000条数据中,包含10类,每类6000张图片(5000训练,1000测试)。
Cifar100包含60000条数据,100类图片,每类600张(500训练,100测试)。
每张图片都为3232的RGB图像,故每张图片大小为3232*3=3072B。
CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32×32,10,000个测试图像。CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
数据集大小:~170MB
下载地址:
http://www.cs.toronto.edu/~kriz/cifar.html
二、Mnist数据集 NIST名叫“美国国家标准与技术研究院”,该机构收集了两堆手写数字,结构比较混乱,Yann Lecun进行了一些整理,所以叫Mixed NIST。
  • Yan Lecun 1988年整理收集
  • 二值图像
  • 图像尺寸相同(28*28)
Mnist数据集包含60000张图片,10个类别(0~9共10个数字),每张图片6000张(5000训练,1000测试)。
http://yann.lecun.com/exdb/mnist/index.html
三、ImageNet数据集 1500万张图片,仿照WordNet的形式进行组织。
由斯坦福李飞飞整理,用于替代Pascal和labelMe数据集。
ImageNet数据集可谓是目前影响力最大的数据集,它极大地促进了计算机视觉的发展。根据ImageNet数据集,人们举办了ILSVRC(International Large Scale Visual Recognition Challenge)。该比赛从2010年开始举办,2017年为最后一届,在这8年间,计算机视觉取得空前发展。ILSVRC包括的比赛项目有:
  • 物体检测 Object Detection
  • 物体定位 Object Localization
  • 视频中的物体检测
  • 场景分类 Scene Classification
历年比赛都有重大成果:
  • 2012年,AlexNet(巨大、复杂)
  • 2014年,VGG和GoogleNet(节省空间)
  • 2015年,ResNet(孙剑、何凯明提出残差网络)
四、牛津花卉数据集 Oxford flower dataset
  • 图片尺寸不一,图片来源于网络
  • 有两种数据集:17类的和102类的
Oxford17包括17类花卉,每类80张图片,总共1360张图片。
Oxford102包括102类花卉,每类40~258张图片不等。
五、COCO数据集 COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
Google开源的开源了图说生成模型show and tell就是在此数据集上测试的,想玩的可以下下来试试哈。
数据集大小:~40GB
下载地址:http://mscoco.org/
六、PASCAL VOC PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
数据集大小:~2GB
下载地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html
七、OPEN Image 过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司,自然也要做出些表示,于是乎就有了Open Image。
Open Image是一个包含~900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。
谷歌出品,必属精品!唯一不足的可能就是它只是提供图片URL,使用起来可能不如直接提供图片方便。
此数据集,笔者也未使用过,不过google出的东西质量应该还是有保障的。
数据集大小:~1.5GB(不包括图片)
下载地址:
https://github.com/openimages/dataset
八、Youtube-8M Youtube-8M为谷歌开源的视频数据集,视频来自youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。
此数据集的下载提供下载脚本,由于国内网络的特殊原因,下载此数据经常断掉,不过还好下载脚本有续传功能,过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载,这样就不用一直守着了。(截至发文,断断续续的下载,笔者表示还没下完呢……)
数据集大小:~1.5TB
下载地址:https://research.google.com/youtube8m/
九、Iris鸢尾花数据集 Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
数据集特征: 多变量
记录数: 150
领域: 生活
属性特征: 实数
属性数目: 4
捐赠日期 1988-07-01
相关应用: 分类
缺失值? 无
网站点击数: 563347
十、Adult数据集 该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
数据集特征: 多变量
记录数: 48842
领域: 社会
属性特征: 类别型,整数
属性数目: 14
捐赠日期 1996-05-01
相关应用: 分类
缺失值? 有
网站点击数: 393977
十一、Wine 这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
数据集特征: 多变量
记录数: 178
领域: 物理
属性特征: 整数,实数
属性数目: 13
捐赠日期 1991-07-01
相关应用: 分类
缺失值? 无
网站点击数: 337319
十二、Car Evaluation 这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
数据集特征: 多变量
记录数: 1728
领域: N/A
属性特征: 类别型
属性数目: 6
捐赠日期 1997-06-01
相关应用: 分类
缺失值? 无
网站点击数: 272901
十三、著名的UCI http://archive.ics.uci.edu/ml/index.php
加州大学欧文(尔湾)分校(UCI)University of California,Irvine是一所四年制公立大学,成立于1965年。它虽然是加州大学各成员学院中历史最短的一所,但排名却紧追伯克利、洛杉矶之后,列全美最好的公立学校前十名之一。加州大学尔湾分校除了拥有崭新优美的建筑外,教职人员皆具有深厚的专业背景,其中有三人为诺贝尔奖的获得者。UCI最好的学科是批判文学,生物学、社会生态学、英文、经济和政治科学,因为生物科学是全大学最好和学生选修最多的学科,不少有志将来念医科的青年人,都希望能在这里修读生物学。此外,加州尔湾分校有47%学生是亚裔美国人,包括不少在美国落地生根的中国人、日本人、南韩人、新马泰人等。
十四、音乐相关数据集
  • Piano-midi.de: classical piano pieces (http://www.piano-midi.de/)
  • Nottingham : over 1000 folk tunes (http://abc.sourceforge.net/NMD/)
  • MuseData: electronic library of classical music scores (http://musedata.stanford.edu/)
  • JSB Chorales: set of four-part harmonized chorales (http://www.jsbchorales.net/index.shtml)
  • FMA: A Dataset For Music Analysis (https://github.com/mdeff/fma)
十五、其它图像相关数据集
  • Caltech 101: pictures of objects belonging to 101 categories (http://www.vision.caltech.edu/Image_Datasets/Caltech101/)
  • Caltech 256: pictures of objects belonging to 256 categories (http://www.vision.caltech.edu/Image_Datasets/Caltech256/)
  • Caltech Silhouettes: 28×28 binary images contains silhouettes of the Caltech 101 dataset
  • STL-10 dataset is an image recognition dataset for developing unsupervised feature learning, deep learning, self-taught learning algorithms. It is inspired by the CIFAR-10 dataset but with some modifications. http://www.stanford.edu/~acoates//stl10/
  • The Street View House Numbers (SVHN) Dataset – http://ufldl.stanford.edu/housenumbers/
  • NORB: binocular images of toy figurines under various illumination and pose (http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/)
  • Imagenet: image database organized according to the WordNethierarchy (http://www.image-net.org/)
  • Pascal VOC: various object recognition challenges (http://pascallin.ecs.soton.ac.uk/challenges/VOC/)
  • Labelme: A large dataset of annotated images, http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
  • COIL 20: different objects imaged at every angle in a 360 rotation(http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php)
  • COIL100: different objects imaged at every angle in a 360 rotation (http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php)
十六、人造数据集
  • Arcade Universe – An artificial dataset generator with images containing arcade games sprites such as tetris pentomino/tetromino objects. This generator is based on the O. Breleux’s bugland dataset generator.
  • A collection of datasets inspired by the ideas from BabyAISchool:
    • BabyAIShapesDatasets : distinguishing between 3 simple shapes
    • BabyAIImageAndQuestionDatasets : a question-image-answer dataset
  • Datasets generated for the purpose of an empirical evaluation of deep architectures (DeepVsShallowComparisonICML2007): 十七、人脸数据集 二十、推荐系统数据集 二十一、其它数据集 二十二、推荐系统常用数据集(二) 推荐系统常用的:
    1)MovieLens
    MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模的库是943个独立用户对1682部电影作的10000次评分的数据;大规模的库是6040个独立用户对3900部电影作的大约100万次评分。
    2)EachMovie
    HP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放.之后,这个推荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的.这个数据集有72916个用户对l628部电影进行的2811983次评分。早期大量的协同过滤的研究工作都 是基于这个数据集的。2004年HP重新开放EachMovie,这个数据集就不提供公开下载了。
    3)BookCrossing
    这个数据集是网上的Book-Crossing图书社区的278858个用户对271379本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。
    4)Jester Joke
    Jester Joke是一个网上推荐和分享笑话的网站。这个数据集有73496个用户对100个笑话作的410万次评分。评分范围是-10~10的连续实数。这些数据是由加州大学伯克利分校的Ken Goldberg公布的。
    5)Netflix
    这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflix prize),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480189个匿名用户对大约17770部电影作的大约lO亿次评分。
    6)Usenet Newsgroups
    这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD2007上的论文。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。
    7)UCI知识库
    UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库,其中存储大量用于模型训练的标注样本。
    其他:
    8) http://snap.stanford.edu/na09/resources.html
    9) http://archive.ics.uci.edu/ml/
    10) http://www.ituring.com.cn/article/details/1188
    转自: http://www.cnblogs.com/zz-boy/archive/2012/08/27/2658063.html
    二十三、公开人脸数据集 本页面收集到目前为止可以下载到的人脸数据库,可用于训练人脸深度学习模型。
    人脸识别
    数据库 描述 用途 获取方法
    WebFace 10k+人,约500K张图片 非限制场景 链接
    FaceScrub 530人,约100k张图片 非限制场景 链接
    YouTube Face 1,595个人 3,425段视频 非限制场景、视频 链接
    LFW 5k+人脸,超过10K张图片 标准的人脸识别数据集 链接
    MultiPIE 337个人的不同姿态、表情、光照的人脸图像,共750k+人脸图像 限制场景人脸识别 链接 需购买
    MegaFace 690k不同的人的1000k人脸图像 新的人脸识别评测集合 链接
    IJB-A 人脸识别,人脸检测 链接
    CAS-PEAL 1040个人的30k+张人脸图像,主要包含姿态、表情、光照变化 限制场景下人脸识别 链接
    Pubfig 200个人的58k+人脸图像 非限制场景下的人脸识别 链接
人脸检测
数据库 描述 用途 获取方法
FDDB 2845张图片中的5171张脸 标准人脸检测评测集 链接
IJB-A 人脸识别,人脸检测 链接
Caltech10k Web Faces 10k+人脸,提供双眼和嘴巴的坐标位置 人脸点检测 链接
人脸表情
数据库 描述 用途 获取方法
CK+ 137个人的不同人脸表情视频帧 正面人脸表情识别 链接
人脸年龄
数据库 描述 用途 获取方法
IMDB-WIKI 包含:IMDb中20k+个名人的460k+张图片 和维基百科62k+张图片, 总共: 523k+张图片 名人年龄、性别 链接
Adience 包含2k+个人的26k+张人脸图像 人脸性别,人脸年龄段(8组) 链接
CACD2000 2k名人160k张人脸图片 人脸年龄 链接
人脸性别
数据库 描述 用途 获取方法
IMDB-WIKI 包含:IMDb中20k+个名人的460k+张图片 和维基百科62k+张图片, 总共: 523k+张图片 名人年龄、性别 链接
Adience 包含2k+个人的26k+张人脸图像 人脸性别,人脸年龄段(8组) 链接
人脸关键点检测
数据库 描述 用途 获取方法
数据库 描述 用途 获取方法
人脸其它
数据库 描述 用途 获取方法
CeleBrayA 200k张人脸图像40多种人脸属性 人脸属性识别 获取方法
GitHub:DeepFace
二十四、ORL数据集 http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
  • 来自著名的AT&T(贝尔实验室)。
  • 用于人脸识别,40个人,每人10张图片,每张图片92*112,256级灰度图
AT&T(American Telephone & Telegraph,美国电话电报公司),是一家美国电信公司,美国第二大移动运营商。美国电话电报公司有8个主要部门 :贝尔实验室、商业市场集团、数据系统公司 、通用市场集团 、网络运营集团、网络系统集团、技术系统集团、公司国际集团.
二十五、其它数据集
  • 1.深度学习数据集收集网站
  • http://deeplearning.net/datasets/**
  • 收集大量的各深度学习相关的数据集,但并不是所有开源的数据集都能在上面找到相关信息。
  • 2、Tiny Images Dataset
  • http://horatio.cs.nyu.edu/mit/tiny/data/index.html
  • 包含8000万的32×32图像,CIFAR-10和CIFAR-100便是从中挑选的。
  • 3、CoPhIR
  • http://cophir.isti.cnr.it/whatis.html
  • 雅虎发布的超大Flickr数据集,包含1亿多张图片。
  • 4、MirFlickr1M
  • http://press.liacs.nl/mirflickr/
  • Flickr数据集中挑选出的100万图像集。
  • 5、SBU captioned photo dataset
  • http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
  • Flickr的一个子集,包含100万的图像集。
  • 6、NUS-WIDE
  • http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
  • Flickr中的27万的图像集。
  • 7、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
  • http://cpl.cc.gatech.edu/projects/VisualSynset/
  • 机器标注的一个超大规模数据集,包含2亿图像。
  • 8、SUN dataset
  • http://people.csail.mit.edu/jxiao/SUN/
  • 包含13万的图像的数据集。
  • 9、MSRA-MM
  • http://research.microsoft.com/en-us/projects/msrammdata/
  • 包含100万的图像,23000视频;微软亚洲研究院出品,质量应该有保障。
二十六、数据挖掘常用数据集 常用的基本上UCI和w3c的。关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
http://www.cs.waikato.ac.nz/ml/weka/
UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn
http://www.ics.uci.edu/~mlearn/\MLRepository.htm
statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html
关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/
进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/
apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html
数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
kdnuggets 相关链接数据集(借花献佛了):
http://www.kdnuggets.com/datasets/index.html
另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
参考资料 http://www.52ml.net/20458.html
http://blog.csdn.net/prettywhitewolf_xiao/article/details/7265468
http://www.jianshu.com/p/be23b3870d2e
http://deeplearning.net/demos/
http://deeplearning.net/datasets/
https://www.cnblogs.com/alexanderkun/p/4197796.html 这篇博客很全
http://blog.csdn.net/chenriwei2/article/details/50631212


































































    推荐阅读