社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

收藏 | 机器学习数据集汇总收集

小白学视觉 • 3 年前 • 449 次点击  

点击上方小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

仅作分享,不代表本公众号立场,侵权联系删除
转载于:机器学习算法与Python实战

大学公开数据集



(Stanford)69G大规模无人机(校园)图像数据集【Stanford】

http://cvgl.stanford.edu/projects/uav_data/

人脸素描数据集【CUHK】

http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html

自然语言推理(文本蕴含标记)数据集【NYU】

https://www.nyu.edu/projects/bowman/multinli/

Berkeley图像分割数据集BSDS500【Berkeley】

https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html

宠物图片(分割)数据集【Oxford】

http://www.robots.ox.ac.uk/~vgg/data/pets/

发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】

https://groups.csail.mit.edu/vision/datasets/ADE20K/

多模态二元行为数据集【GaTech】

http://www.cbi.gatech.edu/mmdb/


计算机视觉/图像/视频数据集


Fashion-MNIST风格服饰图像数据集【肖涵】

https://github.com/zalandoresearch/fashion-mnist

大型(50万)LOGO标志数据集

https://data.vision.ee.ethz.ch/cvl/lld/

4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】

http://dfaust.is.tue.mpg.de

基于MNIST的视觉计数合成数据集Counting MNIST

http://fomoro.com/tools/counting-mnist/

YouTube MV视频数据集【Keunwoo Choi】

https://github.com/keunwoochoi/YouTube-music-video-5M

计算机视觉合成数据集/工具大列表【unrealcv】

https://github.com/unrealcv/synthetic-computer-vision

动物属性标记数据集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】

http://cvml.ist.ac.at/AwA2/

日本漫画数据集Manga109

http://dl.acm.org/citation.cfm?doid=3011549.3011551

俯拍舞蹈视频数据集

http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/

Pixiv(着色)图片数据集【Jerry Li】

https://github.com/jerryli27/pixiv_dataset

e-VDS视频数据集

https://engineering.purdue.edu/elab/eVDS/#download

Quick, Draw!简笔画涂鸦数据集

https://github.com/googlecreativelab/quickdraw-dataset

简笔画涂鸦数据集【hardmaru】

https://github.com/hardmaru/sketch-rnn-datasets

服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】

http://files.is.tue.mpg.de/classner/gp/

COCO像素级标注数据集

https://github.com/nightrome/cocostuff

大规模街道级图片(分割)数据集【Peter Kontschieder】

http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

大规模日语图片描述数据集

https://github.com/STAIR-Lab-CIT/STAIR-captions

Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)

https://github.com/mcordts/cityscapesScripts

(街头)时尚服饰数据集(2000+标注图片)

https://github.com/bearpaw/clothing-co-parsing

PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】

https://github.com/bodokaiser/piwise

Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】

https://www.re-work.co/blog/the-something-something-video-dataset


文本/评价/问答/自然语言数据集


(20万)英文笑话数据集【TaivoPungas】

https://github.com/taivop/joke-dataset

机器学习保险行业问答开放数据集【HainWang】

https://github.com/shuzi/insuranceQA

保险行业问答(QA)数据集【Minwei Feng】

https://github.com/shuzi/insuranceQA

Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】

https://github.com/keunwoochoi/YouTube-music-video-5M

实体/名词语义关系标记数据集【David S. Batista】

https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets

NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理)

http://lic.nlp.cornell.edu/nlvr/

2.8万文章/10万问题大规模(英语考试)阅读理解数据集

https://github.com/qizhex/RACE_AR_baselines

错误拼写数据集

http://www.dcs.bbk.ac.uk/~ROGER/corpora.html

文本简化数据集

http://www.cs.pomona.edu/~dkauchak/simplification/

英语词/句/语义框架框架标注数据集FrameNet

https://framenet.icsi.berkeley.edu/fndrupal/

(又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】

https://github.com/niderhoff/nlp-datasets

跨语种/多样式/多粒度文本相似性检测数据集

https://github.com/FerreroJeremy/Cross-Language-Dataset

Quora数据集:400000行潜在重复问题

http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

文本分类数据集

http://disi.unitn.it/moschitti/corpora.htm

Frames:Maluuba对话数据集

https://datasets.maluuba.com/Frames/dl

跨域(Amazon商品评论)情感数据集

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

语义网机器学习系统评价/基准数据集集合

http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml


其它数据集


数据科学/机器学习数据集汇总

https://elitedatascience.com/datasets

CORe50:连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】

https://vlomonaco.github.io/core50/

(Matlab)数据集统计分布自动发现【Isabel Valera】

http://proceedings.mlr.press/v70/valera17a.html

(建筑物)损害评估数据集【tsunami】

https://github.com/faiton713/ABCDdataset

IndieWeb社交图谱数据集【IndieWeb】

http://www.indiemap.org

DeepMind开源环境/数据集/代码集合【DeepMind】

https://deepmind.com/research/open-source/

鸟叫声数据集【xeno-canto】

http://www.xeno-canto.org

Wolfram数据集仓库

https://datarepository.wolframcloud.com

大型音乐分析数据集FMA

https://github.com/mdeff/fma

(300万)Instacart在线杂货购物数据集【Jeremy Stanley】

https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

用于欺诈检测的合成财务数据集【TESTIMON】

https://www.kaggle.com/ntnu-testimon/paysim1

NSynth:大规模高质量音符标记音频数据集

https://magenta.tensorflow.org/datasets/nsynth

LIBSVM格式分类/回归/多标签/字符串数据集

https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html

笔记本电脑用logistic回归拟合100G数据集【DmitriySelivanov】

http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/

StackExchange近似/重复问题数据集

http://nlp.cis.unimelb.edu.au/resources/cqadupstack/

2010-2017最全KDD CUP赛题回顾及数据集

http://suo.im/2kRoQ1

食谱数据集:带有评级、营养及类别信息的超过2万种食谱【HugoDarwood】

https://www.kaggle.com/hugodarwood/epirecipes

奥斯卡数据集【Academy of Motion Picture Arts and Sciences】

https://www.kaggle.com/theacademy/academy-awards

计算医疗库:(TensorFlow)大型医疗数据集分析与机器学习建模【AkshayBhat】

https://github.com/AKSHAYUBHAT/ComputationalHealthcare

聚类数据集

https://cs.joensuu.fi/sipu/datasets/

官方开放气候数据集

https://pan.baidu.com/s/1i52Xarb

全球恐怖袭击事件数据集【START Consortium】

https://www.kaggle.com/START-UMD/gtd

七个机器学习时序数据集

https://machinelearningmastery.com/time-series-datasets-for-machine-learning/

大型众包关系数据库自然语言查询语义解析数据集(8万+查询样本)

http://t.cn/RNMr09n

赛马赔率数据集

http://t.cn/RNf0tXN

新的YELP数据集:包含470万评论和15.6万商家

http://t.cn/RNG6JYi

JMIR数据集专刊《JMIR Data》

http://t.cn/RCIhmvS

日文木版印刷文字识别数据集

http://t.cn/RCZPfYB

多模态二元行为数据集

http://t.cn/RCzFn1g

机器学习论文/数据集/工具集锦(日文)

http://t.cn/RKV7x2A

机器学习公司的十大数据搜集策略

http://t.cn/R54rtvd

NLP数据集加载工具集

http://t.cn/RaYwYXl

日语相似词数据集

http://t.cn/RaVFV35

大规模人本完形填空(多选阅读理解)数据集

http://t.cn/Rac2Pey

高质量免费数据集列表

http://t.cn/R6B1aqa

《数据之美》自然语言数据集/代码

http://t.cn/hBOTM4

微软数据集MS MARCO,阅读理解领域的「ImageNet」

http://t.cn/RIMqGBK

AI2科学问答数据集(多选)

http://t.cn/RI5liwJ


常用图像数据集大全


(分类,跟踪,分割,检测等)

搜狗实验室数据集:

http://www.sogou.com/labs/dl/p.html

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达2,836,535张图片。对于每张图片,数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

http://www.imageclef.org/

IMAGECLEF致力于位图片相关领域提供一个基准(检索、分类、标注等等) Cross Language Evaluation Forum (CLEF) 。从2003年开始每年举行一次比赛.

http://staff.science.uva.nl/~xirong/index.php?n=Main.Dataset


下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/121471
 
449 次点击