社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

500款各领域机器学习数据集,总有一个是你要找的

大数据挖掘DT数据分析 • 7 年前 • 1294 次点击  

 向AI转型的程序员都关注了这个号👇👇👇


大数据挖掘DT数据分析  公众号: datadw


目录:

  • 金融

  • 交通

  • 商业

  • 推荐系统

  • 医疗健康

  • 图像数据

  • 视频数据

  • 音频数据

  • 自然语言处理

  • 社会数据

  • 处理后的科研和竞赛数据


1

金融

美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139

沪深股票除权除息、配股增发全量数据,截止 2016.12.31 http://dataju.cn/Dataju/web/datasetInstanceDetail/344

上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/340

深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/341

深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/342

深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/343

上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/37

深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/38

深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/39

MT4平台外汇交易历史数据http://dataju.cn/Dataju/web/datasetInstanceDetail/43

Forex平台外汇交易历史数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/67

几组外汇交易逐笔(Ticks)数据http://dataju.cn/Dataju/web/datasetInstanceDetail/44

美国股票新闻数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/220

美国医疗保险市场数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/225

美国金融客户投诉数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/229

Lending Club 网贷违约数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/206

信用卡欺诈数据【Kaggle 数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/206

美国股票数据XBRL【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/214

纽约股票交易所数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/214

贷款违约预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/249

Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/249

Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/266

Homesite 保险定价竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/336

Winton 股票回报率预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/347



2

交通

2013年纽约出租车行驶数据http://dataju.cn/Dataju/web/datasetInstanceDetail/348

2013年芝加哥出租车行驶数据http://dataju.cn/Dataju/web/datasetInstanceDetail/355

Udacity自动驾驶数据http://dataju.cn/Dataju/web/datasetInstanceDetail/356

纽约 Uber 接客数据 【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/76

英国车祸数据(2005-2015)【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/323

芝加哥汽车超速数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/86

KITTI 自动驾驶任务数据【数据太大仅有部分】 http://dataju.cn/Dataju/web/datasetInstanceDetail/210

Cityscapes 场景标注数据【数据太大仅有部分】 http://dataju.cn/Dataju/web/datasetInstanceDetail/210

德国交通标志识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/232

交通信号识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/228

芝加哥Divvy共享自行车骑行数据(2013年至今) http://dataju.cn/Dataju/web/datasetInstanceDetail/228

美国查塔努加市共享单车骑行数据http://dataju.cn/Dataju/web/datasetInstanceDetail/270

Capital 共享单车骑行数据https://zhuanlan.zhihu.com/

Bay Area 共享单车骑行数据http://dataju.cn/Dataju/web/datasetInstanceDetail/338

Nice Ride 共享单车骑行数据http://dataju.cn/Dataju/web/datasetInstanceDetail/339

花旗银行共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/325

运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/358

纽约出租车管理委员会官方的乘车数据(2009年-2016年) http://dataju.cn/Dataju/web/datasetInstanceDetail/359



3

商业

Airbnb 开放的民宿信息和住客评论数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/360

Amazon 食品评论数据http://dataju.cn/Dataju/web/datasetInstanceDetail/361

【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/324

Amazon 无锁手机评论数据http://dataju.cn/Dataju/web/datasetInstanceDetail/349

【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/364

美国视频游戏销售和评价数据http://dataju.cn/Dataju/web/datasetInstanceDetail/309

【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/207

Kaggle 各项竞赛情况数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/207

Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/208

预测公寓租金竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/208

广告点击预测竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/230

餐厅营业收入预测建模竞赛http://dataju.cn/Dataju/web/datasetInstanceDetail/230

银行产品推荐竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/213

网站用户推荐点击预测竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/319

在线广告实时竞价数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/337

购物车商品关联竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/335

Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/333

3

推荐系统

Netflix 电影评价数据http://dataju.cn/Dataju/web/datasetInstanceDetail/330

MovieLens 20m 电影推荐数据集 http://dataju.cn/Dataju/web/datasetInstanceDetail/329

WikiLenshttp://dataju.cn/Dataju/web/datasetInstanceDetail/227

Jesterhttp://dataju.cn/Dataju/web/datasetInstanceDetail/350

HetRec2011http://dataju.cn/Dataju/web/datasetInstanceDetail/354

Book Crossinghttp://dataju.cn/Dataju/web/datasetInstanceDetail/32

Large Movie Reviewhttp://dataju.cn/Dataju/web/datasetInstanceDetail/116

Retailrocket 商品评论和推荐数据http://dataju.cn/Dataju/web/datasetInstanceDetail/97

4

医疗健康

人识别物体时大脑核磁共振影像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/99

人理解单词时大脑核磁共振影像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/101

心脏病心房图像及标注数据http://dataju.cn/Dataju/web/datasetInstanceDetail/100

细胞病理识别http://dataju.cn/Dataju/web/datasetInstanceDetail/98

FIRE 视网膜眼底病变图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/290

食物营养成分数据 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/80

EGG 大脑电波形状数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/79

某人基因序列数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/121

癌症CT影像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/242

软组织肉瘤CT图像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/124

美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/250

Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/258

TCGA-LUAD 肺癌CT图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/261

RIDER Lung CT 肺癌CT影像http://dataju.cn/Dataju/web/datasetInstanceDetail/275

TCGA-COAD癌症CT影像数据  http://dataju.cn/Dataju/web/datasetInstanceDetail/284

TCIA-TCGA-OV 癌症CT影像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/283

TCIA RIDER NEURO 癌症MRI影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/287

QIN Beast 乳腺癌MRI影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/291


5

图像数据

综合图像

Visual Genome 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/311

Visual7w 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/315

COCO 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/316

SUFR 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/317

ILSVRC 2014 训练数据(ImageNet的一部分) http://dataju.cn/Dataju/web/datasetInstanceDetail/369

PASCAL Visual Object Classes 2012 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/85

PASCAL Visual Object Classes 2011 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/107

PASCAL Visual Object Classes 2010 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/51

80 Million Tiny Image 图像数据【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/240

ImageNet【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/55

Google Open Images【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/40


场景图像

Street Scences 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/45

Places2 场景图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/48

UCF Google Street View 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/138

SUN 场景图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/138

The Celebrity in Places 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/83

Web图像标签

HARRISON 社交标签图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/183

NUS-WIDE 标签图像http://dataju.cn/Dataju/web/datasetInstanceDetail/74

Visual Synset 标签图像http://dataju.cn/Dataju/web/datasetInstanceDetail/112

Animals With Attributes 标签图像http://dataju.cn/Dataju/web/datasetInstanceDetail/160

人形轮廓图像

MPII Human Shapehttp://dataju.cn/Dataju/web/datasetInstanceDetail/234

人体轮廓数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/173

Biwi Kinect Head Pose 头部姿势数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/52

上半身人像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/52

INRIA Person 数据集 http://dataju.cn/Dataju/web/datasetInstanceDetail/235

视觉文字识别图像

Street View House Number 门牌号图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/236

MNIST 手写数字识别图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/253

3D MNIST 数字识别图像数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/129

MediaTeam Document 文档影印和内容数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/129

Text Recognition 文字图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/110

NIST Handprinted Forms and Characters 手写英文字符数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/49

NIST Structured Forms Reference Set of Binary Images http://dataju.cn/Dataju/web/datasetInstanceDetail/73

(SFRS) 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/47

NIST Structured Forms Reference Set of Binary Images http://dataju.cn/Dataju/web/datasetInstanceDetail/23

(SFRS) II 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/203

特定一类事物图像

著名的猫图像标注数据http://dataju.cn/Dataju/web/datasetInstanceDetail/128

Caltech-UCSDhttp://dataju.cn/Dataju/web/datasetInstanceDetail/176

Birds200 鸟类图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/278

Stanford Car 汽车图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/294

Cars 汽车图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/295

MIT Cars 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/41

Stanford Cars 汽车图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/105

Food-101 美食图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/106

17_Category_Flowerhttp://dataju.cn/Dataju/web/datasetInstanceDetail/106

图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/254

102_Category_Flowerhttp://dataju.cn/Dataju/web/datasetInstanceDetail/255

图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/109

UCI Folio Leaf 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/114

Labeled Fisheshttp://dataju.cn/Dataju/web/datasetInstanceDetail/115

in the Wild 鱼类图像http://dataju.cn/Dataju/web/datasetInstanceDetail/60

美国 Yelp 点评网站酒店照片http://dataju.cn/Dataju/web/datasetInstanceDetail/61

CMU-Oxfordhttp://dataju.cn/Dataju/web/datasetInstanceDetail/63

Sculpture 塑像雕像图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/174

Oxford-IIIT Pet 宠物图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/256

Naturehttp://dataju.cn/Dataju/web/datasetInstanceDetail/301

Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/118

材质纹理图像

CURET 纹理材质图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/111

ETHZ Synthesizability 纹理图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/127

KTH-TIPS 纹理材质图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/172

Describable Textures 纹理图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/71


物体分类图像

COIL-20 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/62

COIL-100 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/70

Caltech-101 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/54

Caltech-256 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/46

CIFAR-10 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/42

CIFAR-100 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/53

STL-10 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/72

LabelMe_12_50k http://dataju.cn/Dataju/web/datasetInstanceDetail/72

图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/69

NORB v1.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/117

NEC Toy Animal 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/237

iCubWorld 图像分类数据http://dataju.cn/Dataju/web/datasetInstanceDetail/238

Multi-class 图像分类数据http://dataju.cn/Dataju/web/datasetInstanceDetail/239

GRAZ 图像分类数据http://dataju.cn/Dataju/web/datasetInstanceDetail/108

人脸图像

IMDB-WIKI 500k+ 人脸图像、年龄性别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/68

Labeled Faces in the Wild 人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/50

Extended Yale Face Database B 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/131

Bao Face 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/87

DC-IGN 论文人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/119

300 Face in Wild 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/120

BioID Face 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/122

CMU Frontal Face Imageshttp://dataju.cn/Dataju/web/datasetInstanceDetail/123

FDDB_Face Detection Data Set and Benchmark http://dataju.cn/Dataju/web/datasetInstanceDetail/130

NIST Mugshot Identification Database http://dataju.cn/Dataju/web/datasetInstanceDetail/140

Faces in the Wild 人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/170

CelebA 名人人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/175

VGG Face 人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/189

Caltech 10k Web Faces 人脸图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/125

姿势动作图像

HMDB_a large human motion database http://dataju.cn/Dataju/web/datasetInstanceDetail/126

Human Actions and Scenes Dataset http://dataju.cn/Dataju/web/datasetInstanceDetail/177

Buffy Stickmen V3 人体轮廓识别图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/178

Human Pose Evaluator 人体轮廓识别图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/179

Buffy pose 人类姿势图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/181

VGG Human Pose Estimation 姿势图像标注数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/197


指纹识别图像

NIST FIGS 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/281

NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/280

NIST Plain and Rolled Images from Paired Fingerprint Cards http://dataju.cn/Dataju/web/datasetInstanceDetail/279

in 500 pixels per inch 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/77

NIST Plain and Rolled Images from Paired Fingerprint Cards http://dataju.cn/Dataju/web/datasetInstanceDetail/289

1000 pixels per inch 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/132

其他图像数据

Visual Question Answering V1.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/84

Visual Question Answering V2.0 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/241


6

视频数据

综合视频

DAVIS_Densely Annotated Video Segmentation 数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/147

YouTube-8M 视频数据集【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/133

YouTube 网站视频备份【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/134


人类动作视频

Microsoft Research Action 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/144

UCF50 Action Recognition 动作识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/135

UCF101 Action Recognition 动作识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/136

UT-Interaction 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/137

UCF iPhone 运动中传感器数据http://dataju.cn/Dataju/web/datasetInstanceDetail/148

UCF YouTube 人类动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/125

UCF Sport 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/126

UCF-ARG 人类动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/141

HMDB 人类动作视频http://dataju.cn/Dataju/web/datasetInstanceDetail/157

HOLLYWOOD2 人类行为动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/146

Recognition of human actions 动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/244

Motion Capture 动作捕捉视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/245

SBU Kinect Interaction 肢体动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/246


目标检测视频

UCSD Pedestrian 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/247

Caltech Pedestrian 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/248

ETH 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/223

INRIA 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/159

TudBrussels 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/151

Daimler 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/150

ALOV++ 物体追踪视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/152

密集人群视频

Crowd Counting 高密度人群图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/156

Crowd Segmentation 高密度人群视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/243

Tracking in High Density Crowds 高密度人群视频 http://dataju.cn/Dataju/web/datasetInstanceDetail/200

其他视频

Fire Detection 视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/186

7


音频数据

综合音频

Google Audioset 音频数据【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/164

语音识别

Sinhala TTS 英语语音识别http://dataju.cn/Dataju/web/datasetInstanceDetail/251

TIMIT 美式英语语音识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/252

LibriSpeech ASR corpus 语音数据http://dataju.cn/Dataju/web/datasetInstanceDetail/194

Room Impulse Response and Noise 语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/191

ALFFA 非洲语音数据http://dataju.cn/Dataju/web/datasetInstanceDetail/96

THUYG-20 维吾尔语语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/96

AMI Corpus 语音识别http://dataju.cn/Dataju/web/datasetInstanceDetail/96

8

自然语言处理

RCV1http://dataju.cn/Dataju/web/datasetInstanceDetail/93

英语 http://dataju.cn/Dataju/web/datasetInstanceDetail/90

新闻数据http://dataju.cn/Dataju/web/datasetInstanceDetail/78

20news 英语新闻数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/78

First Quora Release Question Pairs 问答数据http://dataju.cn/Dataju/web/datasetInstanceDetail/94

JRC Nameshttp://dataju.cn/Dataju/web/datasetInstanceDetail/92

各国语言专有实体名称http://dataju.cn/Dataju/web/datasetInstanceDetail/89

Multi-Domain Sentiment V2.0 http://dataju.cn/Dataju/web/datasetInstanceDetail/205

LETOR 信息检索数据http://dataju.cn/Dataju/web/datasetInstanceDetail/205

Yale Youtube Vedio Text http://dataju.cn/Dataju/web/datasetInstanceDetail/221

斯坦福问答数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/221

美国假新闻数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/212

NIPS会议文章信息数据(1987-2016)【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/268

2016年美国总统选举辩论数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/269

WikiLinks 跨文档指代语料 http://dataju.cn/Dataju/web/datasetInstanceDetail/277

European Parliament Proceedings Parallel Corpus 机器翻译数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/285

WikiText 英语语义词库数据http://dataju.cn/Dataju/web/datasetInstanceDetail/272

WMT 2011 News Crawl 机器翻译数据http://dataju.cn/Dataju/web/datasetInstanceDetail/288

Stanford Sentiment Treebank 词汇数据http://dataju.cn/Dataju/web/datasetInstanceDetail/334

英语语言模型单词预测竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/201

9

社会数据

希拉里邮件门泄露邮件http://dataju.cn/Dataju/web/datasetInstanceDetail/267

波士顿Airbnb 公开数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/209

世界各国经济发展数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/202

世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/233

世界范围显著地震数据(1965-2016)【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/231

美国婴儿姓名数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/222

全世界鲨鱼袭击人类数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/219

1908年以来空难数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/218

2016年美国总统大选数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/217

2013年美国社区统计数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/273

2014年美国社区统计数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/274

2015年美国社区统计数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/215

欧洲足球运动员赛事表现数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/211

美国环境污染数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/224

美国H1-B签证申请数据Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/224

IMDB五千部电影数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/224

2015年航班延误和取消数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/226

凶杀案报告数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/216

人力资源分析数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/259

美国费城犯罪数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/260

安然公司邮件数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/262

历史棒球数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/263

美联航 Twitter 用户评论数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/264

波士顿 Airbnb 公开数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/265

芝加哥市2001年以来犯罪记录数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/267

美国查塔努加市犯罪记录数据(2003年至今) http://dataju.cn/Dataju/web/datasetInstanceDetail/353

芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/358

芝加哥餐馆卫生检查结果数据http://dataju.cn/Dataju/web/datasetInstanceDetail/351

几个人类运动位置路线GPS数据集(骑行、跑步等) http://dataju.cn/Dataju/web/datasetInstanceDetail/352


10

处理后的科研和竞赛数据

NIPS 2003 属性选择竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/370

台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/296

Large-scale 分类建模数据http://dataju.cn/Dataju/web/datasetInstanceDetail/297

几个UCI 中 large-scale 分类建模数据http://dataju.cn/Dataju/web/datasetInstanceDetail/298

Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299

Data Repository 社交网络数据http://dataju.cn/Dataju/web/datasetInstanceDetail/300

猫和狗分类识别竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/318

DSTL 卫星图像识别竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/328

根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/332

人脸关键点标定竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/331

Kaggle竞赛数据合辑(部分竞赛数据)http://dataju.cn/Dataju/web/datasetInstanceDetail/368




Kaggle


书籍推荐数据集(goodreads/上万图书/百万评价)【Kaggle】

https://www.kaggle.com/zygmunt/goodbooks-10k

 

带有预期点数和获胜概率的NFL比赛详情数据集(2009-2016)【Kaggle】

https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016

 

HackerNews数据集(2006年以来约1/4文章) 【Kaggle】

https://www.kaggle.com/hacker-news/hacker-news-corpus

 

酒店评价数据集【Kaggle】

https://www.kaggle.com/datafiniti/hotel-reviews

 

1950年以来NBA球员状态&表现数据集【Kaggle】

https://www.kaggle.com/drgilermo/nba-players-stats

 

开普勒太空望远镜深空星球光强时序数据集【Kaggle】

https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data

 

巴基斯坦无人机袭击数据集(2004-2016)【Kaggle】

https://www.kaggle.com/zusmani/pakistandroneattacks

 

墨尔本房屋市场数据集【Kaggle】

https://www.kaggle.com/anthonypino/melbourne-housing-market

 

1789-2016历任美国总统签署行政命令数据集【Kaggle】

https://www.kaggle.com/nationalarchives/executive-orders

 

来自Stack Overflow平台的Python语言问答数据集【Kaggle】

https://www.kaggle.com/stackoverflow/pythonquestions

 

来自Stack Overflow品台的R语言问答数据集【Kaggle】

https://www.kaggle.com/stackoverflow/rquestions

 

每日海冰范围数据集【Kaggle】

https://www.kaggle.com/nsidcorg/daily-sea-ice-extent-data

 

NIPS(1987-2016)论文数据集【Kaggle】

https://www.kaggle.com/benhamner/nips-papers


大学公开数据集


(Stanford)69G大规模无人机(校园)图像数据集【Stanford】

http://cvgl.stanford.edu/projects/uav_data/

 

人脸素描数据集【CUHK】

http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html

 

自然语言推理(文本蕴含标记)数据集【NYU】

https://www.nyu.edu/projects/bowman/multinli/

 

Berkeley图像分割数据集BSDS500【Berkeley】

https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html

 




宠物图片(分割)数据集【Oxford】

http://www.robots.ox.ac.uk/~vgg/data/pets/

 

发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】

https://groups.csail.mit.edu/vision/datasets/ADE20K/

 

多模态二元行为数据集【GaTech】

http://www.cbi.gatech.edu/mmdb/

 

计算机视觉/图像/视频数据集:


Fashion-MNIST风格服饰图像数据集【肖涵】

https://github.com/zalandoresearch/fashion-mnist

 

大型(50万)LOGO标志数据集

https://data.vision.ee.ethz.ch/cvl/lld/

 

4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】

http://dfaust.is.tue.mpg.de

 

基于MNIST的视觉计数合成数据集Counting MNIST

http://fomoro.com/tools/counting-mnist/

 

YouTube MV视频数据集【Keunwoo Choi】

https://github.com/keunwoochoi/YouTube-music-video-5M

 

计算机视觉合成数据集/工具大列表【unrealcv】

https://github.com/unrealcv/synthetic-computer-vision

 

动物属性标记数据集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】

http://cvml.ist.ac.at/AwA2/

 

日本漫画数据集Manga109

http://dl.acm.org/citation.cfm?doid=3011549.3011551

 

俯拍舞蹈视频数据集

http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/

 

Pixiv(着色)图片数据集【Jerry Li】

https://github.com/jerryli27/pixiv_dataset

 

e-VDS视频数据集

https://engineering.purdue.edu/elab/eVDS/#download

 

Quick, Draw!简笔画涂鸦数据集

https://github.com/googlecreativelab/quickdraw-dataset

 

简笔画涂鸦数据集【hardmaru】

https://github.com/hardmaru/sketch-rnn-datasets

 

服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】

http://files.is.tue.mpg.de/classner/gp/

 

COCO像素级标注数据集

https://github.com/nightrome/cocostuff

 

大规模街道级图片(分割)数据集【Peter Kontschieder】

http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

 

大规模日语图片描述数据集

https://github.com/STAIR-Lab-CIT/STAIR-captions

 

Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)

https://github.com/mcordts/cityscapesScripts

 

(街头)时尚服饰数据集(2000+标注图片)

https://github.com/bearpaw/clothing-co-parsing

 

PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】

https://github.com/bodokaiser/piwise

 

Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】

https://www.re-work.co/blog/the-something-something-video-dataset

 

文本/评价/问答/自然语言数据集:


(20万)英文笑话数据集【TaivoPungas】

https://github.com/taivop/joke-dataset

 

机器学习保险行业问答开放数据集【HainWang】

https://github.com/shuzi/insuranceQA

 

保险行业问答(QA)数据集【Minwei Feng】

https://github.com/shuzi/insuranceQA

 

Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】

https://github.com/keunwoochoi/YouTube-music-video-5M

 

实体/名词语义关系标记数据集【David S. Batista】

https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets

 

NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理)

http://lic.nlp.cornell.edu/nlvr/

 

2.8万文章/10万问题大规模(英语考试)阅读理解数据集

https://github.com/qizhex/RACE_AR_baselines

 

错误拼写数据集

http://www.dcs.bbk.ac.uk/~ROGER/corpora.html

 

文本简化数据集

http://www.cs.pomona.edu/~dkauchak/simplification/

 

英语词/句/语义框架框架标注数据集FrameNet

https://framenet.icsi.berkeley.edu/fndrupal/

 

(又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】

https://github.com/niderhoff/nlp-datasets

 

跨语种/多样式/多粒度文本相似性检测数据集

https://github.com/FerreroJeremy/Cross-Language-Dataset

 

Quora数据集:400000行潜在重复问题

http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

 

文本分类数据集

http://disi.unitn.it/moschitti/corpora.htm

 

Frames:Maluuba对话数据集

https://datasets.maluuba.com/Frames/dl

 

跨域(Amazon商品评论)情感数据集

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

 

语义网机器学习系统评价/基准数据集集合

http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml

 

其它数据集


数据科学/机器学习数据集汇总

https://elitedatascience.com/datasets

 

CORe50:连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】

https://vlomonaco.github.io/core50/

 

(Matlab)数据集统计分布自动发现【Isabel Valera】

http://proceedings.mlr.press/v70/valera17a.html

 

(建筑物)损害评估数据集【tsunami】

https://github.com/faiton713/ABCDdataset

 

IndieWeb社交图谱数据集【IndieWeb】

http://www.indiemap.org

 

DeepMind开源环境/数据集/代码集合【DeepMind】

https://deepmind.com/research/open-source/

 

鸟叫声数据集【xeno-canto】

http://www.xeno-canto.org

 

Wolfram数据集仓库

https://datarepository.wolframcloud.com

 

大型音乐分析数据集FMA

https://github.com/mdeff/fma

 

(300万)Instacart在线杂货购物数据集【Jeremy Stanley】

https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

 

用于欺诈检测的合成财务数据集【TESTIMON】

https://www.kaggle.com/ntnu-testimon/paysim1

 

NSynth:大规模高质量音符标记音频数据集

https://magenta.tensorflow.org/datasets/nsynth

 

LIBSVM格式分类/回归/多标签/字符串数据集

https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html

 

笔记本电脑用logistic回归拟合100G数据集【DmitriySelivanov】

http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/

 

StackExchange近似/重复问题数据集

http://nlp.cis.unimelb.edu.au/resources/cqadupstack/

 

2010-2017最全KDD CUP赛题回顾及数据集

http://suo.im/2kRoQ1

 

食谱数据集:带有评级、营养及类别信息的超过2万种食谱【HugoDarwood】

https://www.kaggle.com/hugodarwood/epirecipes

 

奥斯卡数据集【Academy of Motion Picture Arts and Sciences】

https://www.kaggle.com/theacademy/academy-awards

 

计算医疗库:(TensorFlow)大型医疗数据集分析与机器学习建模【AkshayBhat】

https://github.com/AKSHAYUBHAT/ComputationalHealthcare

 

聚类数据集

https://cs.joensuu.fi/sipu/datasets/

 

官方开放气候数据集

https://pan.baidu.com/s/1i52Xarb

 

全球恐怖袭击事件数据集【START Consortium】

https://www.kaggle.com/START-UMD/gtd

 

七个机器学习时序数据集

https://machinelearningmastery.com/time-series-datasets-for-machine-learning/


大型众包关系数据库自然语言查询语义解析数据集(8万+查询样本)

http://t.cn/RNMr09n


赛马赔率数据集

http://t.cn/RNf0tXN


新的YELP数据集:包含470万评论和15.6万商家

http://t.cn/RNG6JYi


JMIR数据集专刊《JMIR Data》

http://t.cn/RCIhmvS


用于评价监督机器学习算法的基准数据集

https:// github.com/EpistasisLab/penn-ml-benchmarks


人口普查收入数据集分类

https:// github.com/dformoso/sklearn-classification


日文木版印刷文字识别数据集

http://t.cn/RCZPfYB


多模态二元行为数据集

http://t.cn/RCzFn1g


(TensorFlow)AudioSet音频事件数据集分类模型

GitHub: tensorflow/models/tree/master/audioset


Facebook星际争霸游戏数据集

(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)

http://t.cn/R9j8AUM


机器学习论文/数据集/工具集锦(日文)

http://t.cn/RKV7x2A


机器学习公司的十大数据搜集策略

http://t.cn/R54rtvd


NLP数据集加载工具集

http://t.cn/RaYwYXl


日语相似词数据集

http://t.cn/RaVFV35


大规模人本完形填空(多选阅读理解)数据集

http://t.cn/Rac2Pey


高质量免费数据集列表

http://t.cn/R6B1aqa


《数据之美》自然语言数据集/代码

http://t.cn/hBOTM4


微软数据集MS MARCO,阅读理解领域的「ImageNet」

http://t.cn/RIMqGBK


AI2科学问答数据集(多选)

http://t.cn/RI5liwJ


常用图像数据集大全(分类,跟踪,分割,检测等)

1.搜狗实验室数据集:

http://www.sogou.com/labs/dl/p.html

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达2,836,535张图片。对于每张图片,数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

2

http://www.imageclef.org/

IMAGECLEF致力于位图片相关领域提供一个基准(检索、分类、标注等等) Cross Language Evaluation Forum (CLEF) 。从2003年开始每年举行一次比赛.

http://staff.science.uva.nl/~xirong/index.php?n=Main.Dataset


人工智能大数据与深度学习

搜索添加微信公众号:weic2c

长按图片,识别二维码,点关注



大数据挖掘DT数据分析

搜索添加微信公众号:datadw


教你机器学习,教你数据挖掘

长按图片,识别二维码,点关注


轻    松     一   刻



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/XGtL60fTOO
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/6064
 
1294 次点击