数据集是机器学习和自然语言处理的一个组成部分。如果没有训练数据集,机器学习算法将无法学习如何进行文本挖掘、文本分类或产品分类。
本文包括即广泛而又具体的训练数据集,如财经新闻或亚马逊产品数据集。
首先,在搜索数据集时要记住一些原则:
学习机器学习的最佳方法是练习不同的项目。您可以使用这些主要数据集查找器在线搜索和下载免费数据集。
Kaggle:一个包含各种外部贡献的有趣数据集的数据科学网站。您可以在其主列表中找到各种数据集,从饮食评级到篮球数据,甚至是西雅图宠物许可证。
UCI机器学习库:Web上最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,具有不同的清洁度,但绝大多数都是干净的。您可以直接从UCI机器学习库下载数据,无需注册。
我在哪里可以下载用于机器学习的公共政府数据集?
人口数据是改善政府和社会的有力工具,可作为重大经济决策的基础。使用公共政府数据培训的机器学习模型可以帮助政策制定者识别趋势并准备与人口下降或增长,老龄化和迁移相关的问题。
Data.gov:该网站可以从多个美国政府机构下载数据。数据范围从政府预算到学校绩效分数。但请注意:大部分数据需要进一步研究。
食物环境地图集:包含当地食物选择如何影响美国饮食的数据。
学校系统财务:对美国学校系统财务状况的调查。
慢性病数据:美国各地区慢性病指标数据。
美国国家教育统计中心:来自美国和世界各地的教育机构和教育人口统计数据。
英国数据服务:英国最大的社会,经济和人口数据集。
Data USA:美国公共数据的全面可视化。
我在哪里可以下载用于机器学习的财务和经济数据集?
机器学习被证明是金融业的黄金机会。财务定量记录保存数十年,因此该行业非常适合机器学习。实际上,机器学习已经在转变金融和投资银行业务,用于算法交易,股票市场预测和欺诈检测。在经济学中,机器学习可用于测试经济模型和预测公民行为。
Quandl:经济和金融数据的良好来源——有助于建立预测经济指标或股票价格的模型。
世界银行开放数据:涵盖全球人口统计数据和大量经济和发展指标的数据集。
国际货币基金组织数据:国际货币基金组织公布有关国际金融,债务利率,外汇储备,商品价格和投资的数据。
金融时报市场数据:来自世界各地的金融市场的最新信息,包括股票价格指数,商品和外汇。
谷歌趋势:检查和分析世界各地的互联网搜索活动和热门新闻报道的数据。
美国经济协会(AEA):寻找美国宏观经济数据的良好来源。
我在哪里可以下载计算机视觉的图像数据集?
图像数据集可用于训练各种计算机视觉应用,例如医学成像技术,自动驾驶车辆和人脸识别。
Labelme:带注释图像的大型数据集。
ImageNet:新算法的事实上的图像数据集。根据WordNet层次结构进行组织,其中层次结构的每个节点由数百和数千个图像描绘。
LSUN:场景理解与许多辅助任务(房间布局估计,显着性预测等)。
MS COCO:通用图像理解和字幕。
COIL100:在360度旋转的每个角度拍摄100个不同的物体。
视觉基因组:非常详细的视觉知识库,带有~100K图像的字幕。
谷歌的开放图像:在知识共享下,有900万个图像的网络集合“已经注释了超过6,000个类别的标签”。
野外标记面:13,000张人脸标记图像,用于开发涉及面部识别的应用程序。
斯坦福犬数据集:包含20,580张图像和120种不同的犬种。
室内场景识别:一种非常特殊的数据集,可用作大多数场景识别模型,更好“在外面”。包含67个室内类别,总共15620个图像。
我在哪里可以下载用于机器学习的情绪分析数据集?
情感分析模型需要大型专业数据集才能有效学习。以下列表应该提示您可以改进情绪分析算法的一些无穷无尽的方法。
多域情绪分析数据集:一个稍微较旧的数据集,其中包含来自亚马逊的产品评论。
IMDB评论:一个较旧的,相对较小的二元情绪分类数据集,有25,000个电影评论。
斯坦福情感树库:具有情感注释的标准情绪数据集。
Sentiment140:一个流行的数据集,它使用160,000条预先删除表情符号的推文。
Twitter美国航空公司情绪:2015年2月美国航空公司的Twitter数据,分类为正面,负面和中性推文。
在哪里可以下载用于自然语言处理的开放数据集?
自然语言处理是一个巨大的研究领域,但以下列表包括用于不同自然语言处理任务的广泛数据集,例如语音识别和聊天机器人。
安然数据集:来自安然高级管理层的电子邮件数据,组织成文件夹。
亚马逊评论:包含来自亚马逊的大约3500万条评论,涵盖18年。数据包括产品和用户信息,评级和明文审核。
Google Books Ngrams:来自Google图书的一系列文字。
Blogger Corpus:收集了来自blogger.com的681288篇博文。每个博客至少包含200个常用英语单词。
维基百科链接数据:维基百科的全文。该数据集包含来自400多万篇文章的近19亿个单词。您可以按段落,短语或段落本身的一部分进行搜索。
Gutenberg电子书列表:Project Gutenberg的电子书注释列表。
Hansards发表了加拿大议会的大量文章:来自第36届加拿大议会记录的130万对文本。
Jeopardy:来自测验节目Jeopardy的超过200000个问题的归档。
英语短信垃圾邮件收集:由5574条英文短信垃圾邮件组成的数据集
Yelp评论:Yelp发布的一个开放数据集,包含超过500万条评论。
UCI的Spambase:一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。
我在哪里可以下载开放数据集来培训自动驾驶汽车?
自动驾驶车辆需要使用大量高质量数据集进行训练,以便他们能够准确地感知其环境和周围物体。
Berkeley DeepDrive BDD100k:目前是自动驾驶AI的最大数据集。包含超过100000个视频,包括一天中不同时段和天气条件下超过1100小时的驾驶体验。带注释的图像来自纽约和旧金山地区。
百度Apolloscapes:大型图像数据集,定义了26种不同的语义项目,如汽车,自行车,行人,建筑物,路灯等。
Comma.ai:超过7小时的高速公路驾驶。细节包括汽车的速度,加速度,转向角和GPS坐标。
牛津的机器人汽车:在英国牛津的相同路线重复超过100次,在一年的时间内完成。该数据集捕获天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。
城市景观数据集:一个大型数据集,记录50个不同城市的城市街景。
CSSAD数据集:此数据集可用于自动驾驶车辆的感知和导航。数据集严重偏向发达国家的道路。
KUL比利时交通标志数据集:比利时法兰德斯地区数千个物理上不同的交通标志,有超过10000多个交通标志注释。
麻省理工学院实验室:在AgeLab收集的1000多小时多传感器驾驶数据集的样本。
LISA:智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。
还是找不到你需要的东西?Lionbridge AI在为机器学习项目构建广泛,准确的数据集方面拥有二十多年的专业知识。我们拥有500,000名合格语言专家,使用300多种语言,我们可以很好地构建您一直在搜索的自定义数据集。
宁波格密链网络科技有限公司目前正在研究如何在密文上进行有效的机器学习,从而保护数据集的隐私安全。
往期推荐
匿名数据不可能完全匿名
区块链与机器学习模型共享
第十七届保密通信与安全技术学术年会
社交信息工具的演化:从信件、Email、QQ到微信
瑞士发布稳定币官方指南,这对Libra意味着什么
第七届密文计算与同态加密应用国际会议接受论文
为什么格上能够构造全同态加密-1
▼
欢迎收听“区块链杂谈”节目,国内最有质量的区块链知识分享节目。