社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

8种寻找机器学习数据集的方法

网络大数据 • 6 年前 • 680 次点击  
2
1
9


训练机器学习模型时,找到合适的数据集一直是个棘手的问题。

近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法。

通过这些方法,不仅能够找到大量的实验数据集及相关的描述和使用示例。在某些情况下,还会有用于训练数据集的算法代码。

以下,就是他介绍的8种方法:


1、Kaggle数据集



Kaggle的数据集中,包含了用于各种任务,不同规模的真实数据集,而且有许多不同的格式。此外,你还可以在这里找到与每个数据集相关联的交互式笔记本Kernels,这些笔记本能够在浏览器中运行。

在这里,每个数据集都是一个小的交流社区,可以讨论数据,寻找一些公开的代码,或者在Kernels中创建自己的项目。

有许多数据科学家从不同的角度对数据集进行了分析。有时候,你还可以找到解决特定问题的算法代码。

传送门:https://www.kaggle.com/datasets


2、亚马逊数据集



这里有许多不同领域的数据集,比如公共交通、生态资源、卫星图像等等。

同时也提供了一个搜索框,来帮助你寻找数据集。伴随着数据集,也有相关的描述与用法示例。

数据集存储在AWS中,如果你正在使用AWS训练机器学习模型,会非常方便,数据集的传输速度非常快。

传送门:https://registry.opendata.aws/


3、UCI机器学习数据库



这个数据库里面有100个数据集。来自加州大学信息与计算机科学学院。

数据集已经按照机器学习问题进行了分类,你可以在这里找到单变量和多变量时间序列数据集;分类、回归或推荐系统的数据集。

而且,其中的一些数据集已经清理完毕,拿走就能使用。

传送门:https://archive.ics.uci.edu/ml/datasets.html


4、谷歌数据集搜索引擎



2018年9月份,谷歌推出了这项服务,可以按名称搜索数据集。目标是收集起来成千上万不同的数据集存储库。

相关报道:

Google数据集搜索神器上线,和搜索论文一样简单

传送门:https://toolbox.google.com/datasetsearch


5、微软数据集



2018年7月,微软推出“微软研究开放数据”。涵盖计算机科学、社会科学、物理学、天文学、生物学、经济学等等多个学科领域

数据集存储在云中,用于推动全球研究团体之间的协作。收集了一系列已发表的研究中使用的精确数据集。

传送门:https://msropendata.com/


6、公共数据集资源收集



按照不同的主题对近600个数据集进行了分类,一共涉及29个主题,比如生物学、经济学、教育学等等。大多数数据集都是免费的,不过在使用前,还是检查一下许可要求比较好。

传送门:https://github.com/awesomedata/awesome-public-datasets


7、政府数据集

与政府相关的数据集寻找起来也比较容易,许多国家都会公开各种数据,以推进政务的透明化处理。比如:

欧盟开放数据集:欧洲政府的数据集

https://data.europa.eu/euodp/data/dataset

美国政府数据集:(暂时无法使用)

https://www.data.gov/



中国国家统计局:http://www.stats.gov.cn/


8、计算机视觉数据



里面有各种用于计算机视觉研究数据集,可以通过特定的主题去查找数据集,比如语义分割、图像字幕、图像生成等等。也可以通过应用场景来查找数据集,比如自动驾驶汽车数据集。

传送门:https://www.visualdata.io/

往期精彩回顾

大数据解决方案:挖掘大数据价值,让选择更有依据

2018年度数据报告

这可能是AI、机器学习和大数据领域覆盖最全的速查表

把14亿中国人都拉到一个微信群在技术上能实现吗?

没有什么内存问题,是一行Python代码解决不了的

学习机器学习和数据科学必看的十个资源

斯坦福2018 人工智能指数(AI Index)报告出炉

大数据可视化及发展趋势

清华大学:2018中国人工智能AI发展报告



网络大数据

 (ID:raincent_com

网络大数据 www.raincent.com

致力于打造中国最专业的网络大数据科学门户网站。


识别二维码,关注网络大数据





今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/MqHYa8lx5y
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/28098
 
680 次点击