社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【收藏】8款大型机器学习数据集顶级资源

机器学习研究会订阅号 • 5 年前 • 260 次点击  

下面的ML大型数据集,总有一款适合你。

就目前来看,找到一个特定的数据集来解决各种机器学习问题,甚至进行实验还是比较困难的。

本文作者Will Badr便列举了八大机器学习数据集


不仅包含用于实验的大型数据集,还附带对数据集的描述以及使用示例。有的还包含用于解决与该数据集相关机器学习问题的算法代码。


话不多说,上数据集!

1、Kaggle数据集


数据集地址:

https://www.kaggle.com/datasets


这是作者最喜欢的数据集之一。


每个数据集都是一个小型社区,用户可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。包含各式各样的真实数据集。


用户还可以看到与每个数据集相关的“内核”,许多数据科学家还提供了相关手册来分析数据集。

2、Amazon数据集


数据集地址:

https://registry.opendata.aws/


该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。


网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!


数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。


如果用户正在使用AWS进行机器学习实验和开发,这将非常方便,由于它是AWS网络的本地数据,因此数据集的传输将非常快。

3、UCI机器学习资源库

数据集地址:

https://archive.ics.uci.edu/ml/datasets.html


另一个来自加州大学信息与计算机科学学院的大型资源库,包含100多个数据集。


用户可以找到单变量和多变量时间序列数据集,分类、回归或推荐系统的数据集。

有些UCI的数据集已经是被清洗过的。

4、谷歌数据集搜索引擎


数据集地址:

https://toolbox.google.com/datasetsearch


在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务——它是一个可以按名称搜索数据集的工具箱。


他们的目标是统一成千上万个不同的数据集存储库,使这些数据能够且易被发现。

5、微软数据集


数据集地址:

https://msropendata.com/


2018年7月,微软与外部研究社区共同宣布推出“Microsoft Research Open Data”。


它在云中包含一个数据存储库,用于促进全球研究社区之间的协作。它提供了一系列用于已发表研究的、经过处理的数据集。

6、Awesome Public Datasets Collection


数据集地址:

https://github.com/awesomedata/awesome-public-datasets


这是一个按“主题”组织的数据集,比如生物学、经济学、教育学等。


这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,用户需要检查一下许可要求。

7、政府数据集

政府相关数据集也很容易找到的。


许多国家为了提高透明度,向公众分享了各种数据集。以下是一些例子:


欧盟开放数据门户:欧洲政府数据集。

数据集地址:

https://data.europa.eu/euodp/data/dataset


美国政府数据:目前由于一些非政治性原因,暂时无法访问。

数据集地址:

https://www.data.gov/


新西兰政府数据集

数据集地址:

https://catalogue.data.govt.nz/dataset


印度政府数据集:

数据集地址:

https://data.gov.in/

8、计算机视觉数据集


数据集地址:

https://www.visualdata.io/


Visual Data包含一些可以用来构建计算机视觉(CV)模型的大型数据集。


用户可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

总结

从上述作者所观察到数据集情况来看,似乎是涵盖各个方向和领域。


这些新数据集的社区将继续发展,使数据更容易被获取,使众包和计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

原文链接:

https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b


想要了解更多资讯,请扫描下方二维码,关注机器学习研究会

                                          


转自:新智元


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/bLf8HR5QRz
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/27999
 
260 次点击