词条信息

admin
admin
超级管理员
词条创建者 发短消息   

相关词条

热门词条

更多>>
什么是端口?到底是做什么的呢?
端口一般指两种,一种是硬件比如路由器或者交换机的插网线的端口,一种是软件的逻辑的概念,比如http的80端口!...
7种进阶方法让你快速测试端口连通性
Ping是Windows、Linux和Unix系统下的一个检查网络连通性的命令工具,对于大部分互联网用户来说很...
电脑开机,总需要按F1,是什么原因造成的?
一.主板掉电这个说法是行业内的叫法了,一般是主板的CMOS电池没电了导致的。也是最常见的一种提示你按F1的提示...
社保降费对个人有什么影响?
下调城镇职工基本养老保险单位缴费比例是政府给企业发的一个大红包,特别是对于企业来说是一个利好,但是对个人来说有...
车辆“出险”对下年保费的影响,到底有多大?
【出险对交强险的影响】【出险对商业险的影响】车辆“出险”对下年保费的影响,到底有多大?这里有必要先提下车险第三...

精选图集

更多>>
简易百科旧版 >>所属分类 >> 人工智能    机器学习   

8种寻找机器学习数据集的方法

标签: 机器学习 数据集

顶[0] 发表评论(0) 编辑词条

在训练机器学习模型时,找到合适的数据集一直是个棘手的问题。

近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法。

通过这些方法,不仅能够找到大量的实验数据集及相关的描述和使用示例。在某些情况下,还会有用于训练数据集的算法代码。

以下,就是他介绍的8种方法:


目录

1、Kaggle数据集编辑本段回目录


Kaggle的数据集中,包含了用于各种任务,不同规模的真实数据集,而且有许多不同的格式。此外,你还可以在这里找到与每个数据集相关联的交互式笔记本Kernels,这些笔记本能够在浏览器中运行。

在这里,每个数据集都是一个小的交流社区,可以讨论数据,寻找一些公开的代码,或者在Kernels中创建自己的项目。

有许多数据科学家从不同的角度对数据集进行了分析。有时候,你还可以找到解决特定问题的算法代码。

传送门:https://www.kaggle.com/datasets


2、亚马逊数据集编辑本段回目录

这里有许多不同领域的数据集,比如公共交通、生态资源、卫星图像等等。

同时也提供了一个搜索框,来帮助你寻找数据集。伴随着数据集,也有相关的描述与用法示例。

数据集存储在AWS中,如果你正在使用AWS训练机器学习模型,会非常方便,数据集的传输速度非常快。

传送门:https://registry.opendata.aws/


3、UCI机器学习数据库编辑本段回目录


这个数据库里面有100个数据集。来自加州大学信息与计算机科学学院。

数据集已经按照机器学习问题进行了分类,你可以在这里找到单变量和多变量时间序列数据集;分类、回归或推荐系统的数据集。

而且,其中的一些数据集已经清理完毕,拿走就能使用。

传送门:https://archive.ics.uci.edu/ml/datasets.html


4、谷歌数据集搜索引擎编辑本段回目录


2018年9月份,谷歌推出了这项服务,可以按名称搜索数据集。目标是收集起来成千上万不同的数据集存储库。

相关报道:

Google数据集搜索神器上线,和搜索论文一样简单

传送门:https://toolbox.google.com/datasetsearch


5、微软数据集编辑本段回目录


2018年7月,微软推出“微软研究开放数据”。涵盖计算机科学、社会科学、物理学、天文学、生物学、经济学等等多个学科领域

数据集存储在云中,用于推动全球研究团体之间的协作。收集了一系列已发表的研究中使用的精确数据集。

传送门:https://msropendata.com/


6、公共数据集资源收集编辑本段回目录


按照不同的主题对近600个数据集进行了分类,一共涉及29个主题,比如生物学、经济学、教育学等等。大多数数据集都是免费的,不过在使用前,还是检查一下许可要求比较好。

传送门:https://github.com/awesomedata/awesome-public-datasets


7、政府数据集编辑本段回目录


与政府相关的数据集寻找起来也比较容易,许多国家都会公开各种数据,以推进政务的透明化处理。比如:

欧盟开放数据集:欧洲政府的数据集

https://data.europa.eu/euodp/data/dataset

美国政府数据集:(暂时无法使用)

https://www.data.gov/

中国国家统计局:http://www.stats.gov.cn/


8、计算机视觉数据编辑本段回目录


里面有各种用于计算机视觉研究数据集,可以通过特定的主题去查找数据集,比如语义分割、图像字幕、图像生成等等。也可以通过应用场景来查找数据集,比如自动驾驶汽车数据集。

传送门:https://www.visualdata.io/

One More Thing:其他数据集资源

量子位也报道过不少数据集资源,附于这里,希望能够为你带来帮助。(点击文字即可传送)

自然语言处理 计算机视觉 其他 最后的最后

遇到有缺陷的数据集该怎么办?这有一份数据处理急救包


作者系网易新闻·网易号“各有态度”签约作者

 

 

附件列表


按字母顺序浏览:A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

→我们致力于为广大网民解决所遇到的各种电脑技术问题
 如果您认为本词条还有待完善,请 编辑词条

上一篇互联网时代新零售品牌定位的八大策略
下一篇工信部:5G商用已具备现实基础

0
1. 本站部分内容来自互联网,如有任何版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
2. 本站内容仅供参考,如果您需要解决具体问题,建议您咨询相关领域专业人士。
3. 如果您没有找到需要的百科词条,您可以到百科问答提问或创建词条,等待高手解答。

关于本词条的提问

查看全部/我要提问>>