最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

各行业领域数据集整理送给大家!

[复制链接]
跳转到指定楼层
楼主
发表于 2020-2-28 11:49:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
摘要
"The world's most valuable resource is no longer oil,but data"
一种新的商品催生出一个利润丰厚、发展迅速的行业。这促使反垄断监管机构介入,从而约束那些能够控制这种商品流动的巨头。
一百年前,石油就是这样一种资源。现在,一些经营数据的巨头引发了类似担忧,这些数据将成为数字时代的石油。
目前处于数据驱动型经济中,如果无法分析当前或未来的趋势,任何组织都无法生存下去。抢夺数据已经成为决定下一步行动方案的关键。
作为数据科学领域的从业者来说,对于数据的需求更为强烈。
本次整理了一些NBA、社交网络、图像、语音、文本、时间序列、人文历史、金融等领域的免费和开源的数据集资源。(从正文带蓝色下划线链接自取)。
数据集
一、NBA球员数据集:

  • https://www.basketball-reference.com/players/l/linje01.html
  • http://china.nba.com/statistics
  • http://www.stat-nba.com
二、图像、文本、语言数据集
图像
1、由79302017幅图像组成的数据集,每幅图像为32x32像素彩色图像。
http://horatio.cs.nyu.edu/mit/tiny/data/index.html

2、人脸识别数据集。
http://www.face-rec.org/databases/

3、一个可搜索的图像数据库。
http://www.image-net.org/index
语音:

1、CMU语音识别数据库。
http://www.speech.cs.cmu.edu/databases/
2、对音乐分析的数据集。
http://users.cis.fiu.edu/~lli003/Music/music.html

3、100万首歌曲的数据集
https://labrosa.ee.columbia.edu/millionsong/
文本:

1、用于构建机器学习推荐系统的1.5 TB数据集
https://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75&guccounter=1
三、金融和商业数据集:

1、ebay拍卖招标数据集。
http://www.modelingonlineauctions.com/datasets

2、纽约市警察局的交通事故数据(csv格式)。
http://nypd.openscrape.com/#/
3、从aiHit数据库中随机抽取的10,000家英国公司的信息
https://www.aihitdata.com/redirect/cons/datasets.html
4、美国股票新闻数据
http://dataju.cn/Dataju/web/datasetInstanceDetail/220
5、美国金融客户投诉数据
http://dataju.cn/Dataju/web/datasetInstanceDetail/229
6、Airbnb 开放的民宿信息和住客评论数据http://dataju.cn/Dataju/web/datasetInstanceDetail/360
四、政府出台的相关数据

1、健康、环境、能源等数据。
http://data.un.org/

2、经济时间系列,由美国政府机构制作,以多种形式和媒体发行
http://inforumweb.umd.edu/econdata/econdata.html

3、USGovXML是一个由美国政府提供的公开可用web服务和XML数据源的索引
http://usgovxml.com/
五、技术、社交网络、人文历史等数据集
1、80 Tb的存档web爬虫数据。
http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/

2、一个包含许多“开放”社交网络分析数据集的可访问库的站点。
http://ww31.growmeme.com/overview

3、斯坦福大型网络数据集收集。
http://snap.stanford.edu/data/index.html

4、一个包含谷歌图书公司的数据集。
https://aws.amazon.com/cn/datasets/google-books-ngrams/

5、基因遗传数据集。
http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi

6、地球撞击陨石数据。
https://www.analyticbridge.datasciencecentral.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
机器学习数据集常用搜索网站
1、Kaggle
https://www.kaggle.com/competitions
2、加州大学欧文分校机器学习库。
http://archive.ics.uci.edu/ml/index.php

3、Google数据集搜索。
https://toolbox.google.com/datasetsearch
4、Datahub,分享高质量数据集平台
https://datahub.io/
5、用于上传和查找数据集的机器学习数据集存储库。
https://www.webdoctx.com/www.mldata.org
本文参考:
  • 《经济学人》报道。
  • https://datahub.io/。
  • Google数据集搜索。
  • Github数据集相关贡献。
  • http://mt.sohu.com/20180209/n530607148.shtml。
来源于数据管道 ,作者爱德宝器


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-5 21:58

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表