最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

一位数据科学家的私房工具清单

[复制链接]
跳转到指定楼层
楼主
发表于 2017-1-23 12:11:54 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
来源:IT经理网  作者:王萌
  作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。
  近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享了多年来收集沉淀的数据分析工具集:
  处理较大、较复杂的类excel数据
  Pandas -处理tabular(类似Excel)数据的通用工具套件
  SQLite – Tabular数据库格式,能够处理大规模数据集,同时也能在桌面环境运行。
  PostgreSQL – 企业级数据库系统
  处理空间、地理数据:
  PostGIS – Postgres的地理空间数据类型扩展
  Carto – 地理空间数据的商业数据挖掘工具
  Mapbox – 商业地图绘制工具,同时也是一个web地图系统。
  Leaflet – 基于网络资源和本地数据开发活动web地图的代码库
  qGIS – 适用于几乎所有地理空间和地图绘制的图形化GIS工具
  处理非常规数据:
  RethinkDB – 处理实时数据流非常棒的数据库,正在从商业转开源,小心使用。
  MongoDB – 处理大规模非结构化和半结构化数据的流行数据库,应用于生产环境需要加小心。
  CouchDB – 与MongoDB有些类似但不尽相同。
  Cassandra – 图谱和关系数据库
  为大规模数据集创建性能代码:
  Pandas – Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。
  Apache Spark – 一个通用的高性能数据处理系统
  SciPy and Numpy -可编写脚本的基于C的数值算法,能在紧凑的,底层机器数据架构上运行。
  Cython – 使用用C编译器的Python编译器,用来提升Python性能。
  PyOpenCL – 在图形显卡上进行数值计算和统计处理。
  数据清洗工具
  ODO – 在不同数据格式间进行转换的Python库。
  OpenRefine – 拥有图形用户界面的数据发现和清洗工具
  Pandas – 数据科学任务中用来处理tabular数据的通用Python工具集
  Scrapy – Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。
  BeautifulSoup – 与Scrapy类似但不尽相同
  Scrubadub – 去除个人身份信息
  Arrow – 帮你轻松驾驭日期和时间戳的Python库
  DataCleaner – 剔除脏数据的Python库
  Dora – 与DataCleaner功能类似的Python库。
  数据可视化工具
  Processing – 交互式开发交互式可视化内容. 推荐读本:Visualizing
  DataD3 – 在web上开发可视化交互
  C3 – 来自D3的图表.
  Bokeh – 与D3类似, 但基于Python.
  matplotlib – 最早的Python数据可视化工具集。
  Leaflet – 一个为开发移动设备友好的互动地图的开源 JavaScript 库。
  MapBox -详见地图工具集。
  qGIS – 详见地图工具集。
  VTK – 在医疗、和物理研究领域常用的重型可视化工具包。
  数据挖掘和机器学习工具
  Weka – 一个机器学习和数据挖掘工具包,这里有一本免费可读的参考书
  ciKitLearn – 基于Python的机器学习和数据挖掘工具套件。
  Orange – 另一个基于Python的数据挖掘工具套件,同样拥有图形用户界面。
  TensorFlow – Google开源的多维度图谱数学建模工具。
  分享、协作以及知识管理工具
  Django -基于Python的web框架
  Django REST Framework – 为Django网站创建 REST APIs
  IRODS – 企业级数据存储和管理,包括元数据管理和基于规则的数据处理。
  Cassandra (useful for metadata and relationship storage) – 一个存储和查询元数据经常用到的开源分布式数据管理系统
  GitLab -GitHub的开源替代品,可搭建私人服务器。
  ReciPy –
  Prov – Python implementation of the W3C provenance model
  Kanren (部署基于元数据和数据源信息的业务逻辑非常有用) – 一个描述性Python逻辑编程系统,非常适合科学元数据的查询和基于规则的处理。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 22:30

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表