最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

PyMining - 基于Python的数据挖掘平台

[复制链接]
发表于 2014-10-17 20:28:43 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
这是一个能够根据源数据(比如说用csv格式表示的矩阵,或者中文文档)使用多种多样的算法去得到结果的一个平台。
算法能够通过xml配置文件去一个一个的运行,比如在开始的时候,我们可以先运行一下主成分分析算法去做特种选择,然后我们再运行随机森林算法来做分类。
目前算法主要是针对那些单机能够完成的任务,该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法,并且用于工程之中(相信我,肯定比Weka更快更好)。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。
下图是使用PyMining主成分分析(PCA)算法将一个数千维的数据投影到2维平面的结果,也是PyMining中的一个例子,位于example/pca_matplot_example.py。原始数据为文本,每种颜色代表不同分类的文本,可以看出,虽然维度变成了2维,但是不同分类的文本投影后的结果还是有一定的区分度的。
重要:目前项目已经集成了Scipy与Matplotlib,目前PCA调用了Scipy,上面的例子调用了Matplotlib。在Ubuntu下,Scipy的安装可以参考我的另一篇文章:Scipy在Ubuntu上的安装,Matplotlib的可以使用sudo apt-get install python-matplotlib。对于其他平台,只有自己去搜索配置一下,可以见项目主页中wiki下面的installing页面。

项目主页:http://www.open-open.com/lib/view/home/1329629576296


楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-19 14:05

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表