最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Nlpir Parser灵玖智能挖掘数据精准提取

[复制链接]
跳转到指定楼层
楼主
发表于 2017-6-26 16:00:10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
 面对海量的网络数据,工程应用中的元信息抽取技术要解决的最关键问题之一就是效率问题,即在线数据抽取、在线数据集成的速度足够快,且准确率高。
  为了达到在抽取、集成的速度和准确率上的高要求,相当多的应用工程采用人工写wrapper的方法,例如针对某类网页,人工标识、配置需要抽取的数据边界上的标签,以及数据集成需要的详细解析信息。因为wrapper、解析信息具有精确的针对性,使得在线抽取、集成的速度,精确率都相当高。
  目前比较流行全自动信息抽取方法的研究。但大多数全自动抽取方法过多地考虑了抽取的自动化程度,而较少考虑到抽取的效率等问题。例如当前比较流行的抽取工具,其针对每个网页,都需要执行整个全自动抽取过程,这就大大影响了大规模数据环境下的在线抽取速度。另外大多数全自动信息抽取方法都仅仅对数据作了抽取操作,而没有考虑集成操作。
  针对数据抽取、集成的效率问题,我们灵玖软件的解决方案是:Nlpir Parser大数据智能搜索与挖掘平台;首先离线学习出wrapper;然后在线基于wrapper对数据进行抽取、集成。这样将整个抽取的过程分为离线和在线两个部分,离线部分主要是一个学习过程,仅需要做一次,因此效率因素并不关键,在线部分因为要实时对大量网页进行抽取,因此必须有好的速度,我们的wrapper采用了自动机等一些高速的匹配算法和数据结构,具有很高的处理效率,每秒可以处理10个以上的WEB页面,因此可以保证抽取的效率。

  灵玖软件Nlpir Parser大数据智能搜索与挖掘平台是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,FreeBSD等不同操作系统,可以供Java,C,C#等各类开发语言使用。具体中间件包括:
  1、汉语词法分析;
  2、新语自动发现;
  3、文本内容去重;
  4、文本分类过滤;
  5、文本聚类;
  6、文档关键词提取;
  7、文本摘要;
  8、网页正文提取;
  9、全文搜索;
  Nlpir Parser是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-24 14:11

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表