168大数据

标题: Nlpir Parser灵玖智能挖掘数据精准提取 [打印本页]

作者: ljrj123    时间: 2017-6-26 16:00
标题: Nlpir Parser灵玖智能挖掘数据精准提取
 面对海量的网络数据,工程应用中的元信息抽取技术要解决的最关键问题之一就是效率问题,即在线数据抽取、在线数据集成的速度足够快,且准确率高。
  为了达到在抽取、集成的速度和准确率上的高要求,相当多的应用工程采用人工写wrapper的方法,例如针对某类网页,人工标识、配置需要抽取的数据边界上的标签,以及数据集成需要的详细解析信息。因为wrapper、解析信息具有精确的针对性,使得在线抽取、集成的速度,精确率都相当高。
  目前比较流行全自动信息抽取方法的研究。但大多数全自动抽取方法过多地考虑了抽取的自动化程度,而较少考虑到抽取的效率等问题。例如当前比较流行的抽取工具,其针对每个网页,都需要执行整个全自动抽取过程,这就大大影响了大规模数据环境下的在线抽取速度。另外大多数全自动信息抽取方法都仅仅对数据作了抽取操作,而没有考虑集成操作。
  针对数据抽取、集成的效率问题,我们灵玖软件的解决方案是:Nlpir Parser大数据智能搜索与挖掘平台;首先离线学习出wrapper;然后在线基于wrapper对数据进行抽取、集成。这样将整个抽取的过程分为离线和在线两个部分,离线部分主要是一个学习过程,仅需要做一次,因此效率因素并不关键,在线部分因为要实时对大量网页进行抽取,因此必须有好的速度,我们的wrapper采用了自动机等一些高速的匹配算法和数据结构,具有很高的处理效率,每秒可以处理10个以上的WEB页面,因此可以保证抽取的效率。

  灵玖软件Nlpir Parser大数据智能搜索与挖掘平台是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,FreeBSD等不同操作系统,可以供Java,C,C#等各类开发语言使用。具体中间件包括:
  1、汉语词法分析;
  2、新语自动发现;
  3、文本内容去重;
  4、文本分类过滤;
  5、文本聚类;
  6、文档关键词提取;
  7、文本摘要;
  8、网页正文提取;
  9、全文搜索;
  Nlpir Parser是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。





欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2