最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

[原创] NLPIR多功能文本挖掘工具解决大数据处理难题

[复制链接]
发表于 2018-3-15 16:01:46 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
  NLPIR多功能文本挖掘工具解决大数据处理难题
  随着信息技术正以突飞猛进的速度向前进步,包括新传感器采集技术、移动互联网技术、社交网络技术的蓬勃发展,将带来大量的创新性应用。大数据是新时代的石油,通过研发分析各种多元结构化数据的高效技术,提高数据产品的易用性,让数据分析实现“开箱即用”,其蕴藏的巨大能量将使数据成为政府和企业建立核心竞争力的关键途径,甚至能够颠覆很多传统行业的运作方式,带领我们进入信息革命的新时代。
  大数据处理难度最高的是多媒体类的非结构化数据,包括图像、语音、视频等,对这些数据的深入挖掘和理解,能产生非常多新颖实用的功能,如自动监控、人脸识别、自动驾驶等。近年来一些公司积极进行深度学习(Deep Learning)相关技术的研发,用大规模机器学习的技术来解读多媒体的数据,已经取得了非常可观的进步。
  NLPIR大数据语义智能挖掘平台,针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘和网络搜索的技术,提供了客户端工具、云服务、二次开发接口。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。
  NLPIR大数据语义智能分析平台十三大功能:
  1、精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。
  2、文档抽取:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息抽取,信息抽取准确,效率达到大数据处理的要求。
  3、新词发现:从文本中挖掘出新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。
  4、批量分词:对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
  5、语言统计:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语,会自动给出相应的英文解释。
  6、文本聚类:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。
  7、文本分类:根据规则或训练的方法对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。
  8、摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。
  9、智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。
  10、情感分析:针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。
  11、文档去重:快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。
  12、全文检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法。
  13、编码转换:自动识别内容的编码,并把编码统一转换为其他编码。
  你可以是高校老师与学生,用之于报告、论文等各种文本的处理;
  你可以是专业计算机、数据分析专家,用之于技术、项目等研发;
  你可以是编辑、自媒体人,用之于内容挖掘、审核与自动生成。
  ......
  当然,大数据语义智能挖掘平台能做的,还有更多!
  我们的目标:读懂自然语言,挖掘数据价值,智能服务生活!

楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-18 16:04

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表