最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

简单有效的文本数据处理解决方案

[复制链接]
跳转到指定楼层
楼主
发表于 2017-11-8 11:12:05 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2017-11-8 11:13 编辑

简单有效的文本数据处理解决方案

原文:   An Elegant Solution To Text-Data Processing Problems

来自:品觉公众号


  • 依靠Cortical.io的Retina引擎,我们在自然语言处理(NLP)领域取得了突破。该引擎有效解决了大公司面临的很多文本数据处理问题,跨越了处理大量非结构化文本数据的障碍,这归功于一种独特的算法,它是基于对人脑信息处理方式的神经科学研究。
  • Contract Intelligence采用的Retina引擎是从关于人脑工作方式的语义折叠理论发展而来。大脑新皮层是包含神经元的平面结构,负责处理文本、图像和声音等信息。名为“稀疏分布表示”的数学模型模拟了新皮层存储这类信息的方式。在该模型中,每条信息都用一个长二进制向量来表示。长二进制向量拥有很多的“0”(无效位)和较少的“1”(有效位)。每个有效位包含了信息含义的某个部分。如果同一个位在两个向量中都是有效位,那么这两个向量所代表的两条信息至少在一个方面拥有相似的含义。共同的有效位越多,两条信息就越相似。
    原文翻译:


依靠Cortical.io的Retina引擎,我们在自然语言处理(NLP)领域取得了突破。该引擎有效解决了大公司面临的很多文本数据处理问题,跨越了处理大量非结构化文本数据的障碍,这归功于一种独特的算法,它是基于对人脑信息处理方式的神经科学研究。这项技术不仅能分析关键词的含义,还能理解整个句子、段落和长文的含义,也可用于多语言文档。通过专注于含义,语言歧义和词汇不匹配的问题被克服。例如,“我们达成了交易”和“合同签署”含义相似,但使用了完全不同的文字。Retina引擎可以识别其中的相似之处。
基于AIContract Intelligence

国际大公司利用Cortical.io的Contract Intelligence,来分析合约和其他法律文件中的大量数据。Contract Intelligence是高度精确的数据提取解决方案,结合了Retina引擎和各种NLP技术。这些公司利用Cortical.io的技术,从包含不同语言的大量复杂合约中准确自动地提取关键信息。自动化显著解放了人力资源,大大减低了成本,避免了信息提取过程中的人为错误。企业能够迅速生成连贯的、可比较的摘要和表格,实时管理合约周期,有效把握潜在客户的财务状况。金融机构通过识别与履行和不履行合约有关的条款,来降低信贷风险;大公司通过快速搜索合约,把准确的数字加入财务报表,以此满足新的法律要求。
无监督机器学习和专家反馈的结合
Cortical.io的Contract Intelligence是单机系统,输入数据来自于包含合约和其他文档的数据源。Retina引擎负责处理这类非结构化或半结构化数据,形成在商业信息分析过程中易于使用的结构化关键信息。


按照被请求信息在三到十份样本合约中的范例,数据可以从新的合约类型中提取。这项技术以独特的方法,把无监督机器学习和涉及主题专家(SME)的迭代优化过程结合起来,加强了企业智能,提高了准确性。

SME通常经历五到十次迭代,与系统相互配合,产生最佳结果。

1.      SME确定他们想提取的信息的类型。
2.      在无监督学习阶段,系统学习识别合约词汇和概念(比如设施、贷款、日期和合约各方),弄清各个概念之间的关系。
3.      从合约中提取信息。
4.      根据提取的结果,SME通过添加或修改被请求信息的类型来优化系统。
把大脑作为人工智能模型
Contract Intelligence采用的Retina引擎是从关于人脑工作方式的语义折叠理论发展而来。大脑新皮层是包含神经元的平面结构,负责处理文本、图像和声音等信息。名为“稀疏分布表示”的数学模型模拟了新皮层存储这类信息的方式。在该模型中,每条信息都用一个长二进制向量来表示。长二进制向量拥有很多的“0”(无效位)和较少的“1”(有效位)。每个有效位包含了信息含义的某个部分。如果同一个位在两个向量中都是有效位,那么这两个向量所代表的两条信息至少在一个方面拥有相似的含义。共同的有效位越多,两条信息就越相似。


收集文本以形成语义空间
为了建立一种简单有效的自然语言处理系统,Cortical.io的技术从精选的参考文献中收集文本。文本被分成基于含义的几个部分,名为片段,然后分布在2D网格上。拥有相似含义的片段彼此靠近。此2D网格被称为语义空间,在这个空间中,每个片段都有一对坐标。

用数字表示文字的含义
为了用数字表示某个文字的含义,Retina引擎激活包含该文字的所有片段的网格位置。由此产生的文字含义网格图被称为该文字的语义指纹。

某文字的语义指纹

网格可以展开,形成一个长二进制向量,网格上的每个有效位置对应着向量中的一个有效位。于是,二进制向量就成了文字含义的数字表示,可以用来比较和计算,这两种操作对NLP的有效应用至关重要。为了把更长的文本转换成一个语义指纹,该系统首先把文本中的每个文字转换成一个语义指纹,然后把所有的语义指纹结合起来。

车品觉简介


畅销书《决战大数据》作者
红杉资本中国基金专家合伙人
国信优易数据研究院院长
滨海泰达物流(HK:08348)非執行董事

香港特区创新科技及再工业化委员会委员
贵阳市大数据委顧问
上海市司法局大数据实验室专家
CCF大数据委副主任
乌镇智厍理事

浙江大学管理学院兼职教授
清华大学(大数据项目)教育指导委员
Advisory Committee of Big Data institute - HKUST

全国信标委大数据标准工作组副组长(2015-2017)
原阿里巴巴集团副总裁
原阿里健康(HK:00241)独立董事
原阿里数据委员会会长

2014年领导阿里数据团队获得Top CIO评选为中国最佳信息化团队
2017年被国家信息中心选为中国十大最具影响力大数据企业家

拥有十几年丰富的数据实战经验,并在实践中形成了独特的数据化思考及管理方式,对大数据未来趋势有独到见解;亲自领导阿里数据团队在大数据实践领域取得了一系列重要成果,包括为阿里建立集团各事业群的业务及决策分析框架,开发智能化的数据产品,成立了驱动集团数据化的运营团队,成功发起了公共与专有数据资产管理体系,还发布了数据安全规范等。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-15 10:02

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表