简单有效的文本数据处理解决方案

发表于 2017-11-8 11:12:05

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由 168主编于 2017-11-8 11:13 编辑

简单有效的文本数据处理解决方案

原文: An Elegant Solution To Text-Data Processing Problems

来源: http://dataconomy.com/2017/10/elegant-solution-text-data-processing-problems/

来自：品觉公众号

依靠Cortical.io的Retina引擎，我们在自然语言处理（NLP）领域取得了突破。该引擎有效解决了大公司面临的很多文本数据处理问题，跨越了处理大量非结构化文本数据的障碍，这归功于一种独特的算法，它是基于对人脑信息处理方式的神经科学研究。
Contract Intelligence采用的Retina引擎是从关于人脑工作方式的语义折叠理论发展而来。大脑新皮层是包含神经元的平面结构，负责处理文本、图像和声音等信息。名为“稀疏分布表示”的数学模型模拟了新皮层存储这类信息的方式。在该模型中，每条信息都用一个长二进制向量来表示。长二进制向量拥有很多的“0”（无效位）和较少的“1”（有效位）。每个有效位包含了信息含义的某个部分。如果同一个位在两个向量中都是有效位，那么这两个向量所代表的两条信息至少在一个方面拥有相似的含义。共同的有效位越多，两条信息就越相似。

原文翻译：

依靠Cortical.io的Retina引擎，我们在自然语言处理（NLP）领域取得了突破。该引擎有效解决了大公司面临的很多文本数据处理问题，跨越了处理大量非结构化文本数据的障碍，这归功于一种独特的算法，它是基于对人脑信息处理方式的神经科学研究。这项技术不仅能分析关键词的含义，还能理解整个句子、段落和长文的含义，也可用于多语言文档。通过专注于含义，语言歧义和词汇不匹配的问题被克服。例如，“我们达成了交易”和“合同签署”含义相似，但使用了完全不同的文字。Retina引擎可以识别其中的相似之处。

基于AI的Contract Intelligence

国际大公司利用Cortical.io的Contract Intelligence，来分析合约和其他法律文件中的大量数据。Contract Intelligence是高度精确的数据提取解决方案，结合了Retina引擎和各种NLP技术。这些公司利用Cortical.io的技术，从包含不同语言的大量复杂合约中准确自动地提取关键信息。自动化显著解放了人力资源，大大减低了成本，避免了信息提取过程中的人为错误。企业能够迅速生成连贯的、可比较的摘要和表格，实时管理合约周期，有效把握潜在客户的财务状况。金融机构通过识别与履行和不履行合约有关的条款，来降低信贷风险；大公司通过快速搜索合约，把准确的数字加入财务报表，以此满足新的法律要求。

无监督机器学习和专家反馈的结合

Cortical.io的Contract Intelligence是单机系统，输入数据来自于包含合约和其他文档的数据源。Retina引擎负责处理这类非结构化或半结构化数据，形成在商业信息分析过程中易于使用的结构化关键信息。

按照被请求信息在三到十份样本合约中的范例，数据可以从新的合约类型中提取。这项技术以独特的方法，把无监督机器学习和涉及主题专家（SME）的迭代优化过程结合起来，加强了企业智能，提高了准确性。

SME通常经历五到十次迭代，与系统相互配合，产生最佳结果。

1. SME确定他们想提取的信息的类型。

2. 在无监督学习阶段，系统学习识别合约词汇和概念（比如设施、贷款、日期和合约各方），弄清各个概念之间的关系。

3. 从合约中提取信息。

4. 根据提取的结果，SME通过添加或修改被请求信息的类型来优化系统。

把大脑作为人工智能模型

Contract Intelligence采用的Retina引擎是从关于人脑工作方式的语义折叠理论发展而来。大脑新皮层是包含神经元的平面结构，负责处理文本、图像和声音等信息。名为“稀疏分布表示”的数学模型模拟了新皮层存储这类信息的方式。在该模型中，每条信息都用一个长二进制向量来表示。长二进制向量拥有很多的“0”（无效位）和较少的“1”（有效位）。每个有效位包含了信息含义的某个部分。如果同一个位在两个向量中都是有效位，那么这两个向量所代表的两条信息至少在一个方面拥有相似的含义。共同的有效位越多，两条信息就越相似。

收集文本以形成语义空间

为了建立一种简单有效的自然语言处理系统，Cortical.io的技术从精选的参考文献中收集文本。文本被分成基于含义的几个部分，名为片段，然后分布在2D网格上。拥有相似含义的片段彼此靠近。此2D网格被称为语义空间，在这个空间中，每个片段都有一对坐标。

用数字表示文字的含义

为了用数字表示某个文字的含义，Retina引擎激活包含该文字的所有片段的网格位置。由此产生的文字含义网格图被称为该文字的语义指纹。

某文字的语义指纹

网格可以展开，形成一个长二进制向量，网格上的每个有效位置对应着向量中的一个有效位。于是，二进制向量就成了文字含义的数字表示，可以用来比较和计算，这两种操作对NLP的有效应用至关重要。为了把更长的文本转换成一个语义指纹，该系统首先把文本中的每个文字转换成一个语义指纹，然后把所有的语义指纹结合起来。

车品觉简介

畅销书《决战大数据》作者

红杉资本中国基金专家合伙人

国信优易数据研究院院长

滨海泰达物流(HK：08348)非執行董事

香港特区创新科技及再工业化委员会委员

贵阳市大数据委顧问

上海市司法局大数据实验室专家

CCF大数据委副主任

乌镇智厍理事

浙江大学管理学院兼职教授

清华大学（大数据项目）教育指导委员

Advisory Committee of Big Data institute - HKUST

全国信标委大数据标准工作组副组长(2015-2017)

原阿里巴巴集团副总裁

原阿里健康（HK：00241）独立董事

原阿里数据委员会会长

2014年领导阿里数据团队获得Top CIO评选为中国最佳信息化团队

2017年被国家信息中心选为中国十大最具影响力大数据企业家

拥有十几年丰富的数据实战经验，并在实践中形成了独特的数据化思考及管理方式，对大数据未来趋势有独到见解；亲自领导阿里数据团队在大数据实践领域取得了一系列重要成果，包括为阿里建立集团各事业群的业务及决策分析框架，开发智能化的数据产品，成立了驱动集团数据化的运营团队，成功发起了公共与专有数据资产管理体系，还发布了数据安全规范等。

帐号		自动登录	找回密码
密码			立即注册

简单有效的文本数据处理解决方案

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1