马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 168主编 于 2017-11-8 11:13 编辑
简单有效的文本数据处理解决方案
原文: An Elegant Solution To Text-Data Processing Problems
来自:品觉公众号
依靠Cortical.io的Retina引擎,我们在自然语言处理(NLP)领域取得了突破。该引擎有效解决了大公司面临的很多文本数据处理问题,跨越了处理大量非结构化文本数据的障碍,这归功于一种独特的算法,它是基于对人脑信息处理方式的神经科学研究。 Contract Intelligence采用的Retina引擎是从关于人脑工作方式的语义折叠理论发展而来。大脑新皮层是包含神经元的平面结构,负责处理文本、图像和声音等信息。名为“稀疏分布表示”的数学模型模拟了新皮层存储这类信息的方式。在该模型中,每条信息都用一个长二进制向量来表示。长二进制向量拥有很多的“0”(无效位)和较少的“1”(有效位)。每个有效位包含了信息含义的某个部分。如果同一个位在两个向量中都是有效位,那么这两个向量所代表的两条信息至少在一个方面拥有相似的含义。共同的有效位越多,两条信息就越相似。
原文翻译:
依靠Cortical.io的Retina引擎,我们在自然语言处理(NLP)领域取得了突破。该引擎有效解决了大公司面临的很多文本数据处理问题,跨越了处理大量非结构化文本数据的障碍,这归功于一种独特的算法,它是基于对人脑信息处理方式的神经科学研究。这项技术不仅能分析关键词的含义,还能理解整个句子、段落和长文的含义,也可用于多语言文档。通过专注于含义,语言歧义和词汇不匹配的问题被克服。例如,“我们达成了交易”和“合同签署”含义相似,但使用了完全不同的文字。Retina引擎可以识别其中的相似之处。 基于AI的Contract Intelligence
国际大公司利用Cortical.io的Contract Intelligence,来分析合约和其他法律文件中的大量数据。Contract Intelligence是高度精确的数据提取解决方案,结合了Retina引擎和各种NLP技术。这些公司利用Cortical.io的技术,从包含不同语言的大量复杂合约中准确自动地提取关键信息。自动化显著解放了人力资源,大大减低了成本,避免了信息提取过程中的人为错误。企业能够迅速生成连贯的、可比较的摘要和表格,实时管理合约周期,有效把握潜在客户的财务状况。金融机构通过识别与履行和不履行合约有关的条款,来降低信贷风险;大公司通过快速搜索合约,把准确的数字加入财务报表,以此满足新的法律要求。 无监督机器学习和专家反馈的结合 Cortical.io的Contract Intelligence是单机系统,输入数据来自于包含合约和其他文档的数据源。Retina引擎负责处理这类非结构化或半结构化数据,形成在商业信息分析过程中易于使用的结构化关键信息。
按照被请求信息在三到十份样本合约中的范例,数据可以从新的合约类型中提取。这项技术以独特的方法,把无监督机器学习和涉及主题专家(SME)的迭代优化过程结合起来,加强了企业智能,提高了准确性。
SME通常经历五到十次迭代,与系统相互配合,产生最佳结果。
1. SME确定他们想提取的信息的类型。 2. 在无监督学习阶段,系统学习识别合约词汇和概念(比如设施、贷款、日期和合约各方),弄清各个概念之间的关系。 3. 从合约中提取信息。 4. 根据提取的结果,SME通过添加或修改被请求信息的类型来优化系统。 Contract Intelligence采用的Retina引擎是从关于人脑工作方式的语义折叠理论发展而来。大脑新皮层是包含神经元的平面结构,负责处理文本、图像和声音等信息。名为“稀疏分布表示”的数学模型模拟了新皮层存储这类信息的方式。在该模型中,每条信息都用一个长二进制向量来表示。长二进制向量拥有很多的“0”(无效位)和较少的“1”(有效位)。每个有效位包含了信息含义的某个部分。如果同一个位在两个向量中都是有效位,那么这两个向量所代表的两条信息至少在一个方面拥有相似的含义。共同的有效位越多,两条信息就越相似。
收集文本以形成语义空间 为了建立一种简单有效的自然语言处理系统,Cortical.io的技术从精选的参考文献中收集文本。文本被分成基于含义的几个部分,名为片段,然后分布在2D网格上。拥有相似含义的片段彼此靠近。此2D网格被称为语义空间,在这个空间中,每个片段都有一对坐标。
用数字表示文字的含义 为了用数字表示某个文字的含义,Retina引擎激活包含该文字的所有片段的网格位置。由此产生的文字含义网格图被称为该文字的语义指纹。
某文字的语义指纹
网格可以展开,形成一个长二进制向量,网格上的每个有效位置对应着向量中的一个有效位。于是,二进制向量就成了文字含义的数字表示,可以用来比较和计算,这两种操作对NLP的有效应用至关重要。为了把更长的文本转换成一个语义指纹,该系统首先把文本中的每个文字转换成一个语义指纹,然后把所有的语义指纹结合起来。
车品觉简介
红杉资本中国基金专家合伙人 国信优易数据研究院院长 滨海泰达物流(HK:08348)非執行董事
香港特区创新科技及再工业化委员会委员
贵阳市大数据委顧问 上海市司法局大数据实验室专家 CCF大数据委副主任 乌镇智厍理事
浙江大学管理学院兼职教授 清华大学(大数据项目)教育指导委员 Advisory Committee of Big Data institute - HKUST
全国信标委大数据标准工作组副组长(2015-2017) 原阿里巴巴集团副总裁 原阿里健康(HK:00241)独立董事 原阿里数据委员会会长
2014年领导阿里数据团队获得Top CIO评选为中国最佳信息化团队 2017年被国家信息中心选为中国十大最具影响力大数据企业家
拥有十几年丰富的数据实战经验,并在实践中形成了独特的数据化思考及管理方式,对大数据未来趋势有独到见解;亲自领导阿里数据团队在大数据实践领域取得了一系列重要成果,包括为阿里建立集团各事业群的业务及决策分析框架,开发智能化的数据产品,成立了驱动集团数据化的运营团队,成功发起了公共与专有数据资产管理体系,还发布了数据安全规范等。
|