最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

知识图谱,能否成为企业下一代的数据仓库?

[复制链接]
发表于 2020-4-5 16:54:36 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

我认为, 知识图谱是企业下一代数据的一种新的组织方式,能够更高效的连接上游的大数据和下游的AI建模任务。

企业最初数据量少、结构单一的时候,用MySQL这样的结构化数据库就够了;再后来数据量越来越多、业务越来越复杂,就需要分布式数据库、数据仓库、数据集市来数据资产。这类数据都需要事先定义好结构。但在大数据时代,你不可能事先将数据的结构定义好,于是很多企业开始利用像 hadoop 等来搭建大数据平台,以NOSQL的方式存储那些事先无法定义的数据。但这些数据之间如何有效关联?例如,当一些查找稍微深度(例如四、五度或出现隐形关系)这就需要利用知识图谱进行数据组织了。

在近期AI科技评论对张杰博士进行的采访中,张杰如是回答了他对知识图谱未来发展的看法。

张杰博士是明略科技资深科学家,明略科学院知识工程实验室主任,加入明略科技后便一直在负责明略科技“行业知识图谱”的研究和搭建工作,在此之前曾在华为中央研究院从事机器学习方面的研究工作。

张杰提到:“在我们内部,我们认为知识图谱是企业下一代的数据仓库。它的优点除了能够高效地进行深度关系查询外,还能图谱基础之上做一些推广,通过引入常识知识和领域知识,由已有的知识产生新的知识。”

AI科技评论认为这是一个有趣的观点。

1、数仓

数据仓库的概念最早是在1990年由 比尔·恩门(Bill Inmon)提出。这里需要区别数据库和数据仓库之间的不同。

数据库是一种逻辑概念,用来存放数据,由多表组成,目前市面上流行的数据库例如有 Oracle、DB2、MySQL、Sybase、MS SQL Server等。

而数据仓库则是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方;只不过从数据量来说,数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析,支持复杂的分析操作,侧重决策支持,并且直观易懂的查询结果。

在比尔的著作《Building the Data Warehouse》一书中,他将数据仓库定义为:

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持决策。

这种组织数据方式(即面向业务过程的数据组织方式)通俗来说,就是将数据物理集中在一起。从存储的角度来看,数据就是一张张独立的表结构,如常用的会员表、订单表等,表与表之间无法在数据层面整合到一起,需要通过外在的辅助工具才能进行逻辑与数据梳理,因此这种形式又被称为物理集中,而不是逻辑集中。

这种传统的数据仓库,其优势在于统计性报表,能够高效地进行数据统计。

但其缺点正如前面张杰博士所提到的:

1对于这种结构化的数据,需要提前定义好结构清楚地知道数据的格式和关系且在添加数据的过程中很难改变结构。这种结构化的数据价值密度比较高,但在大数据时代我们不可能把所有的数据事先定义好,因此也就无法利用目前互联网中出现的大量非结构化的数据。

2)针对1)中的情况,目前也有很多企业使用像Hadoop这种分布式处理框架来大数据平台,这可以存储一些事先定义不好的、量特别大的、或结构化数据库不好索引的数据。但这些数据之间如何有效关联,如何进行深度查询依然存在困难。例如通过结构化的或大数据平台的数仓,可以胜任一度关系、二度关系的查询,但涉及到四度、五度或者隐形关系查询时,就会非常困难。

2、知识图谱

知识图谱最早是在2012年由谷歌提出的一个概念,但事实上在很早就已经有了相关的研究(称为知识工程)

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”每条边为实体与实体之间的“关系”知识图谱也是“关系”的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。

张杰表示:“在知识组织层面上,图谱化将是企业进行数据的未来趋势。”

一方面,它便于将客户已有的结构化知识做更深的度数上的关联,同时保证查询效率,深度关联是传统数仓的技术框架下不善于实现的。另一方面可以帮助客户从来自于物联网、互联网等海量的非结构化数据中抽取出知识片段,从而拓展客户的数据维度,增大知识储量,释放出大数据红利。

经过适当的引入常识知识和领域知识,可以对图谱中的节点和关系做向量化处理,进而突破以往基于字符串匹配的浅层语义,更加便利、有效的帮助客户组织领域知识,为流程优化、辅助决策、预测分析等下游应用基础服务。

明略科技在这方面有足够多的构想和实践。例如在知识表示方面,目前明略科技聚焦于如下几个研究问题:带有部分属性和的静态图谱如何向量化表示,如何从动态变化且不符合马尔可夫性的图谱中挖掘出事件间的因果关系,常识知识、领域知识、非结构化碎片知识如何映射到相同的语义空间中,如何用统一的知识表示框架为下游的分类、检索、推荐、问答等任务知识服务。

3、困难

然而目前为止知识图谱在成为数仓的过程中,依然存在着研究上的和产业上的问题。

其次在产业应用方面:

首先,对于构建知识图谱的“数仓”眼下最主要的问题是大规模、低时延下的效率问题。目前企业所能掌握的关系数据一般都在千万到百亿节点的规模,未来随着5G和物联网的普及,其规模会更大,而且很多场景下要求在秒级甚至毫秒级返回查询结果。这不光是对底层图数据库的,很多上层AI任务的算法要配合中层的图挖掘算法和更底层的图数据库操作算子一起做跨层联合的并行化优化。

另外一个是知识完备性问题,使用知识图谱的目的,除了让它做为一种中间态的数据服务之外,还期待能引入常识知识和领域知识,在大规模数据中做自动推理和补全,当图谱中的知识未达到一定的量级和丰富度之前,推理的准确度很难保证甚至难以开展,两者之间不是线性关系。

此外,也有人提到,现在越来越多的应用,其输入不仅限于文本,还会有图片、音频、等多模态的内容,如何为多模态的知识图谱构建一个比较好的解决方案,在未来一段时间里依然是一个具有性的问题。

因此,张杰博士作为补充也指出,“知识图谱不是替换数据仓库,而是作为数据仓库的有效互补。”

参考文献:

本文相关词条概念解析:

知识

知识是人类的认识成果。来自社会实践。其初级形态是经验知识,高级形态是系统科学理论。知识就是概念之间的连结。它是概念的内容的一个方面。概念的内容的另一个方面,就是与直观之间的连结。我们构造概念的目的归根结底是为了把握直观。因此,概念与概念之间必需彼此连结形成知识。有了知识才有力量,才能去把握直观。知识是个体通过与环境相互作用后获得的信息以及组织。按现代认知心理学的理解,知识有广义与狭义之分。广义的知识可以分为两类,即陈述性知识、程序性知识。陈述性知识是描述客观事物的特点及关系的知识,也称为描述性知识。陈述性知识主要包括三种不同水平:符号表征、概念、命题。


楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 09:27

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表