最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

把纸质家谱做成数据中台,原来是这样的体验

[复制链接]
跳转到指定楼层
楼主
发表于 2021-4-14 11:41:22 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

从数据采集、数据治理,再到知识挖掘与推理,一个家谱数据中台到底是怎样炼成的?

说起「数据中台」,很多人都不会感到陌生。但究竟如何定义「数据中台」?也许就会难倒一大批人了。

「数据中台」是近年来比较火热的一个技术概念,最早源于国内的科技公司。简单来说,就是利用数据技术对海量数据进行采集、存储、计算、加工、统一表示,形成标准后的数据 API,进而提高数据的共享能力。

目前数据中台的建设尚处于起步阶段, 还没有统一的数据中台建设标准、规范以及评价指标,且没有统一规范的定义,其英文译法也多种多样:Middleware、Middle Platform、Middle Office 或 Platform ,甚至包括中文拼音「Zhongtai」,但这些名字都不能很好地体现其数据共享和数据价值最大化的实质。


近日,来自合肥工业大学、明略科技、北京大学等机构的研究者在《自动化学报》上介绍了关于构建家谱知识图谱的数据中台实践。经过广泛研究,研究者在这篇论文中给出了关于「数据中台(Central-Platform)」的正式定义:

数据中台将一个机构 (企业、事业、或政府部门) 的数据作为战略资产进行管理,是从数据收集到处理应用的一套管理机制, 以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。数据中台建设覆盖数据的逻辑管理和物理管理, 逻辑管理包括数据结构的设计和数据之间相关性的分析, 如数据仓库; 物理管理包括数据的存储和检索。

此外,以华谱系统为例,这篇文章整体介绍了关于「数据中台」的定义、功能模块、关键技术、挑战问题以及相应的解决方案。研究者利用知识图谱构建和推理技术,从海量家谱数据采集、汇聚开始,在数据治理、数据开发、数据资产管理等模块建设过程中辅以 「HI」 (人类智能)、 「AI」 (人工智能) 和 「OI」 (组织智能) 三者的交互和协同,创建了一个标准、可复用的家谱数据中台架构。

华谱数据中台的数据管理架构建设和关键技术

下图展示了华谱数据中台的架构 Huapu-CP,我们以该架构为例,来分析一下家谱数据中台系统核心模块的主要技术以及要解决的问题。

图 1:Huapu-CP 框架图。

具体而言,Huapu-CP 数据中台架构特点可分为三个层面:

1) 基于数据的逻辑管理和物理管理,建设了家谱领域数据管理体系,提高数据服务效率,加速数据价值变现过程,打破了信息之间的屏障。

2) 基于 HAO (Human intelligence,artificial intelligence and organizational intelligence) 智能体系,采用数据规范、数据清洗等数据治理技术形成了包括家谱人物数据、人物关联数据、社交数据、日志数据等的数据体系,更好地赋能于华谱系统前台业务。

3) 融合知识图谱技术,以家谱知识图谱作为数据中台架构的数据底座,从业务的角度组织数据。完成传统数据模式无法支持的节点关联分析、社区发现、用户推荐等复杂计算和挖掘任务。

数据的物理管理

首先,从数据的物理管理层面看,Huapu-CP 选择了图数据库集群的方式,将数据分布存储到多个机器上,并进行实时同步,以保障数据的安全性、一致性及性能的可扩展性。如图 2 所示:

图 2:物理管理框架图。

针对图数据规模较大、图数据分析与挖掘耗时较长的问题,通过对大数据计算算法和框架的对比研究,华谱系统采用 Spark 分布式计算框架,在上层应用 (如子图模式查询、同名人物识别) 中,利用图划分算法将原始的图数据拆分为多个子图,基于分布式计算并行处理,以节省整体计算时间、 提高计算效率。

Huapu-CP 的数据采集方式包含 4 种,其数据采集架构如下图所示:

数据采集架构图。

数据的逻辑管理:HAO 智能体系

在数据的逻辑管理阶段,华谱系统将知识图谱技术、专家智能、组织智能等技术融入数据表示、数据治理等子模块中,协调逻辑管理整个流程。

逻辑管理框架图。

Huapu-CP 利用 HAO 数据治理构架进行数据规范、数据清洗、数据交换和数据集成等数据治理工作。

数据治理架构图。

数据安全和隐私保护

除此之外,家谱数据和家谱服务需要一系列资产管理和用户关系管理算法支撑,Huapu-CP 已形成较为完善的算法开发体系。在数据安全和隐私保护上,Huapu-CP 架构也从用户权限管理和应用权限管理两个层面进行了设置。

针对用户权限管理,Huapu-CP 架构中提出了基于图数据库的 「粗细粒度结合」的权限管理方法,并提出了基于 HAO 模型的权限管理闭环架构。

「粗细粒度结合」的权限管理方法。粗粒度表示该用户所拥有的角色,细粒度指针对数据层面的权限管理。

基于 HAO 模型的用户权限管理架构。

如上图所示,基于 HAO 模型的用户权限管理闭环架构的主要流程为: 由领域专家 (HI) 和组织智能 (OI) 设计用户的权限体系, 由人类专家 (HI) 审核后在权限控制中心提供接口, 最后基于日志的智能分析 (AI) 提供权限调整方面的反馈, 并再由 HI 或 OI 审核、优化 。其中, 为了实现闭环权限控制,系统应实时地采集、存储用户行为数据和用户操作数据,并设计智能的日志分析算法。

针对应用权限管理,研究者通过设置应用读取数据的权限,避免恶意修改读取数据程序而导致的数据泄露问题; 同时,加入 HAO 模型实现应用权限管理的闭环,便于应用的改进和升级。

在 Huapu-CP 架构中,开发新应用的权限管理流程如下: 首先,由于每个应用只需部分数据的读取权限,为了系统中数据资产的安全性与隐私性, 应限制数据访问权限为该应用所需的最小集合。因此,「HI」与 「OI」可基于该应用的实际需求设计该应用所具备的最大权限集合。其次,由于应用的需求可能存在变化, 该应用交付使用后可针对用户行为数据分析或用户反馈数据分析 (AI) 得出该应用改进方向和内容, 反馈至专家 (HI) 和组织 (OI) 重新设计应用权限, 形成权限管理的闭环。

Huapu-CP(https://www.zhonghuapu.com/)对数据中台建设进行了一个成功的尝试,目前已有千万级数据节点,能提供秒级数据服务。但数据中台技术尚处于起步阶段,还面临着技术不成熟、框架验证标准不一、技术人员缺乏等困难和挑战。新一代的数据中台技术,在融合数据的基础上,更需要关心是否能够很好地沉淀行业知识。研究者表示,知识图谱技术相对于传统的二维表使用图描述实体与关系,其复杂的图结构更有利于探索数据之间的关联关系和获取知识。

来源:机器之心



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-27 03:45

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表