最具影响力的数字化技术在线社区

168主编 发表于 2019-9-12 10:42:22

瀚云标签系统架构实践

一、瀚云标签画像系统架构
瀚云标签系统主要服务于企业画像,为企业的经营情况、能耗情况等设计数据标签,为政府、银行等客户提供准确、直观、时效的数据服务。
产品架构说明 https://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWeicu2koTITczDIicJhV27PAFr3CquhaLrsk3bicXNDOq3tXLr7xFwKRxng/640?wx_fmt=png
该系统通过大数据、人工智能等技术为企业赋能,为各类业务服务。从数据整合到数据仓库建设,最后通过标签系统为企业做特征提取,为企业构建全息画像。
标签系统功能架构说明 标签系统作为企业画像构建的基础,瀚云 标签系统主要功能点如下图所示: https://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWe8ZGcn3Cc1jjZic4MuVYkvvHgX5yZGoE8PHCaziaia1BpB1J819GfmV7Aw/640?wx_fmt=png 瀚云标签系统包括从企业数据湖、数据集市、数据仓库等采集数据,标签公式创建、规则生成,计算标签,任务监控,标签查询等核心功能。

技术架构实践 https://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWe5amkiaiaXEeiapiaLssynjMSh11utJUGUALH1j1HeTenxGXLNPelD1n0Nw/640?wx_fmt=png
交互式开发工具: Zeppelin,目前标签数据源来源比较多,包含HBase、MySQL、ES等,为了让业务人员更方便追溯原数据,采用Zeppelin作为交互式查询工作。
规则引擎:标签平台采用在线拖拉元数据信息和数据符号生成公式,然后利用Drools规则引擎优化公式,并生成对应计算需要的sql与udf函数,来为后续标签计算服务。
批处理引擎:采用Spark Dataset API做后台标签计算。
流处理引擎:采用Flink CEP 处理做实时计算。
配置存储:MySQL存储标签规则配置信息、标签目录配置信息、结果集校验(标签量级监控、数据波动的校验等),采用Redis缓存配置信息供业务调用。
计算结果存储:目前标签计算结果集可以存储于HBase、MySQL。
服务接口:标签平台采用微服务方式提供配置查询与数据接口给业务调用。
服务间调用:feign(基于rabbion的负载均衡,调用方式简单)。 二、标签系统简介
标签系统结构 https://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWepDndfEylTQk5YKgZxic8tH2IkvmO62w0dLxXQprBea1aCQyclDu7lwQ/640?wx_fmt=png
数据加工层解决标签数据的生产问题,完成数据的收集、清洗、转化、计算。通常,搭建完善的企业标签体系,需要尽可能汇总最大范围内的数据。然后进行数据清洗,如去重、去除无效数据、去异常数据等等。再然后转化、计算出标签数据。
数据服务层主要用来维护整个标签体系,集中在一个地方进行管理。完成以下核心任务:
[*]定义业务方需要的标签
[*]标签完整生命周期的管理
[*]实现应用层的对接

数据应用层将数据能力转化为业务价值的地方。业务方按照各自业务的需求使用标签,实践中可用到以下几块:
[*]标签取数:标签和企业画像的数据整合中心,可支撑业务部门的日常取数需求,也可作为其他系统的数据支撑来源
[*]多维分析:标签可以更好的连接数据和业务人员,降低数据获取和操作的难度,赋能业务人员参与到数据分析之中
[*]企业画像大屏或者报告

标签系统构建标签定义定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。我们给企业画像打标签分类为四大类,基础类标签、统计类标签、规则类标签和模型类标签。例如瀚云给企业标签分类如下: https://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWeDm4f5UVFkzRS2ZJy5UIfVIc86nj5OvrkBMvR6c9jSU73uWGu4Nj7sg/640?wx_fmt=png
标签维护标签维护需要生成规则,定义权重,更新策略,同时需要考虑到权限管理。
标签整体执行流程 https://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWeMoLibAeCLNOTP0lBItY4sn8gVmFzD66chyu50sP3HqtYq8XsOzgSspQ/640?wx_fmt=png执行流程包括标签创建、审核、计算、校验、线上评估、优化。

三、标签系统在企业画像上的应用
目前标签系统广泛用于企业画像系统预警风险配置等业务功能块。
【案例效果展示】数据标签管理配置https://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWeLKMVSltKugT02dP2PPsRdGlN8U4nWZapGjFZtzM983G4OHWP1veic2g/640?wx_fmt=png https://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWe3vbm8wXhSlZygo5IvHJaNDvTu151FUlsJ2DBg3Px7FD5jRRibibpwmsQ/640?wx_fmt=png 企业画像效果页面 通过标签公式配置与服务展示某个政务云下各项指标。https://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWeph2eLD709LXmITNiaxCic42DpNTaaXaV23gReQW7gRCYKb8fotm722IA/640?wx_fmt=png https://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWetFlSmYHdkKiaMN1JYxygPN58qPGaIJFzNIRPFQXFzSvd15lL1Ss9VvQ/640?wx_fmt=pnghttps://mmbiz.qpic.cn/mmbiz_png/CRWojVCU57KwEtaHBz3coiajh4KwHHPWep6H66VRHianCgOI4Zjrj5dkB0Gic88gLuf8cg4S2P493sn1CzPmxHLcg/640?wx_fmt=png
四、总结和未来规划
通过依托瀚云大数据中台服务,可以实现多种维度数据挖掘,对企业进行分群,实现企业图谱,大屏所需指标,以及风险评估报告、信用报告、企业评分监控等功能。
未来瀚云大数据平台标签管理可实现标签流计算处理,以及标签在线分析,利用标签管理功能实现相关搜索、推荐等业务。可配置完成业务、可配置完成产品,实现业务与产品全景视图。
作者:彭科​来源:瀚云研发中心
页: [1]
查看完整版本: 瀚云标签系统架构实践