马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
一、瀚云标签画像系统架构
瀚云标签系统主要服务于企业画像,为企业的经营情况、能耗情况等设计数据标签,为政府、银行等客户提供准确、直观、时效的数据服务。
产品架构说明
该系统通过大数据、人工智能等技术为企业赋能,为各类业务服务。从数据整合到数据仓库建设,最后通过标签系统为企业做特征提取,为企业构建全息画像。
标签系统功能架构说明 标签系统作为企业画像构建的基础,瀚云 标签系统主要功能点如下图所示: 瀚云标签系统包括从企业数据湖、数据集市、数据仓库等采集数据,标签公式创建、规则生成,计算标签,任务监控,标签查询等核心功能。
技术架构实践
交互式开发工具: Zeppelin,目前标签数据源来源比较多,包含HBase、MySQL、ES等,为了让业务人员更方便追溯原数据,采用Zeppelin作为交互式查询工作。
规则引擎:标签平台采用在线拖拉元数据信息和数据符号生成公式,然后利用Drools规则引擎优化公式,并生成对应计算需要的sql与udf函数,来为后续标签计算服务。
批处理引擎:采用Spark Dataset API做后台标签计算。
流处理引擎:采用Flink CEP 处理做实时计算。
配置存储:MySQL存储标签规则配置信息、标签目录配置信息、结果集校验(标签量级监控、数据波动的校验等),采用Redis缓存配置信息供业务调用。
计算结果存储:目前标签计算结果集可以存储于HBase、MySQL。
服务接口:标签平台采用微服务方式提供配置查询与数据接口给业务调用。
服务间调用:feign(基于rabbion的负载均衡,调用方式简单)。 二、标签系统简介
标签系统结构
数据加工层 解决标签数据的生产问题,完成数据的收集、清洗、转化、计算。通常,搭建完善的企业标签体系,需要尽可能汇总最大范围内的数据。然后进行数据清洗,如去重、去除无效数据、去异常数据等等。再然后转化、计算出标签数据。
数据服务层 主要用来维护整个标签体系,集中在一个地方进行管理。完成以下核心任务: 定义业务方需要的标签 标签完整生命周期的管理 实现应用层的对接
数据应用层 将数据能力转化为业务价值的地方。业务方按照各自业务的需求使用标签,实践中可用到以下几块:
标签系统构建标签定义 定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。我们给企业画像打标签分类为四大类,基础类标签、统计类标签、规则类标签和模型类标签。例如瀚云给企业标签分类如下:
标签维护 标签维护需要生成规则,定义权重,更新策略,同时需要考虑到权限管理。
标签整体执行流程 执行流程包括标签创建、审核、计算、校验、线上评估、优化。
三、标签系统在企业画像上的应用
目前标签系统广泛用于企业画像系统预警风险配置等业务功能块。
【案例效果展示】 数据标签管理配置 企业画像效果页面 通过标签公式配置与服务展示某个政务云下各项指标。
四、总结和未来规划
通过依托瀚云大数据中台服务,可以实现多种维度数据挖掘,对企业进行分群,实现企业图谱,大屏所需指标,以及风险评估报告、信用报告、企业评分监控等功能。
未来瀚云大数据平台标签管理可实现标签流计算处理,以及标签在线分析,利用标签管理功能实现相关搜索、推荐等业务。可配置完成业务、可配置完成产品,实现业务与产品全景视图。
作者:彭科 来源:瀚云研发中心
|