数据湖建设与应用，你要知道的都在这里

发表于 2021-4-16 21:05:23

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

数据湖概念于2011年提出，发展到今天，大数据目前已经进入下半场，如何通过大数据技术实现业务的工业化量产将是我们将要面临的主要挑战。

随着企业数字化转型的加速，企业数据势必会迎来井喷式发展，而且由于各个系统的交叉分析，将导致数据使用成本会变得越来越高。企业急需一站式的数据解决方案来应对：

P级别存储规模：数据的集中式管理，包括原有的结构化数据存储，以及数字化转型后越来越多的非结构化如用户行为日志、图片、视频、文档接入，大数据应用将嵌入越来越多的业务场景；T级别计算能力：大规模加工预、测计算，如基于订单、合同、用户画像等将定义越来越多的超级大宽表（可能上千维度）汇总加工计算，以及T级别条码信息扫描；同源异构数据访问：数据的存储将会多样化，比如原始区OGG过来表存储在Oracle，而支持key-V快速查询的条码信息存储在Hbase，这些跨库的数据在做交叉分析时，我们只需要通过查询引擎Spark、Hive等，直接读取本地化元数据信息即可实现交叉分析，但实际数据存储可能在hdfs、hbase或者Oracle等多个环境；大吞吐数据管道：支持将海量业务数据快速汇聚到数据湖，供下游大数据分析计算，模型预测，如果时效跟不上预测,再准也失去价值了；

基于以上诉求，华为规划了数据湖建设的整体解决方案。

数据湖平台简介

数据湖平台是一套混合架构，以传统Oracle与华为FusionInsight HD&LibrA为主，依托统一融合的数据平台，全流程拉通华为的研发制造、供应储存、安装交付多环节数据，增强数据交互，使能数字孪生，自动化、智能化提升整体运作效率。

该平台围绕数据分为接入、计算和存储三大逻辑模块：

数据建设准则

1、数据接入原则

以应用驱动为主，优先建设高价值数字孪生项目入湖数据必须有数据管理部认证，发布对应数据资产标准，匹配对应数据责任人数据建模原则以原始数据、清洗整合数据、三范式结构、服务化宽表逐级向上规范整体平台需符合高可用、平行扩容原则，符合业务3-5年的数据规划

2、典型数据应用场景

数据湖构建了数据收集、计算处理、数据服务的一站式数据中台服务，下图按应用场景，对数据流程、处理平台进行了标注:

（绿色）结构化数据通过批处理、虚拟镜像到Hive数据，再通过Kylin预处理将数据储存在Cube中，封装成RESTAPI服务，提供高并发亚秒级查询服务，监测物料质量情况；（红色）IoT数据，通过sensor采集上报到MQS，走storm实时分拣到HBase，通过算法模型加工后进行ICT物料预警监测。（黄色）条码数据通过ETLloader到IQ列式数据湖，经过清洗加工后，提供千亿规模条码扫描操作

数据存储方案

目前数据湖储存介质以FusionInsight HD&LibrA和Oracle两套平台为主，总体接入原则如下：

1、高价值及高热度数据，以FusionInsight LibrA或Oracle为主，如FIN数据；

2、创新性、非结构化数据以FusionInsight HD平台为主，如图片、视频、地图等数据；

3、贴源建设，如源系统为关系型数据库接入Oracle，源系统为hadoop则对接FusionInsight HD；

4、领域级优先建设原则，如IT、制造、研发代码；

我们按照数据类型、数据规范、适用场景建议如下

数据入湖流程

计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样，标准也是多样性的，而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术，比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等，所以我们按数据类型分为如下两大流程：

结构化数据

结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进存储和管理。

非结构化数据

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理，广泛应用于全文检索和各种多媒体信息处理领域。

建模必要要求：统一索引描述非结构数据，方便数据检索分析，可增加维护人员及更新时间作为对象描述字段。非结构化储存，是对对象方式及数字化属性编目,自定义元数据,关联大量非结构化异构数据采用统一的文件元数据对数据进行建模,每一个元数据可以作为该数据的一个维度,索引引擎会对数据的每个元数据属性进行多维索引,这样不同类型的数据就可以形成了关联并处理非结构化数据(全文文本、图像、声音、影视、超媒体等信息)。

储存平台：HBase、mongoDB、HDFS。

增量方式：支持push、pull两种策略，如选择HBase储存需考虑储存的版本个数方便业务查看历史版本。

数据湖应用场景

在数据湖的应用领域，主要有以下几个生产场景：

1、物流领域

我们做了基于GPS地理位置的准实时物流可视，基于实时风险数据上报，构建了5分钟关联箱单货运的风险预警，如果仅查看风险点影响的货单，还是容易实现，但要实时拉通货运、仓储、订单多个平台数据并要求5分钟粒度刷新就非常不易了。

2、交付领域

针对站点交付计划、工勘、配置、发货、验收等十多种场景汇聚+明细15分钟全量刷新场景，支撑交付人员快速核查影响交付关键点，该方案难点在于项目百万站点聚合数据和千万级明细数据同步刷新，保持数据一致性交付。

3、订单履行

同样拉通整个订单包括生产、计划、发货、交付、验收等完整生命周期数据，根据用户实时定义规则，近实时触发异常检测，提供用户整体视察异常及风险跟进，灵活可配的层级规则，是该实时计算的最大亮点，并依托分布式计算引擎实现规则膨胀后计算效率几乎不变。

4、制造领域

我们基于消息模式实现生产AOI贴片数据实时采集，日增量达5千万笔消息，支撑作业流水线秒级监控，作为IoT的试点工程，希望我们的探索能做出样板。

5、项目经营

将iBuy、iGo、iResource等5个源打包整合，实现预算授予的实时查询及阈值预警，助力PO在合理范围内快速执行，借助HBase高效查询能力实现海量明细数据的秒级查询体验。

上述场景可见数字化运营推进着业务由实时可视，到实时监测，由明细概览，到总体可控，让数据创造更大价值。

帐号		自动登录	找回密码
密码			立即注册

数据湖建设与应用，你要知道的都在这里

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1