全球最具影响力的数据智能产业服务和职业发展平台

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

Flink+HBase场景化解决方案

[复制链接]
发表于 2019-7-4 10:17:16 | 显示全部楼层 |阅读模式

1.png
在中国 HBase 技术社区第十届 Meetup 杭州站上, 阿里巴巴高级产品工程师高旸为大家分享了实时计算技术相关的发展背景, 并介绍了基于 Flink+HBase 的实时计算场景化解决方案, 并对于在线教育, 城市大脑, 实时风控等典型的实时计算方案应用场景进行了介绍.
演讲嘉宾简介: 高旸(花名: 吾与), 阿里云计算平台事业部实时计算高级产品专家.
以下内容根据演讲视频以及 PPT 整理而成.
阿里云实时计算团队一直都在思考一个问题, 那就是 "如今, 在客户所面对的实时计算场景越来越复杂的情况之下, 单一的产品是否能够解决客户的所有需求?" 因此, 也就有了本次分享的主题, 也就是 Flink+HBase 所提供实时计算场景解决方案.
实时计算市场竞争分析 -- 传统厂商
在实时计算的市场中, IBM 以及 Oracle 等传统 IT 厂商布局和起步比较早, 因此其所能够提供的场景也就非常丰富, 无论是 2B 还是 2C, 这些传统厂商都拥有非常丰富的产品. 但是, 他们所提供的产品往往也比较昂贵, 并且需要本地化的部署. 除此之外, 在云化的过程中, IBM 和 Oracle 的整体表现也欠佳, 因此这些传统厂商也在积极地寻求更多云化的场景.
实时计算市场竞争分析 -- 云厂商
除了上述所提到的传统 IT 巨头之外, 很多的云计算厂商也正在实时计算方面积极地进行布局. 比如 Google 在大数据相关领域一直在进行投入, 其也在 2014 年的时候进军实时计算领域, Google 在实时计算领域的主打产品就是 Dataflow. 微软 Azure 和 AWS 分别在 2015 年和 2016 年进入实时计算领域, 阿里云和华为同在 2017 年进入实时计算领域, 而腾讯云则是在 2018 年刚开始布局. 总之, 云厂商在实时计算领域起步都比较晚, 所涉及的场景也比较浅, 但是在价格比较具有优势, 因此未来的发展空间是巨大的.
业界开源技术生态分析
目前, 在业界的实时计算以及流计算领域, 开源技术生态主要产出了三代产品: 第一代产品以 Storm 为代表, 第二代以 Spark 为代表, 第三代则以 Flink 为代表. 这里重点介绍一下 Flink,Flink 是有状态的实时计算处理引擎, 而正式因为 Flink 具有状态, 因此其非常适合在事件处理上做一些场景化的解决方案, 并且可以进一步演化为微服务框架, 所以 Flink 也是一项非常适合微服务场景的技术.
同时, 大家也可以看到从去年到今年的年初的这段时间里面, Flink 也是整个 Apache 社区中用户最为活跃的项目. 但是, 阿里云实时计算团队在使用中也发现, Flink 还是一个偏向于 PaaS 层的技术, 而客户无法直接通过使用 Flink 来解决自己的场景化需求, 在 Flink 的前面需要像 Kafka 这样的工具实现数据的导入, 在其后面还需要一些像 HBase 这样的存储工具帮助实现数据的存储. 因此, 想要通过 Flink 解决实时计算场景的问题, 还是需要一整套生态来帮助.
Flink 容器化解决方案 -- 架构
阿里云实时计算团队一直在思考如何将这些开源技术整合到一起, 使得他们能够真正地解决客户所面对的问题, 帮助客户解决 "最后一公里" 的问题. 因为像 Flink 这样 PaaS 层的工具, 如果无法帮助客户解决这 "最后一公里" 的问题, 那么产品就不会被客户所接受. 在阿里云的 Flink 容器化解决方案中, 底层构建在 Google 的 K8S 的容器上, 在上端除了导入了 Flink 的实时计算引擎之外, 在架构中还将 Flink 上游的 Kafka 和下游的 HBase 等组件也加入进来. 因此, Flink 容器化解决方案在 Google 的 K8S 框架下, 能够提供所有的数据处理能力. 如果客户还有其他的需求, 还可以将相应的服务以 K8S 的 Orchestra 方式添加进来.
在架构中更上面的一层, 阿里云 Flink 容器化解决方案希望能够提供更加贴近用户的 SaaS 层服务. 在实时计算 + Flink 或者 HBase 方面, 阿里云实时计算团队针对于自身所服务的客户进行了用户画像, 最终抽象出了针对于几个主要的行业的容器化服务, 比如针对于安全行业以及城市大脑等的规则引擎, 针对于银行以及其他风控领域的决策引擎, 此外还有针对于语音处理, 自然语言处理以及视频分析的场景, 并且还有实时在线数据分析以及实时人工智能的场景.
除此之外, 阿里云实时计算团队还希望在基础的服务层之上将一些更贴近客户的 "PaaS+" 服务也整合进来, 于是在 Flink 容器化解决方案的架构中还为客户提供了系统管理员界面和用户开发界面. 因此, 对于阿里云的 Flink 容器化解决方案而言, 主要就是按照以上的思路去设计更加细化的, 镜像技术叠加的解决方案和产品.
实时容器化计算解决方案 -- 生态合作伙伴
对于阿里云的实时容器计算解决方案而言, 非常希望能够引入更多的生态合作伙伴, 希望更多的在垂直领域具有丰富经验的合作伙伴能够不断加入进来, 将更多的偏向于 SaaS 层的解决方案构建在该平台之上, 比如增加更多可插拔的或者更加易用的解决方案, 成为产品或者解决方案的分销渠道或者交付渠道, 承担扩容, 交付以及售后服务的通道. 阿里云非常希望通过生态或者渠道等方式共同构建起融合 Flink,HBase 以及 Kafka 等产品的实时容器化计算生态, 构建产品形态的端到端闭环.
Flink 实时计算的典型场景
如下图所示的是阿里云 Flink 实时计算的典型场景, 该产品于 2018 年 10 月正式上线, 经过上线之后的半年时间, 通过阿里云对于客户进行的用户画像和分析发现, 云上的很多实时计算产品在使用程度上还是较浅的. 目前, 云上实时计算产品大致能够触达 3 个主要的领域, 即数据分析, 事件驱动和数据处理.
对于数据分析类场景而言, 主要的产品就是实时数据大屏, 比如在阿里双 11 也有超级数据大屏的展示, 实时数据大屏里面就包括了实时的 BI 等场景和解决方案. 对于事件驱动类场景, 主要的产品就是实时监控和实时风控相关的产品, 因为 Flink 是有状态的, 因此其天生就具备事件处理能力. 而在实际的场景中发现, 很多客户会组合规则引擎, 决策引擎以及指标监控和调优等多种场景. 更进一步就是数据处理类的场景, 其实 Flink+HBase 属于强计算场景, 因此也希望能够出现更多的强计算场景, 比较常见就像是城市交通大脑, 如今全国很多城市都部署了大量的交通摄像头, 每天都会产生大量视频监控数据, 因此需要强计算场景进行支撑. 此外, 比如在线教育等领域, 也有很多的视频沉淀下来. 对于实时数据处理而言, 需要在生产或者生活等方面寻找能够产生大量数据的场景, 阿里云也希望在这样的场景下提供更多的能力和服务.
在线教育 -- 实时视频分析场景
阿里云实时计算团队通过前期和客户的深入沟通沉淀了很多场景, 如下图所示的就是在线教育的实时视频分析场景. 阿里云之前在城市大脑等领域对于实时视频分析探索得较为充分, 但是在偏向于民用的领域, 尤其是在与日常生活相关的方面, 实时视频分析解决方案的应用还不够深入. 因此, 从 2018 年底到 2019 年初的这段时间里, 阿里云实时计算团队和中国顶尖的在线教育领域的独角兽公司进行了多轮深入的沟通, 充分地挖掘了这些客户在实时视频分析领域的一些需求. 从大体上可以认为, 在线教育领域对于通过视频分析来判断课程质量, 监督课程进展状况具有很强烈的需求, 而阿里云认为 Flink+HBase+Kafka 这样的实时容器化计算解决方案在像在线教育这样的民用视频分析领域可以发挥很好的作用.
在线教育 -- 实时预测场景
对于在线教育领域而言, 除了上面所提到的实时视频分析场景之外, 还存在着实时预测的场景. 比如在线教育平台上可能每天的每个时段都会有大量的课程开放出来, 因此就会产生大量的视频数据, 在这些课程中间往往会有大约 5 分钟的课间. 而在这 5 分钟的课间时间, 在线教育平台就希望能够对于所有的网络和服务器等基础设施以及平台系统的运行状况进行评估, 通过借助机器学习进行预测, 预测平台在未来的 30 分钟内还能够开放出多少门课程, 这也是 Flink+HBase 在 Online 的机器学习方面的一个应用场景. 针对于这样的场景, 阿里云实时计算团队也正在和客户进行探讨, 希望能够在这样的场景下实现更多具有参考价值的优秀案例.
城市大脑 -- 实时视频分析场景
如下图所示的就是阿里巴巴投入较多的城市大脑项目. 城市大脑目前已经在杭州, 上海以及海口等多个城市落地, 其底层就是通过实时计算与 HBase 的组合, 进而实现对于整个视频流的处理和分析. 这些被处理的视频数据往往来自于城市中的高清摄像头, 这些高清摄像头能够实时地获取大量的数据并传输到城市大脑中. 而想要通过城市大脑实现红绿灯的实时调配就需要 Flink 构成的数据实时处理平台, 数据处理之后再将整个动态视频数据所产生的特征值以及相关指标都存储到 HBase 里面, 并在后续叠加多种类型的算法对数据进行分析, 进而实现对整个城市交通的智能化治理. 这是实时视频分析处理的典型场景, 同时也是目前中国一线城市和诸多省会级城市都在实践的场景.
实时欺诈检测 (风控) 场景
如下图所示的是实时欺诈检测的场景, 也就是风控场景. 对于风控而言, 不仅有金融类的风控, 还有营销类的风控等, 类型多种多样. 拿营销类风控来举例子, 首先, 用户的行为经过 App 上报或者 web 日志记录下来, 之后发送到一个消息队列中去, 然后通过风险模型和规则引擎进行实时计算, 进而产生一些消息预警.

楼主热帖
168大数据(www.bi168.cn)是国内首家系统性关注大数据科学与人工智能的社区媒体!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2019-11-17 21:18 , Processed in 0.102947 second(s), 21 queries , Xcache On.

Powered by BI168社区

© 2012-2014 海鸥科技

快速回复 返回顶部 返回列表