最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

巨杉数据库联合创始人、CTO王涛:国产分布式数据库,快速实现政府数据融合

[复制链接]
跳转到指定楼层
楼主
发表于 2016-9-28 11:48:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
以下是巨杉数据库联合创始人、CTO王涛在2016中国国际大数据大会的演讲实录:

国产分布式数据库,快速实现政府数据融合


王涛:首先我介绍一下自己的背景,之前我是在IBM的数据库实验室,在北美那边做数据库内核的研发。2011年北美IBM小团队分布出来做分布式的数据,后来我们回国把这个产品做出来,现在已经有了5年的历史,我们整个是分布式数据的产品,完全自主研发,现在我们把自己的核心产品开元储量,在中国IT界还是首例。
我们数据库也是得到了非常多厂商的认可,我们是唯一一家中国的数据库产品。
客户分布的行业比较广,包括金融、电信、政府、互联网行业。比如途牛、360都是我们的客户,因为我们是一个数据库的产品,能够适用于各种各样的行业。
今天主要也介绍一下大数据一些技术怎样落地的事情。我先给大家介绍一下数据湖的概念,大数据本身的概念涵盖了从IT基础架构到上面的业务有很多的层面。从技术的层面来看,数据湖是一个比较好的词汇。
数据湖到底代表什么,很多企业都有数据仓库,把这些数据汇总在一块。它跟传统的数据仓最大的区别就是,传统的数据仓是把有限的数据汇总起来。大数据并不是对传统数据仓的取代,而是一个补充,是把所有大数据汇聚到一个湖里,它强调的是对全量数据所有属性的一个存储,而不单单对于某一些维度的存储。
在数据湖里如果再细看,实际上有两类方式,一类叫做分析类,然后在这个数据里分析出一些报表来。比如说要看整个市民的图,有一些地方要统计一年以来的交易额,另外有一个区域叫做交互区。
在这个区域里面主要做一些实时交互式的查询和检索,除了领导整天要看的统计报表里面,要看一些明细数据,当前什么人在什么地方做什么事的时候,这两个数据加在一起统计跟交互构成一个完整的大数据的平台。
整个的近线数据平台的定位,实际上我们把它放在这个位置,是温数据和冷数据的群,实际上说到数据治理,任何一个地方一般把数据分成三种类型,一种叫热数据,可能也是在线的数据仓库比如说所有在线交易的情况。另外有一些ODS或者数仓,这种类型的数据是保存在近线的数据平台,再往前可能两三年前的数据,大家会把它放到一个库里面进行离线的存储叫做冷数据。
我们今天强调的主要是近线平台,数据针对的并不是在线数据,而是温数据和冷数据。它的好处有几个,第一个好处就是这种系统在上线的时候非常的安全,比如说领导决定做一个项目的时候,可能第一个考虑这个东西会不会对已有的业务产生影响,这些系统已有的业务是在热数据区,而我们新的近线数据平台是在一个温数据和冷数据区,它对于热数据没有影响。
其次大家关心的是这个东西的投入成本,一般一个项目一上来投入几千万做这个事,大家都会比较担心。但是我们的经验里面类似于这种类型,针对于近线数据和离线数据的系统投入相对比较少,并且它的见效非常快。它的效果我们把它分成两个类型,第一个类型我们把它叫做离线数据的近线化,离线数据就是说原本的数据存到代库里面,我们想查的时候很麻烦,这些数据我们通过大数据把它进行在线化。
第二个叫做近线数据的瘦身,可能很多企业都在用数据仓库,每年扩容需要付这些厂商一大笔钱,是不是使用大数据,相对比较低廉的成本进行运算呢,这个就是第二个近线数据做瘦身。
近线数据的业务价值体现在几个方面:
第一个方面就是离线数据的近线化。
第二个维度叫做自由查询,自由报表,过去各个委办局看到的数据都是自己的数据,现在我们能不能构建统一的共享分发平台,这个数据上一是能够做到融合,第二个可能是当有一些时候各个委办局需要用到其他部门的数据,过去的做法是网状的模型,每个委办局需要跟另外一个部门直接沟通拿数据。现在把网状模型做成总线的模型,相当于每个职能部门是数据服务的提供或者消费者,能够在各个部门之间自由共享数据。
第三个维度刚才也讲到生产系统的守身,可以把ODS做一个收审。
最后是分布式的影像平台,现在很多的部门都要把它做到数字化、无纸化或者电子证照,这些东西可以使用影像系统的,如果使用过去的传统影像输出的方式成本比较高,现在既然有了分布式的技术,有了大数据完全可以用这种数据让它达到更小的效果。
政府行业的几个切入点,同样的东西在不同的部门,不同的地方有不同的说法,有一些叫政府开放平台,或者数据共享平台,讲的基本上是这个事情。另外税务、电子发票系统,综合警报系统。医疗的像电子病例系统,甚至有一些可以把医疗跟市民卡结合起来,实际上很多事情只不过是这些东西的变形,总体来讲它的核心还是数据的统一和共享。
在数据平台的建设思路,我们会围绕两个思路:
第一个是分期建设的原则。因为可能很多地方说我要建一个系统,目标总是很宏伟,但是一个东西大家要想清楚一个落地的步骤。我们肯定会给大家介绍一下我们会怎么来建议这个步骤。
第二个是分层的架构。这一块指的是整体IT的架构。
首先我们看一下建设的规划,一般建设分两步走,第一步应该是以快速上线,快速见效为目的,做了东西以后我们能够在短期之内能见到它的效果。第一期建设完毕之后进入到第二期,再完善它的框架。
这个是我们再一个地方做的近线数据平台一期的做法,主要的做法是在线的业务系统,来自于这个部门的业务系统,他们把这些数据通过各种SDB或者ODS传输的方式传到上面的共享存储区。在这个数据之上直接有一个外部的系统,就可以把它简单理解成很多不同业务系统的数据汇总到一个池子里做简单的数据汇聚,这个做4到6个月就可以上线。
比如说在其中一个市做了一个项目,就是把社保、民政、工商税务每天把大数据汇总到空间里面,包括自然档案、法人档案或者业务的信息。在上面做出各种集市来,在集市里面做第二种汇总提供给前端的业务来访问。到了第二期一般会根据上层业务访问的特征区分出两个类型,一个类型叫做定制查询数据区,意思主要把原始数据提供给对外数据对市民的访问,这一类的数据可能会有什么样的特点呢,比如说高并发速度很快,比如说我要做一些电子政务的系统,可能我要把这个系统开放给大家的手机肯定需要一个很高的交互式能力。
第二种访问叫做自由查询区,一般这个针对政府内部的访问,它强调的是数据的存储量,它并不很关注相应速度,这两类的数据访问方式我们分到两个不同的集群里面。这是我们做的第二期,左边叫做内部管理平台,右边就是所谓的大数据共享平台,通过数据加工来加工成两部分,一部分对外部数据查询,一部分对内数据查询。
下面介绍一下ECM影像管理,影像在政府部门管理里面越来越关注,过去也是一些票据并不是很关注,现在很多地方都在强调电子凭证东西,这些东西要把影像存下来。在整个解决方案里面,在这个领域也可以使用分布式的技术来替代原本IBM的产品,这种产品是用非常老的技术,一个数据库加一个NAS来做的平台,完全是PC服务器的集群来做这个事情。
下面,简单介绍一个案例,就是跟大家说一下是我们在某市的一个电子政务的人口信息服务平台做的事情,上面有各个公安部门,他们把数据汇总到一个叫做人口信息库的一个系统里面,实际上这个做法虽然看起来可能是乱七八糟,如果大家真正想明白其实也比较直观,因为每个人的信息就是一个身份证号。可以在这个池子里面把完整的信息展现出来,可能在我们的政府里面就叫做政府信息库,只是不同的名字而已,但是代表的事情是一样的。
整体的结构并不复杂,左边是原始的系统,在中间通过数据加载把它进行分析,这一块提供给对外系统进行实时访问,这一块就是高级的架构设计,底层是数据源。再往上是提供给各个委办局,基本上所有的架构都不会跑出这个框框,唯一不一样的就是使用什么样的技术来做。
最后,我大概介绍一下我们的东西,我们是一个分布式的数据库,红的这一部分是我们数据库的存储,上面提供一个引擎。黄的那一部分是我们现在支持的大数据的技术,我们的技术特点包括几个维度:数据冗余、标准SQL、事务支持、Spak集成、多维分析等等。
这一块就是我的分享,谢谢大家!


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-20 00:44

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表