最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

【干货】大数据技术的行业实践《大数据从小而美做起之案例分享》

[复制链接]
跳转到指定楼层
楼主
发表于 2015-12-9 12:49:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本讲座选自Teradata天睿公司大中华区首席数据科学家肖立宏、Teradata天睿公司大中华区解决方案总经理卜晓军二人于2015年11月21日在清华大学“大数据技术的行业实践——数据抽取、准备、分析、展示”上《大数据从小而美做起之案例分享》的演讲。
卜晓军:今天很荣幸能够在这里跟大家分享我们天睿公司大中华区在大数据应用方面的一些实践案例。我会向大家介绍我们如何从业务中找到问题,从数据背后发现规律。其中涉及数据获取、分析和可视化整个闭合过程,这些案例会涉及银行、电信、医疗、保险等领域。今天和我一起在这里的还有我们大中华区的资深数据分析师肖立宏,下面先由我为大家讲一下大数据分析在各个行业的应用情况,具体的案例会由肖立宏跟大家分享。


最近有一本叫驾驭大数据的书,书中指出大数据最重要的是“针对大数据分析的结果采取行动来提升业务”。最重要的问题是如何分析?基于这些分析要采取哪些行动?如何基于数据来引领业务变革?

当大数据有了更多的数据源,即使我们使用传统的数据分析方法也会产生新的价值。当然我们还会用更多的分析方法进行分析。引入新的方法,引入新的数据,这才是我们理解的大数据的范畴。

新的数据可视化方法也使我们能够更好地看到数据背后的规律。让我们的业务分析师更好地找到数据背后的关联关系,从而帮助我们更好的进行分析。


大数据在市场营销、客户体验、风险、欺诈、运营等方向都可以做到传统应用通过流程管控没办法做到的分析。

关于大数据的应用价值,我们会提到一些具体的分析场景。例如市场营销中在线购买放弃行为分析、销售流程改进分析、营销归因分析、流失路径分析,这些都是我们所看到的业务领域本身关心的内容。

我们认为企业开展数据分析项目,除了IT人员,还要有业务部门,由业务部门来确认这个项目的业务价值。

我们的手段很多,这取决于我们要做什么分析。在做大数据分析时,我们会通过多元化的数据,通过迭代式的分析来找到数据背后的规律,从而解决不同的问题。我们现在有很多的分析方法,即使一个表格也可以进行统计分析,还可以对一些路径进行持续分析。对于使用常规分析方法无法分析的非结构化数据,我们也可以使用机器学习进行分析,这些都是大家知道的方法。我的问题是在这些分析方法中是否只要做一个就能解决问题?是的。在这个框架里,我用任何一个方法都能解决问题。当我们把这些方法叠加时,我们可以解决更多的,价值更大的业务问题,从而发现更多不曾被人认知的业务规律和数据规律,这些规律能够帮助我们解决更多业务问题。

我们认为尝试会给我们带来更大的价值。数据分析只往一个方向做,不一定能解决太多问题,所以我们要尝试做不同的方向。

我们认为速度是企业在市场中的制胜法宝。从数据获取、准备、分析、展现到与业务用户的交互都需要快速迭代。我们需要在已有数据的基础上,从业务部门找到业务问题并经过分析提出改进意见,从而推动企业快速前进。开发项目也需要快速迭代,这是企业获取竞争优势一个非常重要的因素。

很多时候是先发现一个业务问题,然后我们针对这个业务问题相关的数据进行评估,会尝试很多的分析方法,这些分析并不一定能给出结果。将每次尝试的结果交给业务人员,进行沟通和反馈,如果结果不被认可就需要尝试新的分析方法,这是一个不断迭代沟通的过程。

大数据的项目不是瀑布式的,大数据分析的专属团队会根据要分析的主题,形成很多小的别动队,把各种人员结合在一起,形成小的项目组。这些项目组的产出也各不相同,有的形成一个报告,有的提出改进意见,有的做业务决策。现在做数据分析,有些产出不见得是一个实施方案,可能仅仅只是一个管理建议。现在数据分析项目和过去应用开发类的项目并不相同,很多时候现实业务对数据分析的需求并不需要大的项目团队,反而针对分析主题所建立的小的项目团队更符合实际需求,这是现今大数据在企业里落地的一些实践经验。

关于大数据在行业中的应用我就概要性的介绍到这里,下面由肖立宏为大家带来精心准备的应用案例。这些案例是我们在银行、电信、保险、医疗等领域做过的大数据分析项目,其中大部分都是由肖立宏带队完成,下面把时间交给肖立宏。

肖立宏:各位校友,大家下午好。下面由我来给大家介绍一下我们目前在大数据领域所做的一些案例。通常来讲,大家一提到大数据,首当其冲的会想到互联网,但是实际上我们在一些传统行业,我们生活中除了互联网以外的很多行业都会涉及到大数据问题。我们清华作为一个典型的工科学校以及其他的综合型学校,实际上每一个科系、每一个专业都会用到大数据的思维和方法解决问题,所以接下来我们从行业的角度为大家带来一些案例。

首先我们看一下银行,银行属于非常传统的行业,拥有着大量的传统数据。但其中有些数据以前我们并没有用,随着大数据技术的应用,我们从中发现了越来越多的价值。

我们首先讲一个产业链金融的问题,作为不同的企业都有资金的流入流出,而这些资金的流入流出从企业的角度来讲,一般是跟交易相关的。这意味着资金的流向和一般的物流流向应该是反向的关系,我花钱买东西,钱流给你,相应的物就要流给我,这时候就要有一个供应链的问题。我们怎么样去发现这个?因为银行要做一种链条式的关系,要看一下比如说某一个汽车公司有没有风险,它要倒闭了会影响上下游的哪些企业,对银行的影响有多大?这时候它就要从整个产业链的角度去判断它的健康性,这时候我们就可以用这样一个大数据的方法去解决。

大数据的方法是基于怎样的数据?实际上是把传统的交易数据,也就是企业和企业之间的转账关系,以及它的票据之间的相互往来构成了一个简单的数据集合。有转入转出,技术来讲就要有图,这个图不是通常意义上的图象,是一个图的概念,我们通过这个图分析就可以在整个资金网络中把供应链的关系挖掘出来。我觉得可以通过计算把核心节点找出来。比如银行,哪些客户是核心客户,我们通过图的核心指标选出一些核心节点,由这些核心节点为起点,往上和往下追诉供应链的上游和下游,这样的数据应用做下来会衍生很多附加应用。首先可以做风险判断,一个企业出现问题,会影响哪一片企业?第二是挖掘营销机会,观察一个企业跟另外一个银行有大量资金往来,主要是集中在哪几个客户?这时候我可以做一个竞争性的资金流向。

这里面涉及到几个步骤,第一个是核心客户的定位,什么叫核心客户?一般来讲可以通过类似pagerank这样的算法,它的值越高就表示它在整个网络里面重要性越高。我们挑出了整个网络里面TOP5的客户作为需要关心的中心点。然后把这些点周边的网络找出来,再从网络中选出TOP百分之一的客户,通过子网络分别交给一些客户经理去打理,这样可以起到非常高效的管理。

这是典型的核心客户资金网,它是一家汽车公司的核心网络。图中的每一个中心都可能是一个账户,比如说以这家汽车公司为中心向外延展出很多中心点,这些中心点是在上下游供应链中起到核心作用的共利网络,实际上我们基于这个网络来做分析就能得出很多有价值的判断。比如说以大众汽车公司为中心,我们应该关注哪些核心节点?这是一个典型的应用。

首先,我们可以用层次的方式,我们看一下它的整个上下游包括了哪几类,这些是我们从银行交易数据中提炼出来的一个网络。它有典型的几个类,例如它的上游产业中有结构制造产业,这里就有一个非常典型的特点。一般来讲,一个核心制造公司都对应一个核心的结构制造厂商,不会有多个。当然这个厂商有可能是一家汽车集团的子公司,专门生产车架的,这个一般是一对一的关系。还有一些其他关系,例如它还会用到炼钢,从银行的数据中可以发现,这家汽车公司的钢主要是来自于一家钢铁提供商,这家钢铁提供商基本上提供了全部的钢铁。再看汽车零部件产业,它的分布比较广,因为汽车零部件会来自于不同的厂家。例如发动机来自一个厂商,而变速箱则来自于另外一个厂商。这时我们能够轻易发现如果这家汽车公司出现了问题,那么它的整个上游产业都将陷入非常高的风险中。另外,在生产汽车的过程中,会用到各种各样的原油或者润滑油,这是由很多厂商提供的。我们通过简单的银行资金流入流出分析,就可以把一个汽车公司的整个上下游全部孵化出来,能够做到全产业链的网络化管理。刚才我们讲的是汽车公司的上游问题,下游也是同样的问题,虽然下游的特征和它不同,但方法论都是一样的。

下面再讲一个银行担保网络的分析。申请过贷款的人都会知道,贷款通常需要担保人,银行会有各种各样的政策对担保方和被担保方进行限制。担保人和被担保人之间的关系是整个担保网络存在风险的根源,但是使用传统方法是无法发现政策之外是否还存在风险。我们使用担保圈的方法来处理这个问题。我们将担保人与被担保人之间的关系建成担保网络,从中我们可以算出整个网络里的核心原则有哪些?往往一些企业在里面权重越高,就会有越显著的特点。所以我们从网络中找出一些核心点,并对这些核心点表示的担保关系进行解析。例如使用划分算法,我们将整个担保圈划分开,然后统计核心的一些担保关系并观察其中是否存在问题。

其中有一些典型的发现:一是通过图分析的方式发现整个网络的核心担保人;二是发现担保的小圈子。在担保网络中的节点关系很多都是以群体的方式发生并且和其他互通,这是担保关系网络特有的一种现象。我们将一个担保小圈子的链条关系描述出来,然后根据这个链条解析出这个小圈子的层次关系。

经过解析我们发现图中四类担保关系。这四类担保关系往往有几种场景,简单单向担保关系是最普通最容易理解的;两两互保关系一般对应于非常小的圈子中的担保关系;三家企业及以上互保关系一般对应于大公司下属的子公司之间的担保关系。非闭合担保链对应于一些融资平台,或者对应于一类担保公司,担保公司发展了很多下级,这种关系的风险是非常大的。

大家可以看到图中有一家企业非常突出,以它为中心的很多担保关系都和它相关,图中是采用路径分析的方法对其解析后的结果。这家企业就是一个高度风险集中的企业,如果它出问题了,整个担保都会有问题。这是非常重要的一个子网络,我们可以把它挑出来。像这样的案例涉及的数据量非常小,只涵盖八千个企业担保人和被担保人,这里只有大客户之间的担保关系。它的担保关系也只有三万多条,是一个典型的小数据。但是在这个案例中我们用的是一个典型的大数据处理手段,这说明大数据并不是简单地取决于数据量的大小。

第三个案例是社区银行选址。背景是某银行在北京有一百多个营业网点,计划新增一个社区银行的网点。社区银行并不是营业网点,因为它既没有人对人的服务,也没有现金交易。但是在社区银行里,除了现金以外的交易都可以做,例如转账等等。问题是把社区银行部署在哪比较合适?这里有几个需要考虑的维度,第一个是不能离现有营业厅太近,太近发挥不出效益。第二个是不能离太远,如果太远不便于管理。在这两个约束条件下保证社区银行的价值和效益,这是一个典型的最优化问题。这个案例中的数据并不多,全部数据只有一百多个营业网点和几百台ATM机的交易量和交易人数。实际上这是一个有着极小量数据的问题,但是用传统的思维方法却不容易做好这件事情。

图中是用大数据方法给出的一个解决方案,这是典型的强行生成数据的过程。原本没有数据,我们通过对地图上的点强行评分生成数据。如何生成数据呢?首先我们要提出假设。例如一个人要办理取钱业务一定是倾向于到就近的营业厅办理,当营业厅里人特别多的时候,才有可能去更远的地方。

如上图所示,我们对每个网格进行了评分。并在此基础上绘制了整个北京市的评分全景图。

从图中可以看出颜色高又没有营业网点的区域就是可以选择的最佳位置。大家能够从这个案例中发现,使用大数据的思维解决问题并不一定需要大量的数据。刚才我们讲了大数据在银行业的典型应用,实际中在银行里即使针对传统数据的应用也远远不止这些。

接下来我再给大家讲一个电信领域的应用。这依然是个最传统的例子,一个客户流量套餐流失的例子。

用户流失问题由来已久,以往的处理方法就是基于传统分类算法的流失预警模型,例如决策树、神经网络等方法。以往做预警都基于结构化数据,例如一个人的通话次数、上网次数、流量使用数等这些非常平面化的指标,这样的预测模型很难深入到细节。现在我们使用大数据的方法重新解决这个问题,我们首先将用户的上网行为指标化。其中如何从上网的连续行为中判断他上了几次网、哪些行为可以规避、通话行为、社交圈行为,另外还有产品订购信息,以及在掌上营业厅中不断变换套餐体系,这种变换的过程使用传统方法是无法纳入到分类器中的,这就需要一些处理路径的方法提取其中的序列,再把它纳入到模型中。

如图我们使用序列分析的方法找出流失行为路径。这里面涉及到用户非常个性化的行为细节,包括他的手机使用习惯、微信使用情况、有没有用地图等等,所有的这些行为都会被提炼出来的。

我们还对用户上网时访问的url进行了处理。图中展示了运用url_parser方法提取的关键信息,我们使用这些信息给客户打标签。

关键信息提取使用的是文本分析的方法,我们使用这种方法将非结构化的信息结构化。通过这样的处理,我们挖掘出二十多个新指标,加入到原先这个分类器中。

我们把新的指标加入后,整个模型的效率提高了差不多一倍。

下面我们再讲一个用户迁移轨迹的案例。这个案例的现实场景是我们拿着手机在任何地方走,在电信基站里面都会留下轨迹,你在哪里打过电话,你从哪里走到哪里,你离基站的距离是多少,这些信息都有记录。比这更精准的信息也有,每个人手机上都装有几十个应用,基本上所有的应用都会采集位置信息,你在任何地方都会被记录下来。如果这些数据整合起来,你什么隐私都没有。

这是一个典型的用户迁移图,我们可以从这张图中挖掘很多信息。例如我们可以判断一个人经过的位置,流动方向等等。

当记录了多个周期之后再做统计基本上就可以得出这个人的完整画像。例如一个人住在清华,通过西直门到金融街上班,金融街附近的餐厅就有餐饮的需求,这人午饭时间的流动大不大,所在单位是否提供午餐,中午午休时间是多少。通过这样的行为,基本上能对所有用户做一个画像。这个案例也是基于手机最小数据的一个应用,这里我们并没有加入GPS数据。


我们加入基站扇区的信息,这些信息记录了用户通过那些扇区,这时我们能做更多更精细的分析。

刚才我们讲的是电信的几个例子,下面我们再讲一些保险的例子,保险也是一个非常传统的行业。大家如果用车或者是买车,不可避免的就会出现车险或者其他的一些保险,目前很多保险公司都拥有网上业务。

例如人保要投放广告,就需要选择不同的入口投放广告,钱投向哪个入口能带来用户,能提高收入量?基于以往投放广告的日志分析,就可以对这个问题进行优化,图中显示了日志分析的全过程。

这张图是我们的分析结果,图中对每个接入网站的入口都会有一个贡献度的评分。这里有两个维度,一个维度是带来多少人?一个维度是转化率是多少?当我要在互联网上发广告的时候,这张图能够帮我找到带来最多用户、最大流量的入口。

下面要和大家分享的是用大数据方法解决车险欺诈的案例。

图中是我们的分析思路。首先我们要构建一个关系网络,将所有相关的人全部纳入其中,然后我们对这个网络中的每个人评分,第三步找出在网络中权重非常高并且频繁出现的人,这样的人就非常有嫌疑,一般情况下一个人不会多次出现在这个网络里。

我们通过这种方法发现到一些子网络,例如在整个图中我们发现一些小团体,大家可以看到这样一个关联性非常密集的小群体,它构成了一个非常明显的碰撞网络,我们对该网络中的所有人进行了核查。我们发现这个网络基本上是发生在湖南和贵州的两个驾校里,这个可疑度就非常大了。

这里有一个很重要的内容需要大家思考那就是如何把业务内容变成我们分析过程中的一部分。实际上多数情况下数据是需要构建的,你需要从业务上把这些间接相关的数据找出来并且把它们结构化,之后才是如何使用分析方法。

图中是将全部报案车辆之间进行关联后的结果。

刚才我们主要讲了三个大数据在传统行业中应用的典型案例,下面我们再讲一些大数据在相对非传统领域中的应用。

下面讲一个航空公司缺口航班的分析,在这个案例中我们设置了三个约束条件,客户在短时间内进行的长距离移动更倾向于使用航空工具。

我们通过约束条件进行序列分析之后,发现很多值的关注的缺口航班。当然刚才是基于所有的乘坐记录做的缺口航班,在此基础上我们又将已有的航班进行了排除,发现了一些非常有价值的缺口航班。在这些航班中如果是国航客户有强烈需求但是目前没有航线覆盖的,我们就会通过增开航线,或者跟其他航空公司合作共享航班的方式,来满足国航客户的飞行需求。

第二个案例是快递。现在快递的发展非常快,同时也产生了大量的数据,这些数据都是特别有价值的。对于快递来讲,最关心的两个需求是运营效率的提升和运营成本的降低,基于这两个需求就需要用大数据的方式,对它的整个需求做一个分析。

图中展示了省间票件运输需求,大家能够轻易发现对于浙江这样的电子商务大区,它发出来的东西跟收回去的东西肯定是不一样的。

另外,对于快递公司接收的一个快件,同样从广州到北京,它可以经过不同的路由到达,这就需要对不同路由的成本和效率进行评估。在成本方面,我们把成本划出来,基于路径做统计,把成本分摊到每个环节就能看到哪个环节可以优化,哪个环节可以减掉;在效率提升方面,能看到要把哪个环节组合优化。

我们再讲一个医疗方面的应用。现在医院的数据非常多,而且医院大数据的应用也非常多。这个案例是我们在某一个妇幼儿童医院做的疾病关联的分析,我们可以看到不同的病之间,肺炎和哮喘、支气管炎、感冒,他们之间的相互关联关系和关联程度到底是多大?都可以通过关联分析得到,这是我们呈现出来的结果。在处理与大病关联的疾病时,就需要有一定的防卫措施和用药或者护理上面的差别,下面我们看一下哮喘病发展的路径。

通常来讲儿童得哮喘之前,一般都会经历哪些过程?例如他之前通常会有一个呼吸道的感染,或者有一个支气管炎,最后导致哮喘。哮喘是比较严重的一种病,我们要防微杜渐。当他出现支气管炎的时候,我们就要防治哮喘。也就是说通过对儿童医院数据的分析,会对很多患者提供一些预防性的意见。

下面是精彩的提问环节:

No.1提问:我提个问题,是肖立宏学长,这是帮同学们问的。所需要的知识储备和职业技能您能简单分享一下,如果从专业是数学统计学、计算机学等等,因为我不是这个行业,所以我想问一下知识储备?

肖立宏:简单来说,实际上大数据这个东西应该属于是叫更加混合的一种学科,或者更加交叉的学科,这个学科里面可能既有数学的算法,或者像今天讲的图分析,比如说用很多图的知识,机器学习的很多知识,统计的很多知识,都会在分析的领域会涉及到。还有一些计算机的领域,因为实际上来讲,我们公司现在让我来招人,我更喜欢是计算机这个里面的人进入到我们公司来,因为这个涉及到很多统计学领域的东西,当然我刚才讲的主要从实用和动手能力上来讲,我们希望认为这两个领域的知识都是需要的。

No.2提问:两位学长你好,我是矿大的一个研究生,最近想做一个相关的课题。但是我本人不是学这个的,所以可能有点门外汉的感觉,所问的可能也跟大数据这个技术,专业知识可能不是很相关。我更想了解的可能是咱们在运用大数据技术的整个流程里面,比如说在运用这个数据进行分析的时候,这个数据的来源是什么?我们公司所接触的数据,它的原始数据是一个什么样的情况?然后这种分析完之后,咱们成形的一个东西,那个是大概的一个什么情况?我可能更想了解一下这方面的东西。

肖立宏:这个你刚才讲的数据的来源,现在这个数据的来源基本上是多种多样。实际上现在每个企业或者政府来讲,对数据的注重程度都是前所未有的。因为比如说像银行这些核心数据可能要记录是没问题,但是比如说像网络一些数据也都是保存的,或者像原先的机器系统,可能都在用,现在可能也全部都保留下来了。现在实际上大家都已经意识到数据的价值,那么每一个产生数据的环节,大家看到的一般都会想办法保留,这是一个情况。当然数据来讲,肯定是多多益善,当然经过筛选以后,可能有一些是要筛掉的,有一些是要保留的。也就是你刚才讲的数据的来源,我不能够单讲这数据是哪来的?各行各业产品都不一样,而且有一些产品的数据是要慢慢积累,或者把传统的经验数据化。这个过程,可能还有一段路要走,有一些可能只有,比如说你做完分析以后,真正去做分析的时候,你才会发现到他的价值。就像我刚才讲的,很多东西写程序的路径,没有想到这个数据,我写程序就是一个程序逻辑在里头,但是我真正去分析的,我用的就是你这个逻辑,但是恰恰这个数据没有数据化,你找另外一个人来,你不知道,因为这个程序是另外一个人写的,这个写程序的人根本不在了,你也不知道的。一旦做数据,你碰到数据的问题,也会碰到数据来源的问题,这个事情随着深入应用来讲,这种事情只会越做越好,我觉得是这个意思。

No.3提问:我想问一下肖立宏学长一个问题,我来自安徽合肥,我也是一名大学老师,现在在读博士。是这样想问一个问题,现在我也在做偏大数据方面的课题,我想问一下咱们在客户体验和情感分析这块,做到什么样的程度?还有在情感分析这块,有没有什么创新?第二个问题,我想分析一下,因为咱们是企业,可能数据比较多,我想问一下天睿公司有没有在数据的分享和数据和科研机构的合作商什么考虑,比如说我们去掉它私有化和匿名化以后,有没有合作的考虑和想法?因为我们做数据,数据来源很重要,数据来源很稀少耗费大量精力,我想问这个问题。

肖立宏:我先回答第一个问题,第一个问题关于一些算法,比如说类似情感分析这样一些方法。这样一些方法实际上在我们的产品里面,都是提供了一些相应的功能去实现的。主要就是文本里面一些功能,比如说像文本分类、文本情感分析,或者它的特征的一些提取,在这个里面都可以通过我们功能的组合应用,去实现这样的内容。我们给很多客户做过情感分析的工作,比如说像台湾,我们去年做基于HTC,它的手机用户大家都要通过他的开户记录,去看一下对我的评价。还有一些像基于互联网,我拿一个系统,从互联网上爬虫爬过来的一些数据,基于我们文本分析的数据去判断一下,目前整个网上对我的这样一个反映是负面还是正面的,正面的反映主要是哪几点?我们提取一下数据看看,大家抱怨我们的主要是哪些?表扬我们的主要是哪些?这个时候我们可以在银行里面的服务上去做一些改进,主要是有这样一些应用。

No.4提问:就这一块做我们自然语言的处理,咱们用的是成熟的方法还是我们自己的方法?

肖立宏:我们自己,我们自己的产品,这些文本分析的能力都是有的。

卜晓军:刚才第二个问题可能还没有讲到数据来源的问题,包括去隐私化等等,我能理解大家很多人在做数据分析的课题或者项目的时候,包括我们今天也是这样,你去准备数据,你用外部数据去爬的,或者内部数据各个系统抽取的,这里面的工作量其实占据整个工作量超过80%甚至更多,这个里面大家看到的今天我是不是能够有一个就在那边的数据库公有的,我今天想要到哪就去取。今天我们中国有人企图在做这样的事情,比如说贵州成立什么大数据交易所。但是这样的事情并不到那么乐观,因为在国外现在也没有现成的例子,说我今天那么容易就把数据拿到。但是今天政府在不断开放,各个企业也在想办法进行数据变现,我们看到一些好的趋势,比如说我们看到银联下面有相应的好几个公司,都是可以通过,包括我们校友在做的公司银联智策,去拿它银联大量的交易数据脱敏之后,对外去提供一些数据的服务。

那么包括跟清华大学数据科学院成立了金融大数据研究中心,发布了金融一百指数,这其实是今天拿这个数据拿出来去进行服务的。包括现在电信运营商,中国电信运营公司那它的手机号码进去以后,可以去进行客户画像的一个获取,进行所谓的数据交换也好,或者提供这种数据服务,也是在做的。但是也知道,中国政府在这方面自身做的比较弱,但是在美国、欧洲、欧盟、法国,很多政府的官方网站上面已经定义了不同部委之间公开的数据级、数据标准、数据定义,把他们的政府数据能够很好沟通,往上面通过相应的接口可以获取到,在今天中国,很多是政府在哪个网站上把它公布出来,民间或者业界做的是利用各种爬虫技术,从各种网站上去爬出来相应的统计局的数据、商务部的数据、税务的数据,它在网站上所公开的信息,把网页的数据通过专取下来进行分析,然后出来相应的结果,这是业界现在的一个通行的做法,用爬虫技术去做,在国外这部分已经封装成比较好的API在调用。我相信这是一个趋势,所以刚才您说的这个问题,一定会通过我们的需求,不断地去驱动后面数据的交换,特别是政府数据的公开化,这是我看到这么一个趋势。

今天,的确是我们要花非常大的力气在数据准备上,即使是准备好了,今天在美国的数据项目,数据准备时间依然占了80%,这个是不可避免的。
肖立宏:前一段新闻,中国政府对数据的公开本来也是有一个时间表的,也是要逐步公开一些对国计民生非常重要的数据。另外,刚才你讲到我们公司的数据,实际上我们公司更多接触的是,因为我们公司本身可能并不是提供数据的这样一个厂商,我们更多是利用客户的数据,利用k客户的数据,帮客户做事情或者实现价值。刚才您讲到的还有一点,关于跟我们这的合作的问题,当然我们希望更多的合作方能够跟Teradata共同发展,这个你可以待会儿下来跟我们私聊,这个都没有问题。

整理:刘博
校对:祁德力

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

沙发
发表于 2016-3-25 23:41:12 | 只看该作者
谢谢分享!!!谢谢分享!!!
- 本文出自BI168大数据社区,更多精彩请点击 原文地址:http://www.bi168.cn/>>http://www.bi168.cn/thread-11026-1-1.html

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-6 14:33

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表