最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

【金蝶首席科学家 张良杰】走进大数据

[复制链接]
跳转到指定楼层
楼主
发表于 2015-4-20 09:37:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

张良杰:现担任金蝶国际软件集团有限公司首席科学家、高级副总裁,负责国家云计算重大专项“中小企业管理云”示范工程的建设项目,是中组部“千人计划”国家特聘专家、广东省领军人才。并担任中国计算机学会大数据专家委员会副主任委员、深圳大数据产学研联盟理事长、贵州省大数据产业专家咨询委员会委员、国际电气与电子工程师协会院士(IEEE Fellow)和ACM 杰出科学家。张博士曾任美国IBM华生研究中心资深研究员和商业应用架构及实现的重大专项总监、IBM软件集团工业化标准的首席架构师、IBM第一代互联网技术的产品经理(1996-1997)、IEEE服务计算汇刊(IEEE Transactions on Services Computing)的创刊主编,获得过IBM杰出创新奖、IBM杰出技术成就奖、IBM杰出研究成果奖等,为IBM创造了数十亿美元的项目业绩。受邀担任过北京大学、清华大学、武汉大学、北京邮电大学客座教授和深圳大学特约教授,发表过160篇论文,并获得过50个专利。




大数据是什么

业界有很多种定义大数据的方法。我比较倾向的是Wikipedia的定义“大数据指的是所涉及的数据,量的规模比较巨大,大到无法通过人工在合理的时间范围之内,达到获取、管理、处理并整理成我们人类可以理解的信息的数据集,就是大数据。” 这一个概念第一个含义就是说,数据一定要是量大才是大数据吗?显然不是。只要在一个适当的时间范围之内人脑没有办法理解这个数据,那么这就可以称之为比较复杂的数据。如果这个数据在特定的领域里面是一个相对完整的数据集,实际上就是大数据。举一个例子,比方说一栋楼,如果记录下哪一个角落里面用的是哪一个公司产的石块水泥,是哪一个公司做的木材,哪一个工匠设计制造好的,所有跟这个建筑物相关的信息汇集在一起,就是这一栋楼的大数据。只不过这些数据放在那里没有被用来产生价值,如果对这个房子进行重新的装修,重新的结构改造,我可能就要利用以前的数据。当我们把以前存储的数据拿出来重新产生价值的时候,那么它就成为了这栋楼的大数据。

大数据的地位

在最近一段时间以来,数据正在成为一种可以被用来产生价值的资产。这种新型的财富在国际上得到了很多人的认可。美国的大数据专家维克多在《大数据时代》中提到“未来的数据将会像土地、石油和资本一样成为我们经济运行中最根本型的资源。”这种提法实际上跟战略型资产是紧密相连的。它能够被重用产生额外的价值。 美国的气象部门是一个收集原始的气象数据的组织,本身不做气象预报的服务,它把数据对所有的社会资源都进行开放。很多人利用这个数据进行分析,用在特定领域的气象的应用,把最原始的数据变成新的财富。所以如果能够对这些数据加工,进行处理而获得价值,相当于把握了数据财富,把握了时代最主流的旋律。

大数据盛行原因

第一,数据本身是存在的,以前的数据以各种各样的信息方式存在。现在把这些数据相互的关联做进一步的分析,形成在一个特定领域里面的相对完整的大数据集的整合,就形成了我们所说的大数据。 另外一个最重要的驱动力在于大数据现在已经产生了很多的价值,比方在预测商业的发展趋势,在判断研究的成果质量如何,在预防传染病,还有打击犯罪,特别是银行的犯罪以及做实时的交通监控方面,这些领域实际上都已经取得了非常显著的成绩。所以在这些领域的驱动,就让我们全社会的大众都意识到大数据作为一种重要的战略性资产需要被挖掘,需要被拓展到各个方面,各个不同的领域。 这里面的数据种类也包括交易性的数据,华尔街的交易性的数据,还有视频、音频图片等等。在2020年,这个数据规模可能会达到4万个EB,1EB=1024PB,1PB=1024TB。我们现在整个的世界的数据量在2010年的时候就达到了800EB。所以大家可以看得到以后我们的数据规模还在不停的成长。

处理大数据的流程解读

每一个数据从原始的数据到有用的信息,需要做清洗,预处理,还要做很多的提炼。当提炼成信息以后,想拥有业务洞察力,就必须基于这个信息,建很多的数据模型。实际上我们建这个数据模型,就只是针对你感兴趣的领域,或者感兴趣的方面做数据模型。这个时候要用到的方法就是基于特定的业务目标的洞察力发掘的方法。比如,你想了解销售方面的,你就做销售方面的建模;你想研究研发方面的进展,那就做研发方面的数据模型。 只有这样,你才能够获得特定场景下的业务洞察力,才可以为你的企业,为你的组织和团队做决策。当然,决策以后产生了各种各样的结果,以及决策过程当中所需要的或者以后将会产生新的数据,又会回到这个数据体系当中来,形成一个良性的数据价值链,或者说体系内的数据供应链。实际上这种大数据处理的方法都有这样的通性。这是一个比较通用的数据分析的过程。我们以后做任何这样的工作,基本上也可以采用这样的思维,就是大数据的处理并没有我们想象当中的那么可怕,那么遥不可及。

大数据的发展趋势

大数据本身在业界的发展趋势呈现两个方面,第一个就是行业化,就是在各行各业都在利用大数据,在颠覆它原有的商业模式或者优化现有的流程,或者提升现有的产品等等。都属于行业化的发展趋势。 大数据的另外一个发展趋势就是领域化,因为它可以利用到各个领域,比方说研发,做视觉的设计,在人力资源的管理方面,这个领域做的最成功的大数据就是LinkedIn,它就是帮助每一个用户寻找到最好的工作机会。这就是它本身从一出生就是大数据公司,把所有的信息都关联在这个体系上,以人为中心。

大数据的来源

大数据的来源,现在已经开始明晰化,比方说政府大数据、网络大数据和企业大数据。政府大数据指的是政府所拥有的,或者是它负责去采集打造的大数据体系属于政府大数据来源。另外一个来源是网络上的大数据,比方说像谷歌公司,百度公司,它们在web搜索服务开展的创业阶段是没有数据的。大多数的数据来自于互联网上的网站,它们把这些网站的内容,通过分析和处理技术,产生了搜索这个新的服务。所以网络上有很多的数据扒过来以后就形成了网络大数据。第三类大数据就是企业大数据,比方说为企业做信息服务的提供商,它们在所服务的企业授权的情况下,可以帮助积累很多交易性的数据,财务的数据,人力资源的数据,这些属于企业经营所需要的数据,叫企业大数据。

政府态度

国际上有些国家已经把大数据作为国家战略。在2011年的9月,美国联合8个国家宣布成立开放政府联盟。它们把农业、气侯、天气、基础设施建设、能源、工作、安全、科学与技术、社会、文化教育等等这些方面数据联合起来,对全社会开放。这是一个非常重大的举措,有31个国家和地区都加入了这个联盟。 美国在2012年3月份的时候,宣传起动大数据研究与发展计划,将整个大数据的研究提升到国家的战略高度。实际上,在3月初,美国总统任命了一个美国的首席数据官、首席数据科学家,主管数据领域的信息化。 在医疗、公共管理、零售、制造业等大数据领域,欧盟日韩也都分别启动了自己的战略。所以可以看得到,在业界大数据本身已经成为一个国家级的行为。我想在中国很快可能也有类似的举措。

大数据与制造业

传统的制造业里面各个流程,包括研发、管理,供应链管理,还有生产以及售后服务的领域,如何利用大数据提升整个中小制造业的效率与降低成本。是大家比较关心的一个问题。据一家美国知名的咨询公司的报告显示,在制造业的领域,研发和设计环节,其中设计就可以减少25%的成本。如果你用好大数据。可以缩短进入市场的时间为20%到50%。另外在供应链的管理方面也可以获得2%到3%的利润增长点,人工成本可以减少3%到7%。 在生产环节,运营减少的费用是10%到25%,装备成本可以降低10%到50%,售后服务可以减少10%到40%维护的成本,所以从这三个方面可以看到,我们如果在各个环节里面用好大数据,可以为制造型企业获得非常大的回报。 互联网+在制造行业实际上就等于工业4.0。在美国叫工业互联网。美国最大的制造业(GE)通用电器的首席战略官说以后的制造业就是三个大,第一个是大机器,另外他认为以后生产线上的每一个环节的机器都会被有机的连在一起,形成一个巨型的生态系统。第二个是大数据,生产过程的每一个环节都是数据驱动。每一个环节都会产生大量的数据,就会形成大数据。第三个是大影响力,生产出来的各种产品,比方说打造出来的发动机用到各个不同的行业的时候,会对整个社会产生巨大的影响。不仅仅是想利用它的产品创造影响力,更想把整个的制造业智能化、互联网化,数据驱动的这种制造业的系统或者设备,一起打包,对整个社会开放。这样的话会形成一个不可想象的,一个巨大的,制造业的革命。这是他心中的工业互联网未来发展方向,也是以大数据为核心的。

大数据影响吃穿住行

利用大数据可以预测在今后的一到两年之内的流行的趋势。预测完以后,设计师快速的捕捉出它下一款产品中要用到的布料、式样、颜色等等。加快新设计的产品进入市场的时间,加快占领市场。另外大数据可以搜索到零售店里面有哪些衣服比较流行,帮你买到便宜的衣服。服饰搭配也成为一个专门的大数据服务。根据知名零售店的数据,实时为个人动态生成服饰及价格搭配。 另外一个例子,就是食。我们吃东西,最关心的是安全。利用大数据可以推动整个产业链的变革,整个食品链的追踪,屠宰、运输加工的过程当中是否会有其它影响到整个肉食品的质量。 利用大数据可以做数据创意的菜谱。输入蛋白质,维生素,青菜等信息,大数据库里面就会关联蔬菜、肉食,还有它们相对应的化学成分,以及对应是湖南、湖北,还是广东、上海口味,动态产生一个新菜谱给你。这个类似的服务现在在美国已经有了,这就是利用IBM Watson在做这样的创意菜谱的实验。 第二个可以利用大数据来提升餐饮连锁店的效率,提升客户的满意度。麦当劳通过数据进行分析,不愿意下车到餐馆里面就餐的人,平常是开大卡车还是小汽车?他们年龄和性别,和他们所点餐的品种等等这些数据,来重新为这一类人设计新的菜单,来配备或者准备新的食品的原料。 最后一个例子可能大家比较熟悉的,店家利用大众点评上大家对各个菜的评价,来完善菜品。根据这些用户互动的数据,能够重新的对餐饮行业的生产过程,菜谱动态改造。 然后我们再看一个“住”。通过反馈当地天气,热门程度,人群流向等信息给些旅馆这类客户,方便旅馆即时调整房价。这是一个最近出现的公司(Duetto),这家公司就是利用上述的城市相关的外部数据,加上酒店本身的房间数据做了一个Saas的服务。 最后一个跟我们生活相关的就是行,衣食住行,最后一个。大数据改变我们的出行方式。Uber想成为每一个人的私家司机。一个经常出差的人说世界上只有4个人或组织始终知道我的行程,包括我的爱人,因为我告诉她我要去哪里。第二个是苹果公司。他常常利用苹果的Siri和软件来安排他的行程。第三个是美国的国安局,因为每一个人在美国的行为他应该都能知道,最后一个就是最新的Uber。为什么最新的打车公司会知道我所有的数据呢?回家、工作、吃饭、旅行、参观或者访问,都用到Uber,所以它知道非常多的信息。 所以这是衣食住行都可以看到大数据的确是在改变我们的生活方式。利用大数据颠覆传统产业方面,创新不断,在国家层面上也有很多的举措,鼓励大家围绕大数据进行创新创业。政府掌握了社会主要领域里面的90%的数据。很多的政府现在已经开始启动,河南郑州就把智慧生活引入到了整个河南省。当然在广州、北京也是智慧城市的第一个试点。所以也看得到各个政府部门也都在为市民,为人民的生活质量的提高提供更多的有价值的服务。

大数据带来的市场机会

在整个市场上,也有很多机会,2月份的时候,IBM、GE、hortonworks、Pivotal,它们就形成了一个大数据的联盟。它们产生的数据,或者说所有以后的产品和服务都会基于一个公共的核心技术平台hadoop来实现。这个也给我们一个提示,实际上我们做大数据就不要再纠结到底用哪一个技术平台,我们只需要把业界做的比较好的技术拿过来,应用在特定的产品当中做创新,就可以做出不一样的结果。另外很多企业在开放数据资源,比方说Twitter就相当于我们中国的新浪微博,它现在和IBM形成了一个开放数据的协议。IBM让它的应用开发厂商可以利用IBM的平台,随时随地的获取Twitter里面的各种各样的社交数据,做出新的增值应用,做出新的分析工具和服务。可以看出我们以后的大数据分析也要想办法能够融入互联网上的一些社交的数据作为我们创造价值的来源。

大数据的问题

在谷歌、LinkedIn这样获得用户认可收集到的数据以后,是匿名开放的方式来展现数据的价值。Uber实际上是把信息可以在价值链当中进行传播。所以就很多的问题,政府是否应该向纳税人完全开放数据,特别是不敏感的数据。另外,数据的隐私是需要大家了解的。我们24小时,每一周7天都在被偷窥,被监视。因为我们时刻都暴露在互联网的监视之下,并且你要想彻底的删除它们,基本上是没有办法的。因为数据一旦上传到互联网上,几乎就很难被彻底的删除。另外,隐私保护就变得非常难,因为传统的隐私保护的方法,比方说我告知你一下,或者是授权你做什么事情,匿名化,模糊化,但现在对于信息的提供这样的海量的数据几乎无人回避。在信息传播方面,如在某个阶段需要这个信息,在另外一个阶段这个信息可能会被添加额外的信息,进而在网络中传播。 在数据的使用方面有人可能会利用这个数据来预测你这个人正在想象的东西,进而控制你以后的行为。这可能是因为大数据号称是可以利用机器学习来预测你的未来。那么当这种能力融入穿戴式的设备,或者是小型的,微型的机器人,嵌入到我们的身体里面,或者是大脑里面的时候,就会控制我们的行为,让我们有可能会失去自我。这也是业界有所顾虑的,是否有人工智能会让我们自然人感到害怕。在纽约时报3月17号的报道上似乎得到一个很明确的肯定:“我可以保护我自己吗?答案是No.”所以这也是大数据时代所面临的社会问题。

大数据的挑战

最后也提一下大数据有很多的挑战。比方说在数据权益方面,数据到底是一个资产,是一个财富,它的产权归谁的问题现在是没有定论的。因为数据可能是个人收集来的,也可能是组织收集来的,也有可能是政府采集过来的。到底谁是数据的拥有者,是采集者吗?被采集的对象吗?还是数据的存储者,实际上到现在没有定论的,所以也属于灰色地带。第二数据的权利,谁有拥有权,谁有使用权,谁有复制权,还有谁具有存储权,还有谁有删除的权利等等,现在也是没有定义的。

数据创客失败原因

目前很多新闻媒体在报道许多大数据失败的原因,这里我跟大家分享几个福布斯和美国时报刊载的数据创客为什么会有这样或那样的失败。当然,要想碰大数据,我认为首先要有失败的心态。下面跟大家分享几个失败的原因:第一,没有明确的商业目标。比方说我是为了增加用户量,为了获得比较高的利润等等,这都是有明确的商业目标的,如果你没有这样明确的商业目标可能很难做好大数据项目。第二,没有好的业务场景,就是说我没有想好之前,Hadoop的技术不错,开源的东西,我拿过来玩一玩,如果你没有想好一个业务场景就做大数据业务项目,也注定会失败的。第三,管理大数据项目不当也会失败。一个例子是英国的国家健康中心,曾经有一个149亿美元的大数据项目,就是把人的健康数据进行采集和分析。这个项目以失败告终,就是因为管理不善,各个团队之间相互为阵,没有配合,没有办法做到整合,所以导致项目失败。第四,比较差的沟通,就是相互之间,如果不了解对方的进展是什么,都是猜测,这样也会严重影响到项目最后的结果。所以沟通差也是大数据项目常常失败的主要原因之一。第五,对口的技能也是我们需要关注的。大家常常抱怨我的团队没有这样有技能的人,没有我所需要的这种,比方说程序高手,或者是大数据分析师,所以我的项目失败了。第六,数据分析的结果没有被用来真正的产生对业务的洞察。举一个例子,很多企业的老板都是委托第三方去做一个咨询报告,做分析报告。做完分析报告以后,因为第三方本身不懂这个老板的业务。所以这个分析报告,建议都是高大上的,老板根本没有领会到精髓,只管他的生产管细节的东西,所以最后这两个没有进行有机的融合,所以导致很多项目的失败。第七,没有数据就来做大数据。如果你没有收集一些数据,或者没有收集数据的通道,那你是没有办法做大数据的。除非你购买数据,或者是购买使用权等等,这些我觉得都是可以值得关注的。 另外,大数据项目失败的6个常见的心态,也简单的跟大家分享一下。 第一个态度就是无所谓,我们也不是一家数据公司,心态上就首先排斥。第二个数据处理是要有很多的计算资源的,你跑上来就说太贵了我没有办法做。所以这种一切以昂贵为借口的态度也是做不成大数据的。第三个我们必须收集尽可能多的数据,像这种态度也是不对的,因为你要收集一些跟业务场景或者是规划的方向相关联的数据。否则你收集那么多数据以后,存储空间是问题,收集数据的过程当中,对用户使用你的应用,或者是使用你的体验也会大大降低。所以这是折中的过程。必须要放弃这样一种观念:尽可能多的收集数据。第四,另外我们已经有比我们需要还多的数据,就是说我的数据已经足够多了,实际上数据这个量在我们刚才开始的时候也介绍过,实际上90%的数据,是最近两年才产生的。第五,有些人说数据本身是硅谷这些公司该做的事,跟我们传统的企业没关系,这也是错误的心态。另外其他别人都已经领先我们了,我们为什么还要做呢?抱着这种心态也肯定做不好大数据。第六,常常有人说我们的客户没有这方面的需求,我为什么要做大数据呢?以上这6种心态,往往是影响大数据项目能否成功的一些最重要的障碍。这也是福布斯杂志在3月份登的部分与创业失败相关的信息。所以做大数据首先要看到失败的原因,然后有好的心态来面对大数据。也就是说我们每一个人都要有到了改变自己的时候。大数据的确是一个不容忽视的一场全新革命。因为它改变了我们的生活,也改变着我们工作方式,也改变我们每一个人的职业发展方向。为我们展现了很多非常好的创业与创新的机会。

深圳大数据产学研联盟采访稿 转载请注明


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-16 16:03

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表