最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

大数据:云里雾里vs云开见日

[复制链接]
跳转到指定楼层
楼主
发表于 2015-11-19 16:54:37 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
作者:杨丹 黄思思
来源:数据观
19:20【直播预告】 2015年11月18日19:30-21:30,《财经》年会夜话之“大数据:云里雾里vs云开见日”在中国大饭店举行,活动由云上贵州大数据产业发展有限公司承办,数据观将进行全程图文直播,敬请期待!

19:25【背景介绍】云上贵州大数据产业发展有限公司是以推动贵州省大数据产业发展为主要职责的国有全资平台公司,是贵州省大数据产业发展的主要投融资平台、大数据产业投资基金的发起及运营平台,是“云上贵州”系统平台运营及建设主体。

19:30【嘉宾介绍】本次活动主持人欧阳赟,云上贵州大数据产业发展有限公司总经理;发言嘉宾:于军,中国国家科技部重大科学计划转录组研究首席科学家;吴甘沙,英特尔中国研究院院长;刘松,阿里巴巴集团阿里云业务总经理;赵勇,中国计算机学会大数据专委会委员、中国西部互联网与大数据产业分会会长、前微软集团大数据专家;冉文淇, 淇河控股董事长,前美国国立卫生研究院(NIH)、美国国立生物技术信息中心(NCBI)大数据专家。

19:50【数据观】《财经》年会夜话之“大数据:云里雾里vs云开见日”现在正式开始。

19:55【欧阳赟】各位嘉宾,大家晚上好。这个夜话名字叫做“从概念走向现实”,之前有一个文艺的叫法,可以给大家看一下。叫做“大数据:云里雾里VS云开见日”,为什么起这个名字?在今年大数据是一个非常火爆的词,已经上升到了国家战略的层面。在今年9月份国务院发布了促进大数据发展行动纲要,里面明确提到2017年全国形成数据的共享公开的商业模式,在2018年全国政府建成大数据的统一开放平台。

19:57【欧阳赟】不久前召开的十三大五中全会提出大数据上升到国家战略,大数据已经是一个非常非常火热的话题,基本上已经是耳熟能详,很多政府企业、个人要么摩拳擦掌已经做大数据,很多人想试试。但是,同时也有人说这是个泡沫,也有越吹越大的嫌疑。可以这样说,过去一提大数据都是跟云有关,云高高在上。今天有一个趋势,不提云都是不好意思说是一个高科技公司。一时间云从天上又变成了云在街上,就是这样一个趋势。今天为什么选择这样一个名字?在目前看起来,我们是在云里雾里做大数据,在云里雾里面探索大数据。到底大数据是什么?大数据可以为我们带来什么?大数据边界在哪里?大数据是不是万能的?这个都是一系列的思考。

19:59【欧阳赟】云上贵州作为全国第一家大数据省级平台公司非常有幸承办这个会议,我们邀请了5位专家给大家做发言嘉宾,从各方面阐述他们的观点。刚刚提到的一些疑问,我想各位来宾在嘉宾精彩发言当中可以做一些解释。首先,请允许我介绍一下各位嘉宾。
       于军教授:中国国家科技部重大科学计划转录组研究首席科学家
       吴甘沙:英特尔中国研究院院长
       刘松:阿里巴巴集团阿里云业务总经理
       赵勇:中国计算机学会大数据专委会委员中国西部互联网与大数据产业分会会长、前微软集团大数据专家
       冉文淇:淇河控股董事长,前美国国立卫生研究院(NIH)、美国国立生物技术信息中心(NCBI)大数据专家

20:01【欧阳赟】我们现在正式开始夜话环节,分三个部分。第一部分,每一位嘉宾有10分钟的时间来阐述各自的观点。第二部分,嘉宾之间可以有一个互动沟通,对你的观点进行一些加强,同时可以发表不同的意见或者相同的意见。最后一个部分,现场观众提问,你们有一些问题可以对这些业内的权威进行提问。首先,我们有请于军教授发表他的观点。于军教授,1990年开始,全球有一个第一例个人基因组数据测序测试,历时13年,于军教授当时是课题组核心成员。基因测序是今天非常火爆的精准医疗,有了基因测序以后才有了精准医疗。下面,我们请于军教授给大家发表一下他的观点。

20:03【于军】谢谢主持人,谈到了大数据,我们回顾一下,尤其是从人的基因的角度来思考大数据。应该回顾到70年代的一个大的项目,就是美国启动的一个项目,这个项目是由尼克松签署,这个大项目叫什么?叫做对于癌症开战。这个项目当时推手是一位著名的耳科医生,后来成为了癌症化疗之父。当时是美国癌症学会会长,他就想启动一个大项目,他看到孩子们得癌症,非常心痛,也是付出了很多的心血。选择一个口号,也是很容易理解,最著名的事件是登月。他找了一个理由,如果我们人类登到月亮上面都是可以,我们有计划设计一个大项目,把癌症攻克了也是应该可以的。所以,当时没有人能够跳出来反对,因为他用事实来证明这样一件事情是可以做的。

20:05【于军】后来尼克松除了到中国访问,同时也是心血来潮也是支持了这个项目。这个项目当时美国成立了15家国家的癌症研究中心,投了很多钱,当时钱跟现在钱不可同仁而喻。现在都是10亿级这样的钱。当时来讲也是很大的钱,这个项目做了十年以后就是没有成功。没有成功的原因非常的多,其中最重要就是什么呢?大家没有意识到一个项目要有一个头,有头有尾的东西,产生什么东西出来?后来很多的科学家都是提出来什么呢?我们是不是做一个能够完成一下?就是提出来要做测定一个人的基因。这个基因对于我们来讲就是30亿字符,不是很难。

20:06【于军】但是,当时在想要做的时候,那个设备是很不完美的。所以,我们要用当时的设备做的话,算了一下是需要有上万人工作10年才可以把它做好。这个里面有很多的故事,有一个故事,中国人都是知道。当时美国也是派了几个科学家悄悄到了中国来,我们认为中国人最多,而且做事情很认真,是可以完成项目的一个国家之一。那个时候是80年代初的时候,80年代出国留学,我探亲回来,85年,飞机飞到北京的上空看不到北京在哪里,黑糊糊的一片。可想而知,科学家又回去了。他认为在中国组织不了这样一个项目,没有技术,因为连最简单的东西都是没有。美国人就说要启动这个项目,从技术出发。但是,没有忘记中国人要参加,这个就是后来为什么回国来启动了中国这个项目。尽管做了百分之一,我认为我们最重要的事情是什么?不是参与这个计划,不是做了1%,是要明白这个项目的重要性。重要性在于什么?是在于在这个过程当中产生的非常重要的技术,就是这样一个技术导致现在宣布测100万人。大数据而言,马上可以拿到上百万人的DNA的序列,就是基因的信息。我们怎么办?每一天读微信都是可以看到新数据出现。大数据是实实在在来了,这个是毫无疑问的。这个数据在基因的水平要解释这个数据还是有一定的难度。这个就是为什么要启动这个大项目。核心的项目就是测100万人,但是背后隐藏的是什么东西?就是几个重要的因素。

20:08【于军】第一,就是把一个科学项目带到每一个人的身边,让每一个人都参加。起始点是什么?把研究的对象从一个抽象的人到病人。这个项目首先是把科学研究和医学连接起来,来实现科学到医学的任务完成,这里面有很多重要的内涵。一个是研究常见疾病,过去遗传学主要是研究一些罕见疾病,罕见疾病很容易找到基因,导致疾病的基因,因为可以通过遗传的关系找到这个基因。很多常见疾病,比如说糖尿病,心血管病,不可能用100个基因解释这个疾病。这些疾病研究主要是依赖病人,因为常见疾病对于我们每一个人来讲都是病人,发病率很高。这些病人就是要把每一个人他的信息他的大数据贡献到医学研究这个领域里面来,这个步伐和实质含义在未来5年10年里面大家会意识到,每一个人是参与到这个里面来。尤其是癌症,癌症是压力最大的一个领域。不仅仅是你听说社会上的,几乎每一个星期都有亲戚朋友来找我,尽管我并不是医生。

20:10【于军】从精准医学基本的原则和基本项目,基本的社会内涵来讲,我们确实是实实在在走到了大数据的时代了。从另外一个层面来看,我们并没有准备好提供数据的设备,通用化。需要在座的其他几位嘉宾,在他们领域里面所搜集到的数据,怎么能够和医学和健康相关的数据结合在一起,让我们的社会能够充分地利用到大数据的优势。我就是做一个开场白。谢谢大家。

20:11【欧阳赟】非常谢谢于军教授精彩发言,我有一个简单的问题,您当时做的那个项目是测一个人的基因,这个人是谁?

20:12【于军】这个问题问的很好,答案很长,花两个小时也是不见得讲的完。但是,是一个美国的白人,贡献了最多的DNA。当我们做的时候就是发现什么呢?我们代表全人类的东西,所以,又重新取了几次样,因为不允许说这个人是谁,只可以说是在美国东北部的一个城市里面的几个年轻的男人的DNA,白人,不是亚洲人。

20:13【欧阳赟】基本上可以理解为他不是一个人在战斗。我们接下来有请吴甘沙院长给大家做发言,他在大数据方面有很多年的实践经验,其实吴院长有一个有意思的观点,现在经常有一个概念提到摩尔定律或者超级摩尔定律。摩尔定律是社会的基因,大数据就是这个指数社会的蛋白质。同时,吴院长提到,大数据、云计算,移动互联网、物联网现代前沿信息技术中间,大数据是根本的核心,云计算是方法和手段,移动互联网和物联网则是物化大数据和云计算价值的应用,下面有请吴院长给我们的精彩发言。

20:14【吴甘沙】谢谢大家,今天主题就是概念到现实,中国的大数据元年就是在2012年,过去3年里面确实有一些人跑马圈地,有一些人创造概念,有一些人高举高打,现在确实应该要沉淀下来谈谈现实的时候。大数据过去几年经历了过热期,现在是希望的破灭期,大数据是不是过气了?现在有新概念出来,人工智能、中国制造2025。这样一个期望破灭期不是坏事情,是会让市场帮助对这个生态环境做一次清洗,让真正的强者站起来。真正的强者是真正能够利用数据生态进行创新的人。今天可以讲一讲数据生态,特别是数据生态这样一种开放式的创新。数据生态一般包括三个方面。第一,数据源提供数据;第二,数据创意者,以天外飞仙式,从数据当中提取价值出来,数据创意者又依赖于第三个方面,就是大数据的处理和分析的基础技术和设施。大数据的开放式创新在生态这一块儿是围绕这三个方面。

20:16【吴甘沙】首先说一下数据源。有两个数据源。第一个开放数据,第二,数据市场。开放数据又来自两个方面。第一,来自于政府,以及是一些科研机构,这些数据是在纳税人的支持下收集存储下来的这些数据。又不涉及到国家的机密。原则上面来说是开放出来,作为一种公共的数据资源。另外一个方面开放数据就是来自于企业,这些企业希望能够围绕着他的数据建立一个生态系统,数据开放面临很多的问题。有数据传输的问题,有数据敏感度的界定问题。还有数据脱敏的问题。在技术,在法律,在商业模式,在行业自律等等方面的推动下开放数据一定是我们大数据开放式创新最早的一步。在美国开放数据已经是经历了很多年了,确实在开放数据上面产生了很多很多好的数据创意。我经常在讲一家公司,叫做气侯公司。

20:17【吴甘沙】气侯公司在被孟山都收购以前,是10亿美金,凭什么?凭着开放数据和数据思维。所依赖的开放数据就是气象数据,卫星摇杆数据,美国60年的农作物产量数据,还有1500亿土壤数据,土壤的观察数据。拿着这些数据做分析,一个可以分析出来种什么样子的农作物好。第二,可以对每一块2.5英里土地进行建模,可以预测灾害性天气。他把气候学、金融、保险、融合在一起,基础就是开放数据。开放数据就是创建一个开放式创新的生态系统第一步。当然,开放数据还不够,还有第二个数据源。数据市场。现在大多数数据都是在企业里面。他不愿意把数据拿出来,有两个原因。第一,对于数据安全的考量。第二,拿出来了不知道怎么来赚钱,真正来变现。这样一个数据市场就是考虑这两个方面,帮助大家把数据从孤岛里面拿出来。现在有很多市场,有的是下载数据,有的原始数据,有的是加工信息,有的可能是通用的综合的数据市场,有的是提供专业领域的数据服务。我觉得下面的发展可能是会改变现在这种数据交易的简单的模式。这个过与简单交易者是数据提供者,又是数据的请求者,不是一次简单的交和得,是把数据融合产生新的价值。一个就是数据安全需要保障。第二,数据市场跟云计算就可以了,没有使用就没有交易,因为是数据的价值,在没有使用之前是没有办法去判断。他的数据是在使用以后确定那个价值,数据定价跟数据市场跟云计算是会结合起来。这一块未来是一块非常大的市场。这个市场部可以简单地想象成股票市场那么简单的交易,要想象成为跟使用跟价值提取合一一个数据交易。

20:19【吴甘沙】第三,又有两个方面,开放基础设施,还有就是开放的社会化分析。在美国看大数据的创业公司,很多公司都是特别想,就是几个人都是那个,他们主要是有一个数据的思维,有一个创意。又从开放数据拿到一些数据,但是不用去解决大数据的基础设施的问题。就是几个人不会去搭那个。他们都是通过云计算来获得这样的基础设施。所以,大数据跟云计算一定是不可以拖开,未来大数据一定是深在云里面,长在云里面,产生价值也是在云里面。刚刚老师讲到了癌症,关于癌症再讲一下。我也特别关心癌症,因为一半的男性会有概率患癌症,三分之一的女性患癌症。过去50年,治愈率提升只有7%到8%的样子,我也是特别关心。我有一个同事,他是患肾癌23年,一直没有办法解决。换了肾没有办法解决,就是希望通过基因组学等等分析去解决,它花了三个月的时间做基因的测序,以及发现那个治病的基因。这些数据的产生就是这么多的数据。他就把它存在硬盘里面,一路颠簸,让不同的医生对他进行诊断,最后形成一个个性化的治疗方案。所以,这个又花了4个月。所以,他等了7个月解决了这个病症的问题。

20:21【吴甘沙】这个里面的问题一个是数据运来运去,这个可以通过云计算获得。另外就是计算。癌症这种基因组学的分析是典型的高性能计算,又是大数据分析,不是所有人都是有这样的基础设施。所以,他通过这样一种开放的基础设施解决了分析的问题。我们现在有一个愿景2020年我们一个人来到这样一个研究所,一天之内能够对他的基因做全部的测序,发现治病基因,并且开发出个性化的治疗方案。所以,这个就是大数据开放的基础设施。还有就是开放社会化分析,现在数据科学家是21世纪最性感的职业。这些数据科学家的技能劳动和时间也是一种资源,可以通过共享经济获得。

20:23【吴甘沙】举几个例子。美国有一个平台,有一家基金公司,是做教育的,他有一些数据。学生写了很多的文章,希望有一个算法,能够对这些文章能够做自动地评分,未来木刻这样平台是需要自动化平台技术。所以,找了10几家专业教育机构做这个评分。做完以后不是很满意,他就到一个社会化平台上面寻找帮助。结果出人意料,这些社会化普通开发出来的算法比专业机构强很多,前三名,一个是美国的本科生,是学机械工程;第二名斯洛文尼亚学生;第三,新加坡一个中年大叔,是搞保险精算的。第一名第三名刚刚在木刻上学完数据分析进行的学习。所以,高手在民间,如果有这样的社会化分析的平台是可以帮助很多无名人士成为这个世界上面真正能够帮助别人解决问题的高手。就是靠开放式社会化的分析平台。另外一个方面,对于企业来说也是非常有用。给大家讲一个故事。美国有一个初创企业,做旅游的应用。缺少一个算法,希望在照片当中找出那些用户喜欢的照片,但是,公司只有两个科研人员。一个是CTO,一个是开发人员。没有办法,所以,花了5千美金到平台上面去征集算法,5000美金找了400多只团队给他做。最后是找到了一个算法,靠这个算法拿回240万美金的风险投资。

20:25【吴甘沙】这样一种开放式社会化分析解决数据科学家缺乏的问题。这个是数据的处理和分析的这一块。第三块,数据创意。数据创意是需要跨界这样一种思维,刚刚就是气候学农艺学加那个就是跨界。还可以抽取出很多的东西出来,其实刚刚那个里面预测灾难性的气侯。这样一种预测分析跟保险往往是可以弄在一起的。美国还有很多这样的案例,有一家公司是做机票价格的预测,提供服务的时候还顺便说你可以买一个保险,假如说,我预测给你说,这个时候是最低价,买了以后,一个礼拜以后又跌,这个保险就可以索赔。所以,预测分析跟保险。还有一家公司,是预测社会上很多商品的价格,什么时候买照相机最便宜,同样也是付了一个保险。所以,金融是一种跨越时空的价格交换。通过大数据的分析是可以发现这样一种跨越时空的价值剪刀差。两个一结合跨界就是产生了新的价值。我想说数据生态,包括这三个方面。我们可以通过开放数据,数据市场,开放的基础设施,开放的社会化的分析,再加上无数创意人士跨界碰撞产生的这样一个。我就讲这些谢谢。

20:27【欧阳赟】刚刚提到大数据科学家是21世纪最性感的人,我是做大数据的,但是,我是非科学家,所以,我觉得我是半性感。好,下面有请阿里云的刘松总经理给我们做发言。刘松总经理有一个有意思的背景,在来阿里云以前是Oracle,现在的老板马云这几年在做一个幌子,就是要去IOE,主要是去O,这个O就是Oracle。所以,正好刘总今天可以谈谈对于这个的感想?这一次在阿里大会上面看到很有意思一个广告,若干年以前我在上学的时候我班主任说过一句话,如果你们今天不好好学习,你们明天就将吞下无法吞下的苦果。我觉得是一个语病,这一次在阿里云看到了什么?计算无法计算的价值,这个很有意思。刘总专门提到了移动互联网云计算大数据三位一体的问题。下面有请刘总做精彩的发言。

20:27【刘松】谢谢主持人。我跟这一位同学第三次同台了,前面也是大数据的地方。但是,每一次希望讲一些新的东西,今天讲三个方面的内容。
       第一,我们对于大数据行业今天的机遇和泡沫的看法。
       第二,从阿里的眼界来看今天大数据如何产生效应?
       第三,以云上贵州这样一个案例来看,一个非互联网机构如何去推进大数据一个产业?

20:28【刘松】第一,移动互联网,云计算,大数据,三位一体。云计算大数据是互联网延伸品,含义有几个。特指大数据来看,没有通过互联网沉淀大数据在线化大数据很难成为大数据。云计算和大数据是互联网公司自己生产,干活儿,获得效益以后以后一个延伸品。领先的云计算公司,典型的亚马逊。他们不能不用数据来经营,这个是第一点。

20:29【刘松】第二点,互联网公司运用云运算含社交,今天做的精准推荐,做一个客户的大画像,这些东西都是已经是得心应手了。互联网公司以外的地方,今天除了金融机构和少数政府做到了一些小的闭环。大多数的情况听到的故事,大数据在互联网以外成功的故事应该不超过30个。具体不讲了,2015年的时候讲大数据的产业存在互联网公司逐步把他拥有大数据作为一种服务平台化,让所有的垂直行业。包括传统行业,以及新兴行业,包括能源互联网,包括医疗,这些政务,金融这些行业。今天是处在这样一个状态,一个简单例子来说,经常用到一个互联网+的加号,这个一横就是移动互联网云计算大数据。感谢大家在08年发明智能手机其实是真正催生了今天这样一个大数据。包括转型当中的创业的行业。过去5年整个阿里是积累了一个快速的蜕变,间接回答一个问题。在08年的时候阿里所有大数据加一起100个T,是用24个节点来做的。这个是5年1万倍增长,阿里很有远见,我关注阿里巴巴有7年时间了,08年的时候就已经参加阿里巴巴战略研讨会了,有很多的细节。跟一些具体事情无关,数据1万倍增长改变所有的事情。这个是互联网内部积累了一万倍的积累,下一个10年就是产业互联网,意味着什么?意味着马云的词就是DT经济,催生一个全新互联网经济体。所有的东西都是会不一样,刚刚吴院长讲了一些,我想用一个商业大爆发的一个提法。大数据催生一个传统行业,互联网已经解决了这个问题。包括组织形态,包括移动数据生态。

20:31【刘松】稍微远一点的地方,在地球历史上最大的一次物种大爆发是在早期,由于地壳的变动,大量的岩浆进入海水,钙大幅度生长,为了抵抗钙的毒素快速进化,就有了脊椎动物,最后就是变成了人。这个是单一要素突然爆发就是影响整个商业生态。今天整个技术产业里面大数据已经变成了一个原科学,今天见清华大学的副校长说,大数据不是计算机学院,软件学院,而是心理学也是需要,而是所有的做文学的也是需要。就是变成一个原科学,带来所有物种上面一个变化,由于数据本身有越用越多,有反复使用的特征。是一个比特经济,跟应用都是不一样。应用上云没有那么复杂。就是导致一个延伸的结果,催生一个什么呢?数据生态不是一个简单的买卖,是一个弯形的,是利它主义。数据变成了新的要素以后就是催生不同于传统交易式的,而是生态式的一个。包括延伸的数据。在过去5年多,阿里变成了今天这样一个。然后,它组织上面就是成立了专门数据管理委员会,有400人的组织,就是CDO。阿里没有CIO,我也是长期关注了,400个人在过去3年里面把202家子公司,包括高德UC这样的数据,在不改变物理存在的时候把它形成了一些数据服务,这个是这么大公司只有这样一家做到了。

20:33【刘松】你们如果用支付宝,芝麻信用是最典型的一个产品。下面的整个的组织数据的形态,管理数据的形态,以及把数据作为一个服务是阿里未来5年要做的事情。今年做第二期,阿里数据集里面大概涵盖了中国商业消费经济里面60%左右的数据纬度,这些数据基本上开放给学术机构和大学。他们延伸很多种算法,现在在计划。大家感兴趣可以看一下大赛,就是对于这些机构可以去用。未来同时也是对政府做一些数据整个一个开发,阿里云图一个机构,这个是未来我们数据开放希望能够延伸的。具体到金融云,我们有跟金融机构。政务云也是非常重要的方向,中国政府里面拥有的数据是一些非常重要的源数据,开放就是催生很多生态,包括地铁边上一些AP都是可以做。云上贵州是去年6月份开始的,去年10月30号的时候,我们当时规划了一个大云平台,7多云,41个应用都是迁移到云上面,沉淀到云上面。今年10月30号应该有20多云,每一个旅游云,医疗云,这样的20个。所以,通过应用上云的方式解决了之前委办局数据不通,沉淀到一个大平台,数据共享,也是会成立,公司专门来弄。政府组织这样一件事情,地区又是会满足某种需求,小公司做移动互联网的这些公司很容易在上面做变现。

20:35【刘松】所以,我们看到了什么呢?整个在推进过程当中4个事情比较的关键。第一个战略,这个数据是不是一个战略性的产业?第二,人才。去哪里找这样的人才?贵州省政府也是希望阿里云把数据的经验输出给我。第三,有一个执行力,就是一个推手做这个事情。第四,就是生态。推进过程当中互联网公司以外,包括互联网推动服务给商业型,金融机构是最需要数据的。政府开放数据,特别大的一个生态,可能对中国特别有意义。因为是会催生物质爆发的一个经济体。最后各个行业既依赖于可以用的互联网数据,最近也是跟一些政府做芝麻信用和他对于工商社保,对于企业数据之间去做比对这样产生一个更大的一个信用体系。逐步就是云上贵州。是会催生人才不断升级,阿里这样的互联网公司也是有责任有条件把自己在互联网,对于数据战略人才生态执行力4个方面推进的方式都是输出变成一种软能力,催生政府催生一个数据生态。大概就是讲了三个方面的内容。谢谢。

20:37【欧阳赟】非常感谢刘总,刚刚提的利他主义已经在演讲当中体现的淋漓尽致。我没有跟他沟通,他刚刚说的云上贵州那些事情是真的,是通过阿里来帮忙,我们基于阿里的飞天云,非常感谢刘总。下面有请赵勇博士。赵勇博士是成功的海归,5年前回国致力于大数据的发展,赵勇博士也是有一个很有意思的比喻。智慧城市如果是一个人,物联网是感官,移动互联网是神经,云计算是心脏,大脑是大数据。下面有请赵勇博士给我们做精彩的演讲。

20:38【赵勇】谢谢主持人。前面几位专家都是提到了基因测序和精准医疗,当年我们在芝加哥上学的时候,首先在全美国用了几十所高校计算资源,大概是有640台服务器来进行1400万组的基因两两比对,因为基因里面主要是基因序列如果类似,功能也是类似。所以,如果出现一个新的基因组,测一个新的生物物种,一个新人体,这个基因组的功能是需要跟以前的1400万已有的基因组做比对,我们做了一些这样的工作。还做了微软全球的精准广告大数据,现在像淘宝,京东,亚马逊,京东广告已经做的非常不错了。早期是做微软在全球有30亿的注册用户,年活跃用户就是3亿。针对三个亿用户都是要打标签,根据人数属性,年龄,性别,职业,还有就是根据上网的搜索和它浏览的信息能够把它的兴趣、爱好、意图分析出来,给它提供提供精准的广告推送。12年的时候,美国把大数据列为国家战略,当时就在清华大学成立了全国第一家大数据的专业研究机构,大数据处理中心,后面也是出了很多行业数据。国家电网、民航、审计局、统计局、还有一些公安的大数据的分析。现在是在运营清华大数据产业联合会西部峰会。还有中国西部互联网与大数据产业峰会,主要是面向西部的10几个省市,提供大数据的教育培训,大数据的技术服务。再加上大数据创新创业孵化,也是响应国家的大众创新,万众创业,帮助年轻人在技术资本,场地,还有商业模式上去提高他们的创业成功率。

20:40【赵勇】今天想分析的是在这几年大数据实践中间总结出来的一些大数据的方法论,还有创新理论。比较粗浅,但是也是希望跟所有在座的,包括各个行业能够深入讨论,更加地细化。传统数据就是生产、实践、科学研究这些数值,概念延伸就是广义数据,自然界可以用某种形式去记录的存在和意识,都是一个数据。这个广义数据扩展到整个宇宙了。也是可以把它记录下来就是数据,这个就是大数据是非常广泛的一个含义,影响也是非常的深刻。然后,这个是我们清华数据科学研究院韩院长的一个心得和体会,数据具备宏观性和微观性,宏观性就是一个企业可以看到在未来用大数据可以进行预测,预测今后的经济走势。微观可以看到企业,可以看到个人,可以看到一个区域最细微的一个细节。通过大数据来做分析。

20:42【赵勇】大数据可以起到革命性和颠覆性的作用。最根本原因就是大数据成为生产要素了,因为以前学资本论的时候生产要素有劳动力。把数据加进去的时候可以改变要素比例。阿里做的这个金融和增信,没有数据情况下,一个银行要放贷是需要对这个企业进行线下调查,各种各样的分析,最后差不多一个月可以放一笔贷款,不可以保障这个企业可以还贷款。阿里通过淘宝、天猫、所有平台上面的数据知道商户所有的资金周转信用。放贷就是几分钟,6分钟可以放一笔贷。在放贷成本和周期上面大大地节约,就是数据成为生产要素,不需要那么长的时间,那么多的劳动力和调研来做放贷。再一个数据具备一个特性,就是基因特性,植物的种子,企业和一个国家的数据,本身是承载着这个企业的基因。基因是有遗传性,一个企业通过数据是把它整个企业的基因传承下去,还有一个基因特性,是可以进行物种的交叉。如果多种数据源交叉,就好象混血儿一样的,特别聪明,特别漂亮。多种数据一交叉一混合就可以诞生新的数据,诞生新的物种,形成新的数据元素,形成很大的一个变革。

20:45【赵勇】还有就是基因有突变。基因如果突变是朝着好方向发展,得到更优秀的物种和人类。如果朝着坏方向发展就癌症。如果利用不好就是起到毁灭性打击,利用的好就是诞生全新的商业模式,全新的数据使用方法。再后面就是数据的催化剂特性,数据在使用过程中是可以加速整个生产,变革和商业营销的过程,催化剂本身不损耗,怎么用数据都是在那里,数据还有一个更好的特性。比催化剂还是好,数据越用价值就是越高,这个数据可以重复使用。数据跟多种数据源交叉使用的时候价值沉淀就是越来越那个。大数据是可以深入到全行业,可以循环使用。任何一个行业要素都是会损耗,用完就是没有了,有数据就可以一直用它,越用越值钱,这个产业非常好。关注数据就是关注活性跟流动性,其实我们现在已经有的数据,体量非常大,但是没有把它用起来,尤其是一些传统企业采集的数据,有的是纸质的,有的是放在计算机形成报表没有用起来,数据活动起来的话。我们叫激活大数据,数据一激活,一唤醒就可以爆发巨大的威力。

20:48【赵勇】大数据还具备两个效益。第一个黑洞效益,比如说,我们云上贵州或者国家整合这个数据和资源。数据的质量越来越大,数据扭转速度越来越快,可以把周边所有相关资源都是全部吸附过去。形成一个巨大的推动,所有的都是可以推事进去。另外,就是大数据的核聚变效应,多种数据源进行聚合的时候可以产生密度更大,质量更大的数据粒子,这个就是整个核聚变过程,最后释放出来巨大的能量。全行业的全国全球数据聚合起来可以爆发核威力,这个是关于数据一个基础的一个理解。

20:49【赵勇】因为很多人都是希望在大数据行业进行创新创业,什么样子的行业,如何去创新创业?总结了一些方法。有10个维度。怎么说?首先就是选择数据价值密度最高的行业去从业。上一个时代是房地产行业,金融行业,健康行业,教育,旅游,这些行业。价值密度很高,每年就是花上万的钱去做,行业高不一定做的顺利。第二,门槛够不够高?可以不可以进去?进入医疗行业,把所有数据都是打通,把全国所有的医院的癌症片子都是拿过来汇总,是巨大的保障。但是,医院不可能把数据拿给你。所以,在医疗行业就是突破这个门槛就是非常的困难,其他的维度呢?时间关系不一一去讲,我们编了一本书《大数据革命》。你想创业的时候,10个维度是一个平衡的状态。左下角,一个稳定的结构,衡量自己的创业方向和模式是稳定的,放心大胆地去做,成功率很高。某一方格的维度右面这个图是严重缺失,创业风险就是很大。所以,我们希望通过这个简单的一个方法论指导大家在创新创业大数据方面去做尝试。

20:51【赵勇】然后,从总的IT和互联网发展我们总结三个阶段。现在我们国家提倡互联网+,互联网+模式应用在所有的传统行业里面去。但是,互联网应用最终还是应用在数据上面,数据去分析才可以产生根本的变革。但是数据分析的目的是什么?还是要产生雷同与我们人类的智慧。所以,再往后面发展就是所谓的机器智能和人类智能相结合的这样一个时代。现在英国科学家已经把人脑和电脑合在一起,连通了。未来的决策是搞不清楚了,可能有一半是自己想的,另外一半是计算机做出来的。

20:52【赵勇】最后,作为我们企业行业怎么发展大数据?我们有一个简单的闭环。首先,要有一些理论和方法论的指导,如果发展区域型大数据,比如说云上贵州有标准体系,人才体系。因为这个是任何产业发展的一个基础,有了人才以后还要选择在我这个行业或者区域最痛点去切入。首先,要把出血点止住,保住命,剩下的伤在慢慢处理。先找到痛点,这个过程当中形成自有的技术,自有的产品,还可以形成新的创新。所以,这个打通是一个闭环,大数据可以在很多行业可以落地开花,这个是整个的一个分享。谢谢大家。

20:54【欧阳赟】谢谢赵博士。我曾经定义云上贵州是一个大数据资源,这样定义了以后我有一点沮丧。我觉得听完赵博士演讲以后很震撼,为什么?原来我以为我自己是一个煤矿的矿老板,其实看完大数据具有核聚变功能以后,我是一个什么呢?我可以做什么?用了我的大数据以后,我可以给你开挂。就是用大数据给大家开挂,谢谢赵博士。接下来是的冉文淇博士,刚刚不管是刘总,都是提到贵州省发展人才问题。冉文淇博士就是贵州土生土长的,我高一级的师兄。冉文淇博士同时是在美国NIIH做的专家。NIIH和NCBI是什么?告诉你,赶紧去谷歌,如果不知道这个还听大数据就是太落伍了。下面有请冉文淇博士给我们做精彩的演讲。

20:56【冉文淇】感谢主持人。很高兴今天和大家分享。我们提到大数据,什么是大数据?每一个人有每一个人的理解,很难说服对方。外部有外部的看法,版本也是10多种。我自己理解是什么?大数据是怎么产生的?这实际上是我们人类整个历史和认识发展到一定阶段必然产生的一个东西。我们在以前的时候我们做一件事情做一个决断打一个战争困难在于信息的缺失,在沙漠里面不知道有什么路,现在处再一个信息爆炸的时代,这个爆炸到什么程度?的大概每7个月全世界数据翻一翻。是4个月翻一翻,7个月关于所有的生命健康,医学方面的数据翻一翻。面对这么多数据你一样是会迷失在数据大海里面,这个时候就对如何利用这些大数据,分析这些大数据,把这些大数据变成那个,产生一个必然的要求。这个是大数据本质,也是大数据的由来。

20:56【冉文淇】国家在发展的一个趋势或者历史阶段,所以,很多的时候互联网上面大数据比较多。但是,在世界格局里面大数据发展的最前沿,最成熟,分析方法最有效的是我们的医疗和健康方面的大数据。在这个方面又以美国NIIH和NCBI最突出和优秀。我是从那里出来的,然后,这个就是我们以前的人类基因组计划,以及精准医疗的发源地和美国的主战场。我当时直接上级就是这两个计划的核心成员。所以,这些所有这样一个方法论这样一个处理的经验,实际上都是可以到其他的领域的。只不过我还是专注于我做的这个本行。回过头来,我们中国的医疗大数据,以及生命大数据是一个什么状态?我们国家大概产生的基因序列这个方面的数据是占整个全世界的五分之一,我们是世界上面最大的生命和健康数据的产出国和使用国。但是,我们在这个方面并没有多大一个发言权,这个是国内的一个现状。那么,原因是什么?就是刚刚几位先生说到的,一个方面,我们的人才非常的缺失。缺乏到什么程度?周末的时候应邀参加了一个先生主持的北京大数据研究院生物研讨会。我们国家只有北京大学有生物信息这个口的,其他学校都是没有。我们的基础的人才都是非常的缺乏,我们干实实在在的活儿的人都是很难找。

20:58【冉文淇】另外一个方面,数据分析的难度,世界上面没有比我们的生命更复杂的。往往,我们对于一个生命的一个分析,刚刚吴先生提到了,就是在美国可能就是几个博士他可以开一个数据的分析。如果你去仔细看几个博士你是会发现什么呢?要么是双博士,要么博士加另外一个学科的硕士。大数据借助大健康,它对两个领域的深度的要求都是非常的高,专业门槛非常的高。如果仅仅是做计算机,你可以进入做大健康,比如说,这个鸿沟还是蛮大。临床医生做大数据已经习惯了手术刀,很难很好使用各种算法。所以,这个就是人才很少。但是,这个事情的难度又是非常的高。那么,我们国家又被推到了整个世界,整个发展的一个风口浪尖。互联网普及的时候就是走向精准医疗,走向大数据,这个是国家的一个战略。精准医疗是从11年的时候是在NIIH进行广泛地内部的一个研讨,到2015年由奥巴马亲自提出来。我们国家有这样一个战略,我们国家层面讲究什么呢?领跑,并跑,跟跑,就是这样三个竞争。

21:00【冉文淇】既然是这样一个状态。我们怎么样来做这个事情?我是董事长,所以我是一个企业家。从一个企业家,怎么样来做这个事情?一个方面, 提供分析的共性技术平台,这个是我们当时北京京津冀一体化提出的很重要的一个方面。已经有基础的人,无论是企业家还是做科研的,他们能够有这样一个平台,他们可以自己去创造,这个是一部分。这个是相当于什么?尽量让更多的人参与这个事情,这个是我们企业的一个方面。给大家提供这样一个技术的平台。第二个方面,我们可以做一些什么呢?做一些黑箱。这个黑箱在计算机上面给出一个输入,按照这个要求经过一些数据,我可以给你一个输出。你并不用关心这中间发生了什么。所以,你并不要去了解专业的算法或者生命或者临床这些数据之间的一个关联度、复杂性。但是,这个是相当于一个定制化的一个服务。

21:02【冉文淇】还有一点,中国现在有关与生命和健康方面很多的标准,实际上都是完全用美国的标准。但是,精准医疗用委员长,张院长,十三五规划这个专家的话来说如果没有一个精准的数据分析,精准的医疗是很难实现的。是需要对一个个体要达到足够多的认识。但是,这个个体的认识是需要一些基础的数据。但是,现在为止数据还是以白人的体征为主的一个基础模块。这个模版对于我们中国人来说是不对的。每一个人都是算自己的体重是是超标?那个指数就是根据白人这样一个体型,如果这个算我们,我们大部分是超重,这个是错误的。这个都是举例子。第二,用药标准。白人个头大,体重大,所以,用的药量就是很大。你们从国外买保健品,大颗觉得吞咽都是很困难,我们的标准是以这样一个用药标准用的。这个是我们看的见的。看不见的是什么?各方面的数据,需要我们中国人自己来做。另外,一些特殊的一些病症,中国大概有4500多种病种,是没有很好的治疗方法和药物。比如说,胃癌。外国人是不怎么研究,为什么?他们很少得胃癌。这个东西如果中国人不研究,谁关心我们自己的生命健康?

21:05【冉文淇】我们全民的一个基础数据库,尤其是这样一个健康标准这个方面的一个数据相关的一个采集分析方面。我们的企业应该在盈利的同时也是为国家积累这样一个数据,来尽自己的一份责任。这个是一点。最后,一个地区,不同的地区我们应该有不同的发展战略,比如说,我们北京这里,它应该是一个共性平台技术。应该是尽量做强做大,比如说,我们贵州应该怎么做?我们贵州有很多的优势是什么?它的生物多样性非常的丰富,复杂。而且,我们的人员和它的历史也是有它的特殊性,而且,贵州的中药材在全国也是独树一帜。大数据在这些方面进行切入一定是会大放光彩。我前面讲了几点,包括北京的一些企业,以及贵州的一些药材,我们在上海的一些合作。这个里面牵扯到商业,可能还有很多的需要商榷的地方。
       最后,想用两句话来总结我这样一个发言或者对于未来有一个展望。
       第一,我们的传统行业,以及我们现在新兴的很多的行业是高山,而我们做这样一个精准的真正的深度的数据分析的一个公司是水,我们水把这些山连起来,让这个山变得更绿。
       第二,在西方的哲学里面有一句话,上天只会帮助那些帮助自己的人,中国有一句更朴实的话,打铁还靠本身硬。中国人的健康数据,中国人的健康和我们的医疗一定是要靠我们中国人自己的努力才可以实现。
       谢谢。

21:08【欧阳赟】谢谢冉文淇博士。中国的病中国人自己来研究。今天非常好,第一个环节结束了,开始第二个环节。我可以给各位一个问题,我们今天谈了那么多大数据用处,大数据可以做这个,大数据可以做那个。大数据是万能的,大数据的边界究竟在哪里?

21:10【吴甘沙】在07年08年的时候,在美国有一段非常轰轰烈烈的讨论,这个是发起人是一个有名的人,大家应该看过他做的大型活动TED,他写了一篇文章叫做《理论的终结》。什么意思?这个世界变得越来越复杂,传统的科学方法,假设有一个理论,建国逼近这个现实,最后去验证。传统科学方法不可以了。而且,事实证明建立的模型都是不精确的。比如说,最早牛顿的理论发现对于宏观、微观之间的中观世界是非常有用。后来爱因斯坦相对论对于宏观是非常有用,后面量子理论对微观。没有办法发现很精确的一个模型。还不如是说,我们就用大数据的经验处理。举了一个例子,就是谷歌的翻译。原来我们搞机器翻译一定要对语言模型非常的了解,这个语言是怎么组成的?主谓宾,必须非常明确才可以做这个翻译。谷歌采取一个野蛮的方式,就用大量数据的语料,联合国每一个文件都是多重文件的文本。如果搜到中文这样写的,我只要通过统计的这样一个分析去找到英文的相应的句子什么样子?这样不需要了解语言本身,只需要大量的数据,需要统计数学,应用数学就够了。谷歌翻译一下子做了几十种语言相互翻译,有一种语言就是星球大战的语言也是可以做这个翻译。说到这里还是说什么?大数据可以做什么?但是,后面就是引起了很多很多的讨论。因为大数据的经验主义是强调一种相关性,没有强调因果性。科学理论是希望能够去解释这个世界。去解释这个世界是需要因果性的。所以,这个争论最终一个结论是什么?大数据确实是很厉害。但是,可以去发现当前的知识疆域里面隐藏的未知部分。它没有办法产生一个跃迁就去发生这些未知的科学家们。这些未知的还是需要我们的天才,还是需要我们的灵机一动去发现。所以,从一个侧面回答了您的问题,大数据可以做什么,大数据不可以做什么。

21:14【欧阳赟】大数据没有办法做演绎法。再想请问一下于军教授一个问题,刚刚讲了个人一些经历,13年时间,中国参与了全球个人基因组测序这样一个项目,耗时13年时间,用了30亿美元。现在也是提了一个精准医疗,刚刚也是有嘉宾提到数据源的问题,作为您在这个饯行这个领域里面中流砥柱,以精准医疗为主,数据源的组织模式上面你有什么建议?您这个层面,中国政府有没有必要,有什么样子的可能能够把更好的公共数据或者相关的行业数据弄在一起?为后面精准医疗做准备?如果没有这个,很多事情无从谈起。

21:16【于军】这个问题提的很好。数据源对于中国来讲,每一个人都是希望自己活的更长,一个维就是时间轴。过去的医学研究就是医生和病人相关。大部分就是偶然,大病才看。时间轴上面经历一个点,有时候看好几十年不回去了。中国非常有组织的一个社会,现在每一个人都是什么呢?将来可能不存在了。我们的数据源,先不管医学数据复杂性,这个里面最重要的就是社会精准衡量东西,测量东西。所有的数据库都是可以识别共同的一些语言或者符号,这些东西都是技术。假如说,每一个中国人做起参与大数据,中国一定是会建一个世界上面最大最完美的一个数据源,现在是一个很好的时机。用一个比喻,这个故事大概也是20年以前了。我遇到了当时的中国大中华的总裁,当时已经退休了最早说要回中国来,我在香港见他的时候一起聊天,当时想要把手机拿到中国来。找他的总裁来说这样一件事情,总裁就是笑他,中国人电话都是没有,手机拿到中国不可能的事情。他就说,正好是中国没有这个座机的时候,手机才是很好的一个机会。所以,他给我讲了一个故事,我也是很难忘。在你思考问题的时候往往一个很独特的思维,根据自己的经验所产生的思维可能更有意义。我就讲这样一个故事。加一句话,关于理论和实践的问题。数据到底是不是万能的问题?包括享有了几百年提出的达尔文进化论,目前来讲还没有一个理论真正地让我们能够非常享受地坐在这说,我学了这个公式,这一辈子可以享受。最悲惨的理解是什么?就是癌症。到目前为止最好的解释就是什么?癌症的发生,癌症的变异就是随机的。意味着什么?数据在这个问题上面是占了上风了。没有一个真正的理论来解释它。假如有一个跨度考虑学科的差别,相信不同的学科对于这两个是什么呢?就是科学思维的方面来做一个比对,古老的学科是会成熟一点。比如说化学,元素周期表是非常的伟大,到目前为止没有人挑战它,有不完美的地方。但是,完美的地方非常的完美。

21:20【欧阳赟】谢谢余教授。下面就是嘉宾之间进行一些互动和问答。

21:21【吴甘沙】有两个人是IT背景,还有就是产业,还有就是健康。医疗这个方面还是稍微讲一下。关于大数据刚需这个问题还是回答一下,大多数行业都是没有,因为根本没有那么多数据。与大数据可以改变的行业有关,还是要跟绝对数据量,当然是一个结果。医疗是跟人口有关。跟数据量有关,这个是非常重要,金融不用说,是一个虚拟行业,服务性行业。5年卖一次房子没有什么数据,就是物业运营时候用,物联网有数据,就是产生大量的数据。我们今天看到的大多数的数据跟人口、交易频度,用这个数据解决问题。先说一个基本的观点。拿阿里当一个例子,之前是做电商,做金融,做物流,做云计算。下一个十年,马云最大的两个方向也是基于大数据的思维考虑的。结合行业里面那个,一个是娱乐,一个是健康。娱乐就是不讲了,纸牌屋,一边儿看一边儿搜集你的需求。医疗,是目前所知的,是数据和科学的交集,是解决人的基本健康。是会颠覆医院本身,刚刚跟于总,跟冉文淇总在前面都是做了一个交流。包括精准医疗,但是一横一纵,大数据里面也是有一个融合。于总是基因测序专家,他们是会从分子级别去解决基因突变和癌症发病的关系,横向?阿里的数据告诉人说,这个人成天买什么东西,跑步多少,出差的频度,生活的方式,包括食品,超市里面买了多少东西。横向的数据加上垂直的医疗数据他们之间产生的关联远远超过那个了。医疗大数据里面,有一个阿里健康,所以,未来是会把医院的数据,疾病是生活方式决定的。横向,不关联互联网消费,各种各样的数据,生活方式的数据和垂直的基因科学。这两个交叉,未来是会带来更大的一个,做任何大数据的分析,你数据是非常的重要,不是一个纯垂直的。包括关联性的分析。所以,这个方面两位在医疗方面很深的专家也是可以反过来看一看,今天互联网横向这些数据跟他之间,生活方式和基因突变之间也是含的有。今天我们要深又要好,这个是提出的一个问题。于总对这个也是有一些看法。

21:26【于军】我先说一下。我在这个领域里面有多年的力士乐,大数据的应用不是现在才刚刚开始。真实的应用在40年代就开始了,先不说40年用什么,大数据讨论十年以前就是开始了。参加过美国的(英文)组织的大数据的讨论,每年都是找一个边远的地方坐下来,各个领域科学家讨论大数据是什么?除了我这个领域以外产生的数据非常的多,其他的领域也是在讨论我们什么样子的数据等等。后来推出来了大数据的整个的概念。为什么是说很早就有。第一个概念就是在40年代末到50年代初的时候,这个数据非常的简单。当时保险业刚刚开始,大家敲门卖保险。当时没有办法搜集其他的数据,只是把这个人的身高,大概的体重,血压量一下,就是这样三个参数。搜集一段时间以后就是发现这个数据已经几十万了,数量很多了。当时,也是没有计算机,算盘算出来的。就是发现胖的人或者是血压高一点的人,血压高的话不是主要的,从小就是有这个参数。肥胖的人赔钱很多,保险公司拿出很多钱研究肥胖。60年代的时候,减肥药是风行的很厉害。在使用当中发现什么呢?就是很多做减肥药,美国制药业在那个时候发展比较快的一个阶段。所有的减肥药都是导致各种各样的疾病,最重要就是肾的疾病。减肥也是有不好的一个部分。那个时候就知道大数据的重要性,对我个人来讲大数据有10年之久,对于历史也是认识地读。我们还没有真正坐下来说读大数据需要什么?我已经讲到了,让我们中国的每一个人用手机的人用电脑的人,在网上连上网的人可以提供一点点的数据。不要说还有横纵这些交集。对于我们国家来讲都是非常的重要。把每天的睡觉,运动的情况,这些最基本的参数拿出来就是已经非常重要了。不要说这个领域还是在思考什么呢?因为我们要精准,精准就是有分辨率,所有的精准都是有分辨率。DNA的序列现在火,为什么?是精准到它的单元,每一个单元都是把它测出来,精准到单元,原来认为什么呢?就是前10年做计划的时候,这个已经不可以再精准了。做完以后才发现每一个上面都是有修饰,这个修饰是根据环境发生的变化。吃的饱,运动强,这个东西就会变。所以,这个精准就不是原来我们测一个简单的DNA序列的问题。现在不可以解决常见疾病的问题,不可以解决癌症的问题。因为没有找到精准的、最终级的尺度是什么。这个是我们所谓的精准医学最重要的一个原因和我们想要寻求方案的一个动力。我们国家已经有了一个大的精准医学的计划,不会比美国差多少。我们也是会拿到很大一部分的数据,这个里面是会开发医疗设备,精准地衡量,这个部分是非常重要的,对于企业发展而言也是非常的重要。

21:30【冉文淇】于老师是我非常尊重的前辈,我也是接着说一点。就是精准的确是这样的,我们任何的时候,这种大数据所有的大或者精准都是一个相对的概念,如果从哲学上面来说就是可知或者不可知。很多的时候信息足够或者是分析手段够强,必须少的信息也是大数据,如果解决大数据。大数据的大是在意什么?就是数据本身复杂性,还有就是对应的手段的复杂性。所以,真正大数据分析是一种真正的高智慧的这样一个行业,往往就是要求什么呢?我们老师是化学出身的,很尊敬的一位先生,还有陈院士,还有欧阳院士,还包括从实验室出来的老师。他们都是先学的物理,以及学的一些其他的,然后转做这样一个生命科学。所以,他对各个方面的综合的要求非常的高,数据那么大,第一步做模型,往往是需要具备一种物理、化学、生物学上面一个模型的一个思考。然后,需要一个数学的实现,比如说,是需要用这种自然的这种方式,就是把它转化成数学的语言。这个数学和统计学就是非常的重要。最后,我们就是依靠计算机实现。这个里面就是什么呢?就是相关数据的一个存储一个计算,各方面的一个考究。同时,还要满足我们专业的需求,就是我们要满足对于我们的医疗的、健康的这样一个要求。而且,往往不仅仅是在医院和医生和患者之间,还要讲究在病之前和病之后。是对各个领域都是要到一定的深度这样一种融合的这样一个高度交叉融合这样一种要求。我就说这么多。

21:33【吴甘沙】我把这个问题一般化一点,这个问题是给赵勇博士。全性感是什么样子我告诉你,全性感,一方面像刚刚冉文淇博士讲的,有领域知识,懂专业,接着有数据的直觉,有这种侦探家的嗅觉。在接着,美国国科立教授有一个描述SDC三次方,S就是统计学,是属于应用数学;D就是(英文);C就是要懂计算,数据从搜集开始,存储下来,怎么可视化,怎么解释?第二个C就是跟其他人要写作。大家可以看一下,真正一个数据科学家,全性感是非常的困难。所以想问一下赵勇博士,现在大数据教育这一块可以做什么?现在全国各地也开始成立了一些大数据的研究院,也是开始有大数据的硕士学位。他们做了一些什么可以帮助去培养这样的全性感的大数据的数据科学家?

21:33【赵勇】数据科学家,数学科学是非常热的名词。美国、英国、印度、很多的国家都是已经把大数据列为下一代重点发展的信息领域,根据美国的哈弗商业评论预测,未来在全球,未来5年大数据相关的行业的人才缺口是150万,人才优势是非常的大。数据科学涉及到的行业非常的广,除了有行业的知识,有基本的统计分析知识。最早数据科学就是跟统计学等同的,后来就是不断拓展,现在就是加上计算机科学。谈到计算机科学,这个领域也是非常地广,除了有基础的数学知识,还有很流行的人工智能,有数据挖掘,统计分析是一个基本的功能。还有最热门的,包括未来大数据发展方向。就是人口智能方向就是用计算机来模拟人的认知。科学发展到现在,我们对我们自身的了解是最基本最基本是最浅的。
       基因测序来说是一种暴力方法破解密码。人脑的认知过程也是一个很神奇的一个过程。就是看一个小孩,从出身到上小学,一直到大学,到工作,有的小孩学的特别的快。现在新兴的小孩基因已经变异了。新兴就是叫蓝色基因,在座有一些朋友的小孩刚刚出生是学语言就是有天赋。一遍就把中文拼音学会,教三遍可以把英文英标学会。就跟以前学习方法完全不一样。现在给他联上网,给他一个手机就可以了,知识比你还全面。我们获取知识的途径已经变了,对于人类认知过程根本没有真正理解。大数据人才培养,在这样广一个领域来说确实是我们国家是什么呢?是贫乏的一个领域。我们现在全国是有数据研究院,专门培养数据科学的研究生。而且,不只是针对计算机科学这个领域,实际上是有信息学院,有软件学院,还有心理学,还有公共管理,还有工商管理,多个学院来共同来培养这个学生。这个是跨领域一个专业。另外,各个地方也是设立大数据局,国资大数据公司,云上贵州这些大数据公司,还有地方性的。
       比如说,四川是一个大数据研究院,是跟金融在结合的。未来还可以预见到,就是各个领域和行业都是有跨学科大数据的专业学院研究机构,专业的人才培养。从我们这个角度来讲,大数据产业和人才培养应该怎么去发展?首先,这个事情是一个国家的战略,我们做任何的事情是人才先行。一个国家要发展,就像日本在经济危机的时候,是全民搞教育。所以,在那以后日本的经济发展了很多年,最近创新有一点缺失。我们国家要发展大数据战略,首先就是发展人才。我们贵州要搞大数据,首先就是做人才培训培养,人才培训培养从哪几个方面着手?首先,制订政策,政府官员,公务员和领导,他们不可以光光懂一个大数据概念,应该学习大数据知识。不是说把所有的公务员和领导干部都是培养成大数据专家,那个也是不现实。在美国,在欧洲,他总统都是设一个叫CTO办公室。CTO不只一个人,是一群专家。这样技术层面,专业领域应该有专业的人士作为我们政府的智库,不只是顾问。顾问是不可以帮你做决策,有的是顾而不问。这些智库是帮你制订行动战略,在这个层面进行普及。第二,整个市场和经济真正发展企业发展,企业高管和中层是需要接受理念和培训。我们在座所有的这些都是当过的10几个行业的大数据讲师,给大家去洗脑。有一些行业起到非常好的作用。因为我们行业做传统行业做这么多年。现在在竞选美国总统下了一个断言,是全世界最强的国家。中国以前是搞人口密集,劳动密集外包,现在都是转移到东南亚这些国家去了,转移到非发达国家去了。中国在人才治理中国创造这个方面没有跟上去。所以,低的接不了,高的上不去。最根本还是什么?中国在基础教育,人才教育这个方面一定要可以跟上去。企业政府可以跟上去,最核心任务就是什么?技术人员。刚刚毕业的年轻人,想创业这些人要学习大数据的方法,要到行业里面沉淀,然后去做工业。我们现在在做一些创新基地的时候也是提出一些新的想法。不可以让刚刚毕业的学生做总经理,可以到贵州找一个行业,让年轻人先去锤炼,有了经验,吃了不少苦头以后,可以做一个做一个总理,最后就是当一个中型企业。领导层通过循序渐进的方法来。这个是我的一些心得。

21:39【刘松】今年就是国际化。今年我们启动了一个产教融合一个项目,覆盖100所大学,985到211,培养大学里面的专业大数据学科,是大数据的课程普及化,产教融合是一个大方面。开课给他,数据可以用,训练自己的算法,这个适用于什么呢?产教融合的推动。

21:40【冉文淇】我说一下,关于人才的问题。一个是什么呢?整个市场和需求就是上来了,根据135规划,具体数字就是不说了。市场这种倍增式非常强,这样情况下怎么样?人才培养好了再用,现在有一个方法。在座亲戚朋友各方面的,无论是北大、清华,还有各大公司的,欢迎加入我的公司。我是会对你们进行培养,人越多了,我们可以做更多的业务,可以融更多的资,越做越大。企业在这个方面应该起到一个领头羊的作用。这个也是我们当时在开精准医疗会议时候,当时王院长的一个意思。我们是玩儿手术刀的,我们玩儿的很好了,而且我们效益也是很好了,我们没有必要去做。你们就来做你们最擅长的事情。大家一块儿把精准医疗,还是大健康,大数据这样一个行业做好。这个话就是印了古时候一句话,就是叫做君子合而不同。

21:42【欧阳赟】时间关系。进入最后一个环节。现场观众的提问环节。时间关系,非常有限。我们4个问题。开放4个问题。每一个问题就是简短。要求哪一位嘉宾回答,这个嘉宾的回答也是相对来说尽量简短。女士优先。

21:43【记者】你好,我是数据观的记者,想问欧阳总一个问题。现在提到大数据,大家都会想到贵州,大数据已然成为贵州的又一个名片。而作为贵州省实施大数据战略的主要举措之一,“云上贵州”系统平台在其中扮演着什么样的角色?能否介绍一下“云上贵州”的运营模式和未来的发展方向,以及对贵州乃至全国大数据产业发展的意义?
21:45【欧阳赟】没有办法详细描述了。简单描述一下。刚刚已经讲到了,说到底云上贵州说的高深一点,就是数据资源为核心综合方案解决提供商。通俗一点,就是矿老板,紧密围绕这个矿产资源做生态,去让大家众创做这个事情。讲的比较的粗,大概意思就是这个。我不管个人怎么想,首先,我必须讲一点。云上贵州就是整个贵州省大数据的龙头企业,至于在全国什么样子位置,我是打出来的,不是吹出来的。
21:47【观众】我是土生土长贵州人,讲到云上贵州非常激动。各位嘉宾讲的东西我没有听懂。研究医学的等等,可是我觉得我们的刘松总,是做大数据的分析。我现在觉得对于我们特别关心是什么?我们个人老百姓的一个信用问题。在美国一个人生下来有一个信用,在我们中国全民素质相当地差。包括北京,有人在指定地方抽烟,也是有人到处抽烟。第三方借贷都向芝麻信用批款。可是中国很多的民间借贷公司没有办法拿到人民银行数据,我是中国银联的,想把很多人消费转款可以不可以对接出来?由于个人的原因不可以做。这样的话,云上贵州是做一个平台一样的。我可以假设这样子吗?我身边有不讲信用的,民间小贷公司现在跑了不还钱,有一个办法,找黑社会,要么就是起诉,根本没有用。如果每一个所有的小贷或者民间的借贷或者闯红灯等等这样,如果可以把云上贵州的资源,注册一个号,我叫黄伟,上传信息是真实。为上传信息负责任,这样一个平台供大家用。大数据是老百姓一步一步出来的,不是研究出来的。可以不可以这样理解?如果我们云上贵州一个大数据开通的话,全民老百姓只要有任何觉得这个是不讲信用的行为我们上传。为什么上传?就是有一个要求,想用这个大数据,这个讲不讲信用的。如果没有贡献就不可以下载。在我们中国全民素质和信用特别棒。各位嘉宾,如果这样成立,可以可以?谢谢。

21:50【刘松】我快速回答一下。芝麻信用搜集数据纬度没有那么多,产生一个效果是我们想要的。不可以解决更多的问题。今天更重要是什么?最重要就是政府部门里面与人性有关的,其实就是工商,社保,税务几个关键的数据。还有交警、公安,这些数据是对人信用产生巨大影响的数据,就是做结合。这个是云上贵州要去的地方,未来要把信用变成财富。尤其是不再传统的系统里面有信用的人产生信用。芝麻信用是通过互联网东西走的,也是在阿里里面用过。用到更多的地方,这个是未来我们要去的地方。但是,在数据各种汇集,授权,使用,隐私保护,这些方面,这个路还是要有一半往前走。这个地方有一个平台,有一个方式,这个过程还是要走的。可以达到,但是需要时间。

21:52【观众】各位老师晚上好,非常荣幸到倒数第二个问题。人类进入到了一个获取信息比处理更容易的年代,或者说举一个简单的例子,当年登月的时候,处理的能力还不如一部智能手机,现在如果把数据和处理数据能力作为生产力一种,已经达到了一个瓶颈达到一个边界,还有就是为将来这个方面的发展,老师都是怎么看的?

21:54【刘松】云计算解决下半场数据的问题。但是,发现知识,稍微多说一点,今天大数据更多的是解决已知世界的未知问题,大量的数据就是解就是发现它,计算力不可以的。是因为没有智能的,这个就是人工智能更强调机器学习这样趋势变成一个必然。因为数据量产生的远远可以分析的情况下,那么就是需要用基于这种大规模群众集群能力那种机器去学习数据,知道规律是什么。这个是为什么有人工智能和机器学习。当然,上面还要有人作为对于经验的一个判断。一个是超级计算力,一个是机器学习对于数据的初步规律的发现,最终还是要结合人。今天最酷的大数据公司,包括阿里也是在学习,就是(英文)。这一家公司CEO是一个哲学博士,完全没有技术的背景。但是,最下面的技术是由一群算法的专家来做的。上面还有一群人,这个地方有哲学家。最酷一家公司提供不仅仅是技术,咨询,服务。是帮着CII做大型的项目,这种底层的结构从有经验的人,甚至哲学道路上,第二层就是大规模的机器学习。再下面就是超级的计算平台。数据量解决处理量。

21:56【观众】找刘总问一个问题。您刚刚说了在阿里巴巴未来在大数据方面可能有两方面需要发展。另外一个方面忘记了,一个方面是娱乐,一方面是医疗。娱乐和医疗方面,娱乐包括旅游吗?现在国务院提出了旅游+。

21:57【刘松】生活方式类跟点上延伸很容易达成,是增加了生产习惯,以及地址服务。这个对于互联网公司来说,大数据分析团队来说不是特别的难。真正难得是娱乐,有很多的争论。因为旅游的难题不是很难,但是,娱乐才是最难的,最好的网游非常的少。不是靠大数据可以解决的。这个探讨过,魔兽这样的神坐,一万个出一个。是绝对的天才创造力阴差阳错做出来,这个是真正的创造力。这个不是大数据可以解决的。大数据解决的还是已知世界的未知问题,所以在娱乐方面挑战更大。旅游是一个已知世界。

21:58【欧阳赟】作为任性地主持人,再给大家一个机会。

21:59【观众】非常荣幸。作为最后一个提问题的,台上各位嘉宾,还有听众朋友们好。我是来自山东德州的,有很多老朋友,我想问一下冉文淇总。包括云上贵州都是省级,我作为一个招商局长想问一下,我们三四县城市承接大数据产业。我们需要具备哪些产业?如何可以做到?问一下这个问题。
   
       【欧阳赟】很简单,跟云上贵州先合作。
   
       【观众】德州是一个非常美丽,历史永久的城市,德州人民非常的纯朴,我在德州街头没有看到一个乞丐。德州发展,我们讲究用自己的一个自身的优势,所以,是处在南北交会的中心。本身是一个很好集散地。这个是可以在德州实现的,在德州有一些比较好的一些企业。这个里面牵扯到什么?物流网,大数据怎么融合?就是一个跟随。德国提出一个工业4.0。是一个自动化技术加上传感技术,加上大数据的分析和处理能力。这个就是一个真正的工业4.0,我们中国发展工业4.0根据自己的优势企业和特色的企业和相关的技术来发展。我觉得这个可能是另外一个云的一个重点,里面有一定的基础。暂时想到这么多,但是,我愿意多接触。因为我真的是非常的喜欢德州的人民。

22:01【欧阳赟】不能不结束今天的话题。非常感谢各位嘉宾,非常感谢各位观众。期待下一次还有机会。再见。




楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-3 20:39

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表