最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

专访吴海山:揭秘百度大数据的神秘面纱

[复制链接]
跳转到指定楼层
楼主
发表于 2015-4-22 10:53:52 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

文/皮皮

在互联网+热潮下,谈的最火的话题之一是大数据,而在大数据领域做得风生水起的当属百度和阿里了。从世界杯预测、高考预测、到奥斯卡奖项预测,百度大数据吊足了大家的胃口,百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求,可以收集到移动互联网用户海量得出行数据,百度迁徙更是在春节期间一炮走红,百度热力图、百度天眼等产品也相继出世。天地之间,无论何时何地,我们的世界都漂浮着海量的时空大数据,站在互联网+的风口上,这些时空大数据能飞起来吗?它们究竟有哪些用武之地呢?本期名人堂皮皮邀请到了百度研究院大数据部实验室数据科学家吴海山坐镇,为我们揭晓百度大数据的神秘面纱。

皮皮(Q1):您好!很高兴有机会采访到您,我了解到您此前在IBM研究院从事商业数据的研究与优化,现在负责百度时空大数据的挖掘研究,那很多人可能对时空大数据感到困惑,究竟什么样的数据是时空大数据呢?您觉得IBM的大数据和百度的大数据来源有啥区别?

吴海山(A1):所谓的时空大数据(spatial-temporal big data),指的是随着时间变化的空间数据,最为典型的就是人出行时产生的历史轨迹,根据轨迹我们就可以知道你什么时候(时)出现在什么地方(空)。近年来,随着移动互联网的普及,有定位传感器的智能手机覆盖面也越来越广,每天会不断产生海量的人为位置数据,也就是时空大数据。

大数据可是说是IBM炒红的一个概念。IBM主要以提供商业解决方案为主,主要的客户来自交通、电力和银行等行业。从某种意义上来说,IBM本身不产出数据,主要提供对数据的存储硬件设备和相应的数据分析软件平台。和IBM不同的是,百度是一个互联网公司。放眼望去,全国网民每天可产生近百亿的搜索,像百度地图、百度搜索等都产生了海量的数据。

皮皮(Q2):今年春节前夕,业界首个以“人群迁移”为主题的大数据可视化项目---百度迁徙精彩亮相了,有人把它比喻成上帝的视角来看待大数据的魅力,大家可以实时查看全国人口的流动情况、查询实时航班信息、还能嗅探到全国火车站和飞机场热度等,这些以烟花般美丽炫酷的信息图背后到底用到了百度哪些技术呢?

吴海山(A2):百度迁徙是一个非常棒的项目,尤其是今年的百度迁徙还加入了百度天眼的航班信息、火车站信息等,效果非常炫。我本人并没有参与到这个项目,所以无法对具体的技术细节做讲解。不过总体来讲包括这样几个部分:其一,后端实时流数据的传输和计算。每天由百度地图产生的各种数据量非常大,百度迁徙需要尽量缩短数据的清洗、处理等带来的时间延迟,百度拥有自己强大的流计算平台;其二,前端的数据可视化技术。这个用到了百度自己开发的Echarts,可以高效的呈现可视化时空数据。

皮皮(Q3):百度地图覆盖500万公里路网和全国95%的高速公路,支持全国337个地级城市高清卫星图和热力图服务,百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求,它是如何做到数据的实时定位的呢?我们知道百度推出的很多O2O服务都以百度地图作为第一流量入口,比如天气应用、同城类应用等第三方应用能不能和我们分享下百度地图发力O2O的案例?

吴海山(A3):百度拥有自己研发的定位SDK,可以通过多种方式,如通信基站、GPS卫星 、WIFI等方式在不同情景下实现精确的实时定位,当然不同的定位方式,精度有所不同。

作为百度研究院的大数据实验室(big data lab, BDL),我们主要结合公司的长期战略,进行相对前沿的研究,孵化相关有潜力的产品demo。比如我们最近有一个关于智能化、个性化的地图搜索技术,当大家在百度地图上搜索“某某饭店”时,我们会根据用户的历史位置检索偏好等信息,准确预测用户到访该饭店的时间,然后饭店可以提前为用户排号、检查停车位等服务,并根据到访的用户量优化资源配置,从而实现打通线上、线下服务。我们还推出了算法,可以预测用户下一个要搜索位置的类型,超前一步,将用户最想找的位置放在最前面,通过预测性位置搜索(predictive location search)提高用户的体验。

皮皮(Q4):百度在大数据上动作频频,比如世界杯预测、高考预测、奥斯卡预测吊足了大家的胃口,春节期间百度迁徙更是一炮走红,百度热力图、百度天眼等产品也相继出世,而支撑这背后的团队无疑归功于像您一样,一群百度研究院大数据实验室的工程师们,能否和我们介绍下百度研究院大数据实验室?您们在研发诸如上述的百度大数据产品时有哪些创意和趣闻轶事呢?

吴海山(A4):百度研究院(Baidu Research)有三个实验室,除了我们的大数据实验室(BDL), 还有深度学习实验室(IDL)和在美国硅谷人工智能实验室(AI Lab)。研究院的院长是Andrew Ng博士,我们实验室的主任是著名的机器学习科学家张潼教授。除了时空数据的研究,我们实验室的研究方向还有智能预测引擎(如百度高考预测、世界杯预测等)、大规模机器学习算法研究、智能医疗等方向,实验室的主要成员都是来自国内外的知名研究院所。作为公司的研究部门,我们本身并不负责一个完成产品的开发,更侧重根据研究成果开发prototype,然后会有相关的产品部分负责产品化。

皮皮(Q5):我国人口众多,重大文体活动、节假日集会等活动中,容易出现因人群过度拥挤而引发的危险乃至事故。那么百度大数据是否可以提前预测,做到事前预警呢?请结合上海踩踏事件谈谈您的想法。

吴海山(A5):说起人群拥挤的研究,还要从我在普林斯顿的博士后研究说起。我一直对自然界的群体行为十分感兴趣,当时主要研究的就是鱼的群体行为,就是想探索为什么鱼可以成群的游泳、背后有哪些玄机?有个非常不错的研究成果,最近刚刚发表在美国科学院院刊(PNAS)上,我们通过计算机视觉、机器学习的方法探索了信息在鱼群中的传播机理。对于人群来讲,行为其实更加复杂。尽管国内外也有不少学者对人群的异常行为做了很少研究,但是要说预测,还是非常非常困难的事情。我个人觉得,我们最多能做的是可以提前发现异常,进行预警还是相对可行的。

上海外滩发生踩踏悲剧后,1月2日,我们实验室就在用百度的定位数据进行了可视化分析,然后负责开展与百度大数据的外滩踩踏事件分析。通过和其他几位同事一起尝试融合百度的多个数据源,试图还原当时的场景,看是否可以在事后寻找一些可以对将来有帮助的线索。根据我个人的研究经验,发生踩踏事情基本是难以预测的,国内外都发生过多次这样的悲剧,比如当时很多媒体报道认为,由于人多导致了悲剧,我们的分析结果表明,南京东路附近同样达到过类似的人群密度,但却没有发生悲剧。我们当时的研究也主要集中在预警而不是预测上。根据我们的研究,我们发现通过融合多个数据源,是有可能进行预警的:我们发现用户在去目的地之前,会提前使用百度地图进行搜索,进行路径规划后,到达现场,这个时间的提前量在半个小时到两个小时不等,我们还用了鸟巢、首体等地点大型活动的数据进行了验证,也发现了同样的现象。而且地图位置的搜索量和人口定位量也高度相关,这意味着我们可以提前预测人口流量。如果人口流量超过一定阈值,相关部门则可以进行提前布置警力等来预防。此外,我们还研究预测算法,来更准确的预测人流量。目前我们正在开发该产品,希望将来百度大数据能为公共安全贡献一份力量。

皮皮(Q6):被誉为互联网下一个入口的是LBS,百度、阿里、腾讯三大互联网巨头纷纷在地理位置服务领域加大了布局,互联网地图的“入口”之争将会愈演愈烈,高德地图对百度地图步步紧逼,百度LBS开放平台横跨了Web端、移动端、服务端,能否和我们谈谈百度LBS有哪些优势?

吴海山(A6):时空大数据挖掘作为我们实验室的一个重要研究方向,产出的研究成果,将会为百度LBS提供强大的“百度时空大脑”:比如我们重点研究的个性化和预测性的位置搜索(personalized and predictive location search)将可以服务百度地图搜索;我们对基于百度大数据的公共安全领域的研究,将可以帮助百度LBS在将来拓展该领域的市场;我们还有一些更加前沿的项目研究,这些研究结果不但可以更好的理解百度用户的行为,实现更加智能的人与服务的链接,还可以让公众看到,这些研究在将来受益所有的中国人。通过数据洞察当今的中国,是我们的使命。

原文地址:http://www.itpub.net/thread-1915346-1-1.html



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-4 14:00

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表