最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

坐拥5.21亿用户数据的搜狗怎么玩大数据?访搜狗大数据研究院院长李刚

[复制链接]
跳转到指定楼层
楼主
发表于 2017-2-15 16:11:23 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2017-2-15 16:30 编辑

作者:何婉璇
来源:大数据周刊
本文由大数据周刊原创,168大数据经授权发布,未经允许禁止转载,转载请务必获得原作者同意并标注本文来源。



李刚,2000-2007年清华大学计算机系本科+硕士;2006-2009年北京大学经济研究中心双学位;2003-2006年搜狗网页搜索技术负责人;2006-2008年搜狗视频、 新闻等垂直搜索负责人;2008至今,搜狗广告产品技术中心总经理;2014年至今兼任搜狗大数据研究院院长。他是搜狗CEO王小川的搜狗创始团队的13个清华实习生之一。担任广告产品技术中心总经理这8年,带领搜狗营销事业部的技术部创造了一个又一个的飞跃,无论是搜索广告还是网盟广告,亦或是品牌广告,每个季度的营收都有飞速增长,已助力搜狗年营收40多亿元,成为互联网公司营收排行榜上第6名。2014年带领精英团队创建了搜狗大数据研究院并担任院长,研发了搜狗大数据营销平台,构建了搜狗DMP和搜狗标签体系,打通搜狗各数据ID,对海量数据跨屏打通,为搜狗大数据基础架构打下坚实基础。对大数据精准营销、竞价广告以及大数据都有深入研究。

12年搜索、10年输入法、5.21亿用户、1600万公众号,从搜索到输入法,从浏览器到智能硬件——糖猫,从地图到明医,13年来,搜狗跨越发展,在优化与创新上,一路向前,不管是用户最多的输入法,还是国内第二大搜索引擎,亦或是进军中的人工智能,搜狗一次次突破自我,战略版图不断扩张,实现智慧服务转型。这些成绩的背后,离不开大数据的支撑与协作。本期,我们有幸采访到搜狗大数据研究院院长李刚先生,为我们讲述搜狗的大数据之路。

大数据现在已经成为企业和社会关注的重要战略资源,搜狗作为国内知名互联网公司,拥有海量的数据,请问搜狗的大数据研究院是什么时候成立的?又是如何处理和使用如此大量的数据的?

李刚:如你所言,搜狗拥有海量数据,它的用户规模在互联网行业排名第二,而这些用户主要来源于这几块:一是搜狗搜索,它是我国第二大搜索引擎,占有无线搜索市场17.8%的份额;二是搜狗输入法,这是我国目前不管在PC端还是移动端均排名第一的产品,月活跃用户达到5.21亿;其他还有跟腾讯合作的微信公众号,每天有1600万公众号数据,还有与知乎达成战略合作后得到的知乎数据。

搜狗大数据研究院成立于2014年,而研究院成立的初衷,就是考虑到我们拥有如此大量的数据,这些数据能不能合在一起,对搜狗的产品,或者对提升搜狗商业价值更有帮助。所以成立后的研究院,把搜狗所有的数据放到我们的平台里,然后对每个数据进行标准化格式处理,给每个数据打上标签并进行分级,而每一个分级都有许多标签,也就是说每一个人都会被打上各种各样的标签,如一个人是喜欢电影还是电视剧。如果是爱购物的,是爱购买电子产品、奢侈品还是化妆品等。每一个分类都有一个标签,汇聚起来,就形成了我们5.21亿的数据体系,而这个体系里的每一个数据都有自己完整的标签。

这些打上标签的数据主要用在几个方面,一是给搜狗搜索提供支持,为用户提供更好的服务,提升搜索体验。现在搜狗搜索可以为每个人提供不同的搜索结果。此外,我们的搜索还会做一些简单的推理工作。传统的搜索引擎是输入文字,得到的是包含输入文字在内的搜索结果,而搜狗搜索的结果是直接告诉你答案,如输入“4+5=”,搜索结果会直接显示“9”,而不再是传统的“4+5=9”;至于引擎自己的推理,简单来说是这样的:如输入“梁启超的儿子的太太的前男友的老婆是谁”,这种字符串在文本里面是没有的,然而我们的搜索引擎可以把这几个人定位出来,最后告诉你结果是陆小曼,这是一个深度挖掘数据的过程。

其次是完善搜狗的商业化体系。这些打上标签的数据特别适合广告投放使用,在搜狗投放广告,不仅可以选择关键词,还可以选择人群类型,比如是男人还是女人,是喜欢电子产品的还是喜欢购物的,可以根据标签进行组合投放,为我们的精准广告体系提供服务。

此外,我们拥有自己的大数据平台,辅助客户进行商业决策,他们可以在这个平台里看到自己品牌近期的变化情况,帮助企业进行品牌定位等。这是我们利用自己的数据,为客户提供的增值服务。

您刚才说到搜狗利用自身拥有的海量数据,为用户和企业提供服务,那这些数据是否考虑要对社会开放?

李刚:目前搜狗没有对社会开放这些数据,因为搜狗的数据库中每天有几百亿的网页更新,现在总共有一千多亿的网页存储在我们的网页库中,而这些数据的开放,需要考虑许多问题。搜狗现在拥有一万台服务器在运算,这些数据我们应用在自己的用户产品上,除了刚才说的智慧搜索和推理外,还为用户提供一些特别的服务。比如2016年5月初,“魏则西事件”引发了社会对搜索行业的广泛讨论,医疗推广政策的收紧对搜索行业产生了巨大的影响。此时,搜狗适时推出“搜狗明医”频道,囊括了来自维基百科、知乎和丁香园等网站真实权威的医疗知识,并且无商业广告的展现,力争给用户一个准确、有价值的答案,更好地满足用户医疗问询请求。

未来,我们的数据将会在不同行业落地,目前医疗只是一个尝试,后期会在其他行业进行相应尝试。虽然我们没有开放自己的数据,但是我们希望通过搜狗输入法等其他产品,更好地服务整个社会。

我们也希望通过搜狗的产品,能够更快速地得到更精准、更权威的信息。现在随着大数据的发展,不少大数据企业、研究院等相继出现,那搜狗大数据研究院在这场竞争中有哪些优势呢?

李刚:我认为我们有三个优势。

首先是数据优势。如前所述,我们通过搜狗搜索、输入法及合作,掌握了大量的用户数据。

二是技术优势。搜狗在搜索技术方面处于国内领先地位,而本身大数据技术与搜索引擎技术就非常类似,一方面都是对文本的理解,另一方面是数据的存储、查询、检索。在大数据方面,我们大量的复用了搜狗的技术。如数据存储方面,我们不用自己存储,只需从搜狗服务器中直接拿。搜狗有一个2万台服务器的集群,我们可以直接用,节省了大量成本。另外,搜狗80%的员工是技术人员,在技术方面投入非常巨大,所以搜索和输入法的数据,我们是共用的。

第三是产品优势。搜狗的搜索、输入法是我们研究院研究成果的发挥平台,加上我们自己的营销平台,使得我们的研究成果有了落地点。

目前许多公司大数据运用中存在的问题就是无法落地,他们手里有数据,但是不清楚自己该做什么事情。搜狗的大数据可以直接落到优化搜索产品,提高广告收入上,这些实际应用也都已经进入了实用阶段。

如您所说,目前许多人都知道自己拥有的数据是有价值的,但无法落地,搜狗做到了这一点,实现了落地。那未来搜狗的大数据应用还会向哪些方向发展呢?

李刚:大数据是基础能力,但最终是要落在某些服务领域,那么往哪个领域去落决定了未来的发展方向。未来,搜狗瞄准的第一个方向是人工智能。人工智能领域是搜狗制定的一个总战略,无论我们的输入法还是搜索都会逐渐智能化。人工智能必须要有数据学习的训练,主流方法基本都是深度学习,用数据来训练机器的智能,人工智能离不开大数据,所以大数据和人工智能是相辅相成的,所有的人工智能都需要大数据来提供基础的能力,而大数据必然会落到某个领域。我们希望数据收集回来以后,能有更智能的产品产出,在更垂直的领域提供更好服务,如医疗领域,我们为用户提供更智能化的服务。我们设想,未来在看医生之前,是否可以先做一轮机器问诊,帮助用户完成自动诊断。虽然目前有些公司已经在做这个,但是搜狗具有大数据优势,实力更强,这是大数据在具体领域落地的一个例子。

数据量大,加上人工智能技术过硬,就会产生出不一样的产品,这是搜狗在用户产品方面的规划,就是深度挖掘人工智能领域,做出自己的人工智能产品。

第二个方向是精准化营销。在广告领域,大数据可以更精准地识别用户。之前我们了解过某大型电商的一个案例:每个季度在它平台上下单超过6次的人只占其总消费用户的3%,但这3%的消费者却占据了它50%的销量,那现在我们如何帮它找到这3%的人呢?这是一个非常考验企业大数据技术能力的点。从这个案子就能看出,未来大数据第二点的发展就是如何精准化,如何给人打标签、定位,将消费者与商品进行精准匹配。

但这就涉及到另一个问题,我们这里说的精准化不可能只靠搜狗,而是需要融合各方资源,产生更多合作。所以第三个方向就是形成开放性的平台,能够跟客户、合作方形成数据共享和交互,利用搜狗大数据能力,让各方受益。所以第三方面就是要建立一个大数据开放、交互平台。

数据的开放和交互对推动大数据产业良性发展大有裨益,那当前建立这样一个平台还面临哪些问题?面对这些问题,搜狗大数据研究院未来将如何发展?

刚:大数据产业目前遇到的核心问题首先是没有形成产业化标准,行业本身还没有形成特别好的模式。目前大数据产业是一个鱼龙混杂的产业,虽然大家都说自己有大数据,但到底什么样的算大数据,还没有一定标准。如果能有这样的标准出来,对整个产业持续发展很有益处。

第二就是大数据行业还没有形成特别好的商业模式,这就是为何说这个行业还处于发展早期的原因,没有公司做成像BAT这样,做的很大、很强,并持续进行深入研发,多还是一些中小型公司,体量小,创造价值小。

三是投入不够。虽然大数据发展前景光明,但如何尽快达到希望点,让大数据产生它该有的价值,是我们一直在探索的事情。虽然大家都知道大数据有价值,但真正在这个产业上投入的资金量,相比电商、金融、游戏差距还是很大。

一是服务好搜狗的用户,提升搜狗产品价值,让用户获得更好服务。

二是提升搜狗商业化能力。

三是在大数据产业中探索更好的产业模式,探索更好的未来,让大数据产生更好的价值,这是我们的使命和方向。

结语

数据是有价的,它可以交易买卖;数据又是无价的,因为它拥有巨大潜力,带来各种可能。身处DT时代,拥有数据,就拥有战略先机。搜狗以海量数据为基,以优势技术为架,挖掘数据价值,提升用户服务,推动大数据行业飞跃发展。搜狗大数据学院深耕大数据行业,服务搜狗,服务整个社会。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-26 07:20

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表