最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

奇虎360刘鹏:大数据深度挖掘技术还有很大空间

[复制链接]
发表于 2015-11-23 17:34:44 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
由CSDN重磅打造的“ 2015 中国软件开发者大会”近日在北京朗丽兹西山花园酒店隆重召开。奇虎360高级总监、商业产品首席架构师刘鹏在会上接受了多家媒体的专访,并就大数据在互联网公司中应用等问题做了解答。
183703f3c7ca605391.jpg

刘鹏介绍,免费的策略让奇虎360形成几项核心资产,第一流量、把无形资产变成钱,数据上叫做变现,也可以叫做货币化,或者商业化。我们可以看到大多数的互联网公司都是变现的,即大家产品都是免费的,变现通过广告。国际性的巨头,谷歌、脸书,基本上大部分收入都是来自广告。

对于大数据时代机器与人的作用,刘鹏我仍然坚定的认为,大数据服务于机器应该优先于服务于人。他解释,大数据如果要服务与人,那么这个人应该是有非常高专业素养的数据科学家,或者是统计工作者。但这样的情况,实际上你的企业里想建立起一支专业的数据科学家的队伍,比建立自己的大数据,服务于机器的系统更加困难。而且人只能是对宏观的东西,对部分的场景做决策,机器可以对个体,对全量的场景做决策。

刘鹏还介绍,奇虎360现在的方向还是要在自己的广告业务当中,推荐业务当中,把自有的数据用到极致。从方法论上先用到极致,全量分析这么大规模的数据,又要实实分析,从基础设施上、工具上,这点在互联网时代以前,所有东西是用不上的,这样的数据的特点是量极大,价值密度很低,我们说要去ROE,是很好的系统,对于交易数据的系统和加工,可以说到达一个很高的高度,不适合做行为数据的加工,这样高成本的东西去做,根本就不可能有利润。

刘鹏表示,今天我们看到随着深度学习的发展,随着数据量本身的浅层挖掘做得差不多了。现在要认真地再考虑,用更复杂的模型,更深度的模型去真正挖掘用户深入的一些价值、兴趣特征。这可以说是从产品技术上有很大空间。

刘鹏还建议,今后几年里,中国的互联网公司尤其是大公司,应该主要着眼点和发力点都在这些方向,不在于大规模进行数据的交易和合作。

以下是采访实录:

(刘鹏)

主持人:接下来我们邀请到的嘉宾是奇虎360高级总监、商业产品首席架构师刘鹏。

欢迎刘鹏先生。

我们的采访正式开始吧。

采访人:我看您介绍里边说是360变现产品那边,我想问一下变现产品怎么理解?

刘鹏:在互联网公司是最通用的产品,所有的产品你们用都是免费的。免费我们会形成几项核心资产,第一流量、…把无形资产变成钱,数据上叫做变现,也可以叫做货币化,或者商业化。你看到的大多数的互联网公司,都是变现的。大家产品都是免费的。现在的变现通过广告。其实你看到的大多数互联网BAT和360也好,国际性的巨头,谷歌、脸书,基本上大部分收入都是来自广告,除了腾讯可能有一半收入来自于游戏。网易是一个游戏占比很高的公司,可能到百分之八九十其他大多数互联网公司主要变现来源都是广告。占整个行业比重七成到八成。

采访人:以前您做过一个判断,大数据应该指导机器,而非人的决策。人到底在这个大数据时代应该扮演一个怎样的角色。

您刚才说到的数据变现的问题,以前您也提到,数据脱民…不能解决数据隐私的问题,怎么在数据变现的过程中,您之前有没有碰到过很难的坎儿,因为触及隐私的,案例,或者您的想法。

刘鹏:关于大数据时代机器和人的作用,下午的报告还会提到这点,我仍然坚定的认为,大数据主要服务于机器人三,服务于人不是不可能,我们的洞察因为要服务的人应该有非常高专业素养的数据科学家,或者是统计工作者。可是这样的情况,在实际上你在你的企业里想建立起一支专业的数据科学家的队伍,这件事情比你建立你的大数据,服务于机器的系统更加困难。并且还有一个问题,人只能是对宏观的东西,对部分的场景做决策,机器可以对个体,对全量的场景做决策。

我还是觉得服务于机器应该优先于服务于人。

第二个问题,关于脱米…的问题,这件事应该说在工业界只能摸着石头过河。因为到今天,数据的使用本身已经成为互联网一个主基调。我们有大量的业务都是基于用户行为数据的分析和加工。不仅仅说到变现的话题。个性化推荐,金融领域的个人征信,都用到这个问题。但是隐私问题到底有多严重,到底有什么系统性的方法解决,这就好比是咱们在网络里讲的这个应用和安全之间的关系。应用发展肯定先于安全,如果开始要把安全框架都定在发展应用,应用发展不起来。英勇献发展,碰到问题再去打补丁。这个数据的变现肯定也要走这条路。我讲的观点,包括脱米不能解决问题的观点,主要是引起大家的注意。数据的隐私安全风险,比实际上我们直观想的大得多。在我周围有什么案例爆发,目前没有看到。我在文章里讲的,(英文)这些都是真实的案例。如果有人恶意的在数据里面做些东西,可以做得到的,我们并不希望这样的案子出现。

采访人:现在主要数据变现,也是针对在广告上面吗?还是接下来会有其他的一些部署?

刘鹏:就我们公司来说,对数据使用和加工,主要还是局限在提高广告效果,帮广告主能够精准地找到客户,这样一个方向。当然市场上会有其他的公司,包括大公司和第三方公司,在探讨直接通过数据的加工和交易来变现的方式。

不过这个在中国市场还处于比较起步的阶段。

采访人:现在有没有一些自己在做这个工作,还是有一些合作伙伴一起把这个数据变现,有这样一个合作吗?

或者说有把数据打包卖给他们这种?

刘鹏:完全不可能。完全没有这种可能我认为在短期之内,我们是非常清楚,数据本身加工和交易的风险,并且数据本身在目前的商业环境里,变现价值,由于竞价的问题,由于怎么去(英文)的问题,其实还存在很多的不确定性和上升空间。现在要想拿数据变现,挣不了太多钱。本身商业模式、风险,如果对大公司来说,风险大于机会。这应该是第三方公司和创业公司更加继续考虑的问题。

采访人:你们考虑的怎么来优化产品上面,优化你们本来业务上面的一些东西?

刘鹏:这些东西比较成熟,不能说是大数据时代的东西。大数据时代我们考虑的数据是全体数据,或者说是全局数据。业务内的数据,比如说我们传统的CRM数据,B…这些用于优化你本身产品的运营能力,优化运营效果,它的经营和方法论,我认为在五年以前就相当成熟了。面对的数据是局部数据,本业务的数据。现在我们考虑的B…更多的是考虑对同一个用户跨域,跨产品线,甚至跨公司的,对用户整体行为的描述建模去推荐新业务。这两点在数据模式上,和具体业务增值空间上有挺大不一样。优化本身的业务,肯定所有公司都在做,而且我觉得是一个比较成熟的领域。

采访人:这是你们短期内的,一些主要的数据变现的可能说途径。像如果长期来看,您觉得大数据像对这种大型的互联网公司,你们的一些计划是什么?

刘鹏:我们现在的方向其实还是说要在自己的广告业务当中,推荐业务当中,把自有的数据用到极致。从方法论上先用到极致,全量分析这么大规模的数据,又要实实分析,从基础设施上、工具上,这点在互联网时代以前,所有东西是用不上的,这种Bβ特点量极大,价值密度很低,我们说要去ROE,是很好的系统,对于交易数据的系统和加工,可以说到达一个很高的高度,不适合做行为数据的加工,这样高成本的东西去做,根本就不可能有利润。所以行为数据一定是用新的(英文)来解决,这是第一个问题,最近几年在业界会有很大的进步…实际上为我们提供,我们做大数据加工提供了一个基础的平台。另外从算法本身,前些年大家对数据的加工和使用的理解,我在雅虎的时候,我们(英文)讲过一句话,当时我们主调是对大量的用户行为数据做浅层的挖掘。因为当时计算能力只能支持说我做浅层挖掘,并且当时的主基调是说把数据全都用起来。今天看到随着深度学习的发展,随着数据量本身的我们前层挖掘做得差不多了,这样一些背景。现在认真地再考虑,用更复杂的模型,更深度的模型去真正挖掘用户深入的一些(英文),兴趣特征。这些东西可以说是从产品技术上有很大空间。

今后几年里,中国的互联网公司大公司角度,或者从我们公司来说,应该主要着眼点和发力点都在这些方向,不在于大规模进行数据的交易和合作。

采访人:刚才您说到,您认为数据的交易是不可行的。环球首家数据交易中心,贵阳交易中心挂牌运营了。

刘鹏:我从来没说过数据交易是不可行的。我可能说过一句话,数据交换是不可行的。非作家的数据交易是不可行的,作价的数据交易是可行的,是市场主要方向。在中国会发展到非常成熟的阶段。因为数据交易能够促进整个社会利用数据能力的提高。说到贵阳交易所,我想说下我的观点,它交易的数据,跟我们现在谈的互联网用的数据是两类数据,没有太大的可比性。它交易的数据叫做洞察数据,与某种层面上的统计数据为准,不是真正在互联网征信里面,广告里面推荐里用的,用户行为数据。这俩类本质数据是不同的,洞察数据交易基本上相当于报告的买卖。

数据交易所其实我觉得说这是全球第一个,其实我也不认同。这是一个国度宣传。就拿广告领域来说,在北美像…大规模的用户行为数据交易的。在…(英文)这个交易规模都是很大的。所以说是贵阳交易所是全球首家数据交易所,首先这个概念肯定是错的。贵阳交易所交易的数据跟我们互联网使用的交易数据是两类问题,不具有太大的可比性。

采访人:现在企业对于安全部门的投入,人力、物力、财力都是很大,对于中小企业可能比较吃力了。咱们这么多年的安全数据,很全面。咱们有没有考虑,给这些企业推出一款产品,在他们外面做一些过滤这些?

刘鹏:防攻击的产品。

采访人:有没有这些产品?

刘鹏:就360来说我对安全不是太懂,说得可能不见得准确。但是我们确实有面向中小企业的产品,乃至大企业的产品,都有。并且还有一个重要的方向,现在中小企业的问题,很多可能要放到Cloud上解决,可能会比自己建机房方便很多。所以我们也是在规划Cloud …结合我们的安全优势做些新的产品。这方面我也仅仅是有初步的了解,细节说不上来,很抱歉。

采访人:运营是在360负责变现,能不能谈几个具体的研究和案例,怎么帮助360提高变现能力?

刘鹏:这个例子很多,主要的产品比如说搜索广告,搜索广告里头变现,其实相对是个成熟的产品。但是从我们自己的数据出发,我们要做大量的对人的分析,对场景分析。通过用户的关键词,通用户的地点,历史行为,找到他的偏好,通过这些东西,得到用户喜欢什么商品,并且展在搜索页面上。这方面要用到大量的数据加工的技术和算法。应该说业界搜索广告都是比较成熟,更多是我们现在着眼点在于移动广告。移动广告本身增速非常快,这其实得益于移动市场本身是一个突然爆发的市场

在中国、美国,大家可能看到这种现象,我们在PC互联网向移动互联网过渡,从印度市场看,并不存在传统意义上的PC互联网。印尼的PC覆盖率只有5%,智能手机覆盖率达到了30%,跟中国相差很远,但是可以认为,在这些新兴市场,并没有所谓的PC互联网,只有移动互联网,移动互联网的井喷,对我们变现产品的研究提出了更高的要求。主要几个基调,过去利用用户历史上行为数据,现在更强调用户的场景数据,因为你的手机是对你的用户的场景有全方位的了解,可以知道你在哪儿,甚至知道你现在是在上班,还是在家里休息。然后你最近的是什么,根据这些既时的场景,脸书信息流里的广告,其他的媒体的方式。用这些方式去进行场景化的组织和加工,提高广告的效率。这些都是我们最近比较关注的课题。

360产品在场景这块比较少的吧。

刘鹏:我说的是两种概念,用户产品我们360偏工具类产品,其实场景不是特别地,用户的意图性不是很强。但是因为广告的模式并不是说我们只在自己的浏览里做,其实可以跟很多合作伙伴一起做,有自己的native…其实我们可以合作伙伴深入地沟通,利用我们自己浏览上形成的数据加工能力和技术帮大家一起做变现。广告是很复杂的一个交易和合作的市场,不是某一方能够把整个市场做完的。

还希望您具体说一下360在移动互联网上面具体做些什么事情。

刘鹏:这个恐怕给不了很权威的解答,我们只在商业产品方面,只做变现这块,用户产品整体的战略和发展方向,我给的答案不见得准确。商业产品,我们的思路和方向是很清晰的。我们现在基本上是在围绕原声广告做事情。传统的…插屏的广告,我们在合作伙伴合作过程中,基本上都已经放弃了。因为这种广告对用户体验影响很大,效果不好。我们考虑的都是如何帮助媒体找到一种特别和谐的,特别媒体用的方式,并且把它的场景数据和我们对用户的行为数据结合起来,帮它把这个变现的效率提高。这是商业产品的方法。用户产品方法,我其实说不太具有权威性说出来。

采访人:广告计算,我想问一下计算广告,对当今技术从业者带来哪些影响?

刘鹏:计算广告》,提到我写的这本书,首先主要是感谢过去雅虎的同事,特别是广告部门的…(英文),这个领域的提出,都是…完成的,我是越俎代庖。整理这么一本书,我看到全球范围来看,大家这个领域大家闷头挣钱,没人来整理。《计算广告》最大的深远的影响,支持了互联网新的商业模式。前端获得大量用户,通过另外商务收钱的方法支持我的商业体系。最直接的结果就是你看到原来根本不可能存在的很多产品出现。比如说QQ,如果没有后项变现的支持,当然后项变现有的通过广告,有的通过衍生的游戏,如果没有后项变现的支持,这种QQ免费的产品是不会存在的。像360的安全卫士也一样,如果没有后项变现支持,这些东西肯定是在收费。收费跟免费邮什么差别?杀毒软件和安全工具在走向免费之前,整体用户中,普及率是很低很低的。大量用户把自己的日常行为保护起来了,最大的一个意义。真正解放了很多用户产品上的生产力。第二点意义,从大数据的角度来说,规模化的加工收集和使用数据,计算广告是整个行业的一个先驱。这件事情从2005年左右就开始落地的应用了。今天已经是相当成熟的产业,并且形成规模化以后的产业。

所以所有研究大数据的人,我现在可以越来越鉴定地说这句话,你必须了解《计算广告》,要不然你一定会走很多的弯路。这些弯路在广告领域都走过,其他领域也一定会碰到同样的问题。这是第二点,关于大数据。

第三点,对广告行业本身,通过《计算广告》这样的一种变现方式,让大家看到技术和计算的力量,真的能够改变一个行业。今天我们通过计算的方法去服务广告主数量,是传统数百年间服务广告数量的上百倍,甚至上千倍。就是有大量的中小企业原来没有办法去做自己的精确的营销,今天在计算这样,数据支持下,他们都找到了自己营销的手段。所以对互联网行业、大数据行业、广告行业,计算广告本身,虽然是一个不大的点,但实际上都起着非常关键的支持作用。这是我的看法。

采访人:还有个问题,之前您也提到过,大数据工业界的一种变现,不知道现在360有没有在数据方面涉及一些工业上的合作,还有您理解到的。因为现在无论是工业互联网,工业4.0,或者说其他的平台,都涉及到了数据的利用,您对工业界的这种是怎么看待的?数据的应用。

刘鹏:工业界的数据化是一个很大的趋势,首先是数字化、数据化。360据我所知在这方面的经验还不是很多,涉及到工业4.0。也分为两个层次,首先把自己企业内的我们叫做,我把它定义叫做行为数据定义下来,什么是行为数据?在你的企业运转过程中,可计可不计的数据叫做行为数据。我们过去企业的是交易数据,这些数据不记,就没法运行。银行的存取款,利息。对工业企业来说,过去交易数据很少,大概就是净交存。现在通过数据化的方式,管理起来,这里面的数据都记下来,相当于我们在互联网后台的日志,这里面行为数据的加工和分析,对于生产运营的管理和改进,一定有巨大的机会。我们在这方面确实还没有特别直接的涉足和非常具体的经验。

采访人:你们会去考虑和工业界,建立一种合作吗?

刘鹏:这个我现在也回答不了,要问公司其他的领导。

采访人:您在人工智能领域也有研究,这方面有什么颠覆式的创新跟大家分享的?

刘鹏:我做过一点,原来在微软研究院的时候,在当时沈博士是院长,当时我们做语音识别,我感觉从一些领域来说,云识别人脸识别来说,这两年人工智能的发展,…(英文)还是很大的。深度学习的开展和落地,在语音识别上,我们字错误率有了一个质的下降。所以就让我们过去觉得语音识别离实用离得很远,但是今天看来,这个错误率有可能能达到实用的效果了。现在我觉得重点要解决的问题,就是怎么样在这样一个字错误率的标准下,能够找到一些合适的应用场景,让它能够真正用起来。过去因为这个领域离实用距离蛮远的,所以大家没有考虑产品上怎么落地,应用怎么落地。现在离实用相当近了,有可能形成一些爆发式的应用点。特别是像智能穿戴设备的普及,会发现语音是一个非常自然,非常好的控制手段。

我其实我个人从来不认为语音是一个好的交互手段,但是是一个好的控制手段。这点,我觉得这两年会有突破性的进展。现在状态就是技术上有突破性进展。应用和产品上,突破性进展,我觉得也不远了,这是我的观点。但是人工智能在更复杂的一些场景。比如说一般场景之中,图象识别,或者图象理解,这些问题上我觉得离实用还有相当大的距离。

采访人:作为一个用户的角度来问,我用360的搜索,目前在图片上搜索是不是这个精度有一个提升还是?

刘鹏:首先这个搜索产品本身也不是我们商业产品的范畴,具体的图片搜索的评估的标准和现在的数字,其实我现在脑子里也说不出来。所以可能要回去看一下才能答复你。

采访人:您之前,因为您刚才说,之前也有研究过语音识别,会应用到现在你们做的这种商业项目上来吗?

刘鹏:语音识别在我们移动搜索里有支持的。这是一个很明显的趋势了,比如谷歌在美国可能它的语音搜索总量可能占移动搜索总量的25%了现在已经。趋势非常明显。所以基本上这种输入类的,命令类的和控制类的语音交互,我觉得是将来的一个标配。

国内占比我认为综合来看大概是百分之十几,比谷歌在美国的情况低一些,这个数字不见得准确。

采访人:是你们公司的,还是整个移动市场?

刘鹏:可能都差不多,在移动市场。

采访人:再有一个问题,在目前安全产品这个商业产品这个架构这个技术领域内,您觉得哪项技术是比较前端的?还有待突破的是哪些方面?

刘鹏:商业产品还是?商业产品这个领域范畴比较大了,最主要需要突破的还是刚才说的数据的问题,成熟的数据在隐私保护下进行成熟的数据加工和交易的产品,或者说数据加工和交易的市场,注意这并不是一个制度问题。我也不认为是说放到一个实体交易所能解决这个问题。这个里面有非常复杂的技术问题,这方面产品技术我觉得是将来的一个发展重点,而且要整个行业要一起解决。

另外一个重点,移动上的商业化,再次说到移动这个问题,移动商业化的本质规律,跟PC时代形成一些经验,现在看来不仅是有差别,可能从根本上就是不一样的。这方面的探索,应该说从去年乃至今年,真正人们从意识上解放开来…等同于在PC上改一改抄过来,一定要在移动的场景里重新思考去解决这个问题。我认为这是可能目前比较有挑战的两个问题。

采访人:能不能细化一点,您刚才说不是一个制度问题,意思是不是我们法律法规现在目前对数据隐私的一个这样现在处于一个问题,技术问题主要是哪些问题?

刘鹏:这个说起来话题比较长,简单说一下。你们如果看过我的公众号,《计算广告》的话,其实蛮详细的说到这个问题了,隐私到底是怎么回事。因为互联网行为数据是极其稀疏的。道理上讲,你的行为跟他的行为完全不一样,所以不管把你们敏感信息,电话、邮箱、家庭住址都去掉了,不堪。我拿到你的记录,我是你的熟人,我百分百确定是你的。这件事情是没有办法在现有的技术框架上解决的。换句话说,如果我是你的熟人,我对你的背景有所调研的话,我不计成本的在一个大的数据集里,一定能找到你的记录来。这是碰到的最大的障碍,不能不用这个数据,不用就彻底不存在了。市场部允许倒回到原来那个状态。如何让个性化的系统,比如广告也好,数据交易也好,推荐也好,如何让这些个性化的系统,既能够利用到用户行为数据的好处,又不太容易被人反看出来这个用户是谁。现在这个是前沿的一些理论学者和工业界的人在研究的技术问题。

因此我写那个文章的目的,我在各处讲的目的,其实要告诉大家,其实隐私不是制度问题,制度问题能解决的是20分,其他的80分是技术问题。

我估计你还说这个交易的问题,交易也是一样,交易里的技术问题很复杂,比如说怎么定价,我这样一份数据,比如说我有每个人的性别,A需求方和B需求方,比如A是卖奶粉的,B是卖化妆品,拿到女性的人群,对他产生的增值需求是不一样的。统一定价是不可能的,必须采取需求方定价,加竞价的模式。但是数据的特点是一份信息可以卖给多个人,就是一个可以不限量供应的产品,不限量供应怎么做定价,怎么做需求方定价。这是非常新的机制设计和技术问题,不是简单地通过法规就能搞清楚。先要通过经济学家这个计算机科学的学者把这些技术问题搞清楚,才能设计出合理的制度和法规。这件事情绝对不是说靠行政命令和制度就能够,这些领域不是靠行政命令和制度能够彻底推进的领域。

采访人:有没有比如说像独家这种的,比如说现在不是有一些品牌只做独家授权那种的。我只把这部分数据的这部分,给需求方。

刘鹏:你说的是需求方的数据还是说数据提供方的数据?

采访人:数据提供方的数据是我只把这部分给你独家。

刘鹏:独家是一种方式,但独家未必是最好的方式。如果没有人竞争,价格也上不去。现在整体来,在美国数据交易市场,我的感觉是数据交易量很大,价格偏低。不解决这个问题的话,这个市场没法得到充分的发展。

主持人:还有记者提问吗?如果没有我们就到这儿吧,刘总也要准备一下下午的演讲。





楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 06:07

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表