168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

1 2 3 4 5
开启左侧

60页PPT看百度人工智能(AI)战略布局

[复制链接]
发表于 2018-2-2 11:45:37 | 显示全部楼层 |阅读模式
近日,在清华大学举办的2017国际大数据产业技术创新高峰论坛上,百度副总裁、百度AI技术平台体系总负责人兼百度研究院院长、国际计算语言学协会(Association for Computational Linguistics)前主席王海峰发表了《百度人工智能》的主题演讲,以下附PPT全文及详解,供参看!

以下为完整版PPT:

1.jpg
  人工智能是第四次工业革命
  从18世纪开始,随着技术的发展,以及需求的牵引,人类逐渐开始进入技术革命或工业革命。历史上的工业革命有三次,可以大致归纳为第一次机械化革命、第二次电气化革命和第三次的信息化革命,而第四次工业革命则是以智能化——人工智能(Artificial Intelligence,英文缩写为AI)——为标志的。
  回顾一下人工智能的发展历史,正式的起点是1956年的达特茅斯会议,诞生了AI这个概念。而在1956年之前,已经出现了至今仍然很热门的一些人工智能方向,例如机器翻译、自然语言处理、计算机下棋、神经网络等等。而从AI诞生以来的60多年,人工智能的发展起起落落,从图中可见一斑。
  过去10年,随着深度学习的出现,更重要的是“数据井喷”,以及数据支撑的算法和计算能力的突破,尤其是在语音、图像等领域,人工智能再次迎来了发展的新机遇。而这一次的复兴即将带动整个社会产生深层次的变革,这是我们已经可预见的未来。这次人工智能的爆发,在很大程度上是从互联网开始的,而互联网带来了很多需求,包括搜索、社交、购物等等。这些需求越来越多的线上化,同时带动了数据的线上化。
  数据真正线上化以后,也带动了更多的算法去处理这些数据,而需求和数据的在线化也带动了整个生态的活跃,进而使越来越多的数据开放出来,依托更强大的计算平台,结合更好的AI算法,实现计算能力的突破。比如现在大家常用的GPU,利用深度学习、深度神经网络算法,就有非常强大的优势。大数据、算法和大计算这三者俨然成为了人工智能复兴的必要条件。
  百度人工智能已经扬帆起航
  百度从做搜索开始,人工智能的研究和发展已经有十几年了,如自然语言处理基础的分词、短语分析等。而全面布局人工智能大概是在七、八年以前,逐步从NLP、语音、机器学习、图像等方面开始,时至今天,百度已经形成了一个较完整的人工智能技术布局,包括基础层、感知层、认知层、平台层、生态层和应用层,共计六层。
  数据、算法和计算平台是基础。感知层对应人的视觉、听觉,这些能力是直接感知外界。认知层对应的是人类区别于其他生物特有的,比如人的语言能力、人类对知识的总结、理解、提炼、运用等等,以及对人的理解。AI的开放平台不仅支持百度内部的应用还支持所有的合作伙伴,现已开放了60多个能力,在公司内部,每天大概有几千亿的调用量,而在外部也有数以亿计的调用。在此基础上,百度希望跟所有各行各业的合作伙伴一起打造技术的平台,形成良性循环的生态,从而生长出各种各样的创新应用。
  百度从做互联网To C(针对消费者)的产品到开始做大量支持To B(面向企业服务)的应用。这些都依赖于人工智能技术布局的实现。下面将对每层技术布局的关键技术展开说明。
  一、基础层:大数据、算法和大计算
  现在每一个人每一天会产生非常多的数据,如个人的行为、生理状态的变化,如果要监测、记录的话,都有非常庞大的数据。况且,每一个人每天都在跟互联网打交道,或者是自己建网站,或者向网上贡献数据,甚至在使用互联网过程中,也会产生很多数据。一定程度上,互联网已经成为整个客观世界的镜像。所以,掌握好、利用好、分析好这些互联网数据,在很大程度上也是对客观世界很重要的刻画和理解。
  总体上,大数据技术分为几个方面,比如数据的采集、提炼以及应用。如果对一个零售商店数据里的用户进行建模,某一个用户可能是白领,另一个是主妇,这样的行业数据经过分析就可以帮助商户更好地进行营销行为。另一方面,百度基础的计算载体是数据中心,有20多个大型的数据中心,不只是在中国,在世界各地都设立了大数据中心,也有国内最大的GPU集群,有非常强的带宽和吞吐能力,还有像集装箱一样,模块化的计算中心。
  二、感知层:语音、图像、视频、AR/VR
  语音技术的突破有很多方向,如识别、合成和唤醒,这是我们现在比较看重的,因为市场应用的需求很大。比如语音识别,已经达到97%以上的准确率。现在随着人工智能应用的深入,在家居场景、车载场景等等,越来越多的语音识别不是对着麦克风说,而是要有一定距离,这就涉及到远场的语音识别。这与现在手机上的麦克风不一样,首先会有定位,还有一系列新的技术待解决。合成想做得非常好,特别自然、流畅,而且可以是个性化的,包括把人的情绪变化等都带进去,就变得非常难。
  这里不只是语音和声学信号处理问题,同时涉及到对语言的理解、对人的理解,这样才能做出有情绪、个性化的合成。唤醒,是需要设备的时候就叫一声,它就知道你要跟它说话,比如家居场景的一个智能音箱或者智能电视,这时候就需要唤醒技术。唤醒技术的困难在于我们要控制误唤醒,比如在家里放一个智能音箱,如果不叫它的时候,忽然之间它自己就跳起来了,或者睡觉的时候,有点外界噪音,它就忽然跳起来,体验会很差。所以,控制住误唤醒很重要也很有挑战。
  图像方面,人脸识别是计算机视觉的一个重要方向。人脸分为静态和动态。静态,如一张图片,检测里面有没有人脸,或者有两张照片,比对一下两处出现的是不是同一个人,这方面的准确率已经很高了。而识别动态图像的时候更复杂一点,比如有一段视频,首先要定位这些人脸,而这里会产生很多应用,比如在很长的视频流里找到一个人。

  另外,我们可以对图像进行识别匹配,做语义的标注,粒度很细,如一幅图里很具体地找到其中一个部分是什么,这里可以做很多细粒度的图像识别。OCR是图像识别里相对具体的方向,如清华也有OCR方向做得非常好的老师和课题组。现在OCR技术不仅可以扫描书,更可以识别一个表格或者一个很复杂的结构,如发票,不但把里面的文字识别出来,还可以把一个区域识别出来的文字结构化,整体上会做很多定制化的识别。
  视频不同于图像有很多权威的数据集,视频数据集本身还不够成熟。视频很多是人工标注好的,比如标题、内容,但是还有很多视频人工标注不够完善,这时候就需要视频语义理解技术把这个视频标注出来,包括这个视频到底是哪一类,视频的标题,如果相对长的视频,就把其中亮点怎么样也摘录出来。

  机器人视觉涉及到怎么样做定位,做地图的重建,包括检测障碍物等等。领先的SLAM技术,有很多算法。前面讲的图像和视频技术,在机器人视觉里都会有应用。增强现实(AR/VR)是一个独立的方向,但是跟视觉技术有很多关系,通常拍一个照片,会触发出增强现实的效果,相应地会涉及到三维感知、跟踪、渲染等技术。
  三、认知层:自然语言处理、知识图谱和用户画像
  自然语言处理的范围广泛,如果细分的话,有很多子领域,较宏观地可划分为语言的理解和生成,以及相应的应用系统。一方面要理解人的语言,另一方面要表达,能生成语言。比如,基本的分词、短语分析,核心的解决思路就是做句法的分析和语义的理解或意图的理解。如搜索“想去一家宠物医院,医院附近要有停车位”。这是人的一种自然的表达,如果让计算机能够理解,就要把意图提取出来,从很复杂的话中分析出其核心意图,然后再去找相应的答案。
  图示:用传统信息检索和搜索算法搜索“蒋英的女儿是谁”和“蒋英是谁的女儿”,会找到同样的答案,因为传统的信息检索是不管语序的。这时候我们就要做真正的自然语言分析和理解,知道它们实际上是在找不同的答案。这背后是知识图谱的支撑,大家可以看到结构化的图文并茂的结果。
  我们看一篇文章、一本书,这时候不仅仅是理解其中每一句话,而是对整篇文章有一个理解,就是篇章的理解。篇章的理解,可以把整个篇章打上主题标签,打上各种实体标签,而这些对计算机来讲就是理解了这篇文章。在应用时,为了不同的应用,标签会有不同的形式,如用在资讯流里,打上这些标签以后,就可以匹配用户的兴趣,从而推荐给用户一篇他可能感兴趣的文章。

  除了理解句子、篇章、文字以外,人写一句话、写一首诗亦或写一篇文章,都是带有情感倾向的,所以相应地,我们也做情感倾向的分析,包括用户看了一篇文章以后,下面有很多评论,这些评论本身我们也会做观点的抽取。


  除了分析、理解以外,还有生成。我们尝试过写诗、写对联等,比如在手机百度信息流里看到的文章,很多都是人写的,但也有很大一部分是机器自动写成的。我们做过各种测试,用户基本上分辨不出来到底是人写的还是机器写的,这说明机器写的还是很不错的。其次,人要与智能硬件展开交互,对话过程中涉及到对“人说的话”的理解和预测人如何说下一句话,相当于理解和生成两方面都在用,这里面就是对话管理以及交互的技术。


  到目前为止,我们讲的都是一种语言,都是中文,但“百度翻译”是解决多语言问题的,在28种语言之间互译,互译的方向大概是700多个,每天有过亿次的翻译请求。同时也结合了语音技术、视觉技术,延伸出了语音会话翻译、拍照翻译等等应用。




  人类几千年传承下来的知识,是人类能一步一步不断向前进步的原动力,而做这些知识的累积和传承很重要的载体是知识图谱,知识图谱里面一些基本的单位,如实体,现在我们的知识图谱已经有几亿个实体,每个实体会有很多属性,实体与实体之间也会有很多关系,这些关系就构成很多事实,如A和B两个人可能是老师和学生的关系,这就是一个事实,我们已经积累了几千亿事实。




  知识不只是静态的存取,而且涉及到知识计算和推理。比如,离圣诞节还有多少天,系统知道今天是哪一天,圣诞节是哪一天,系统会以此动态做一个计算。再比如,民航有一些规章,基于这些规章问一个问题,能不能“带打火机上飞机”,系统会根据这些规章的规则,判断这个问题的答案是“是”还是“否”。其次,我们要了解用户本身的需求,所以对用户画像也是非常重要的方向。现在百度积累了非常丰富的用户画像,有非常多细分的标签,如一个人可以从人口属性、行为习惯、长期兴趣、位置、短期意图等五个维度去刻画,形成初级的用户画像,构建个体模型。




  四、平台以及生态层


  这一层更多集中在百度大脑(ai.baidu.com),完整的生态包括云和端两大部分。百度云是很大的计算平台,不只是百度可以用,而且开放给所有的合作伙伴,变成基础的支撑平台,上面有百度大脑的各种能力。同时还有一些垂直的解决方案,比如基于自然语言的人机交互的新一代操作系统,以及与智能驾驶相关的Apollo。整车厂商可以调用其中他们需要的能力,汽车电子厂商也可以调用他们需要的相应能力,大家共建整个平台和生态。


  五、应用层


  语音搜索,是典型的在搜索上引入一些AI能力之后的产品形态,这里不是一个“语音识别+简单的搜索”,而是我们直接语音输入我们想要的字的时候,如果出现多音字,如俪、莉,就会出现错误,但如果用户说:“茉莉的莉”,语音纠错就会自动修改成“莉”,然后找到用户最终想要的答案。所以这就需要很多相关技术的支持。图像搜索也是,我们做了很多图像搜索相关的尝试。


  例如,找题很困难,很多学生做题,题里有图、有公式,想把内容输入进去就很难,所以拍照就变成特别方便的方式,这里就会结合OCR的技术,对图像做识别。智能问答、个性化推荐等同样是综合了多种AI能力,如知识图谱、NLP、用户理解等,把答案或资讯更直观、更有针对性地展现给用户。除了互联网应用,我们也在尝试AI能力与各行各业的结合,如智能客服、智慧机场等。




















  人工智能正在成为这个时代技术变革的核心驱动力,AI在To B领域的渗入将会给各行各业带来革命性的改变,也会对人们的日常生活产生巨大的影响。人工智能应用广泛,其实际作用绝不仅仅在互联网,就像我们已经很难想象任何一个行业离开电该如何运转一样,人工智能也会是新时代的电力。


  可以预见,人工智能必将无处不在。  



楼主热帖
168大数据(www.bi168.cn)是国内首家系统性关注大数据与数据科学的社区媒体与产业服务平台!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

企业信息化选型咨询

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2018-8-18 16:23 , Processed in 0.089580 second(s), 19 queries , Xcache On.

Powered by BI168社区

© 2012-2014 海鸥科技

快速回复 返回顶部 返回列表