【专访】搜狗首席科学家柳超博士谈“字根嵌入”让机器更懂中文

发表于 2015-9-13 10:34:59

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由 168主编于 2015-9-13 10:38 编辑

【本期嘉宾】

柳超：1999-2003本科在北京大学计算机系进行学习，毕业后赴UIUC研习数据挖掘，三年半取得计算机硕士与博士学位。2007-2012年在微软研究院总部工作，作为微软研究院总部最年轻的主管，带领数据智能团队（Data Intelligence Group），进行互联网数据挖掘的研究与应用工作。研究方向主要集中在互联网搜索与广告投放、分布式计算等若干大数据核心问题。2012年回国加入北京腾讯，同期被聘请为北京航空航天大学大数据方向的特聘教授2013年入选国家青年千人计划专家。2014年入选北京市海外高层次人才与北京市特聘专家。后于腾讯和搜狗战略合并时进入搜狗，任首席科学家。2014年10月主导组建搜狗数据科学研究院，从开始的 1个人发展到现在的十余人。

[搜狗导读]

近期，中国第二大搜索引擎——搜狗搜索在中文自然语言处理有了创新性进展，大幅推动机器对中文语言的理解。搜狗搜索柳超博士带领搜狗数据科学研究院发表的题为“字根嵌入（Radical Embedding）”的学术论文，被国际自然语言处理与计算语言学领域最高级别的学术会议ACL（Annual Meeting of the Association for Computational Linguistics）录取，此论文首次提出了基于字根的中文自然语言处理的深度学习技术，作为该领域前沿的创新研究成果，得到了全球相关领域专家的高度认可，并引发了广泛讨论。

深度学习的基础便是对自然语言的分析，而进行中文自然语言处理极为困难的主要原因在于，中文在文本和对话等各个层次上会存在各种各样的歧义或者多义，同一个字、词在不同语境中的涵义千差万别，不同断句方法让句子表意差异悬殊等各种问题，让中文自然语言处理成为行业挑战。

搜狗数据科学研究院首次提出了“字根嵌入”概念，这是世界上第一项基于字根的中文自然语言处理的深度学习技术，也就是将“字根作为中文语言处理的最小单位进行研究“。其基本原理是通过某种数学方式把汉语字根表示为多维空间中的向量，进而把汉字也表示为向量，作为基于深度学习的中文自然语言处理技术的基本单元，让中文更易被精准计算。这也意味着，中文千变万化的表述可以被机器进行处理，计算出其背后含义。

经过测试，采用“字根嵌入”新方式计算后，机器在处理中文分词、短文本分类及网页排序方面的效果大幅提升，这也证实了“字根嵌入”可以作为统一中文自然语言处理的基本单位的可能。

[嘉宾采访]

搜狗在机器学习，特别是深度学习领域，有哪些成绩，比如在产品中运用的广泛程度以及对于产品性能改进做出的贡献，未来希望攻克的领域有哪些？

柳：首先，我们在搜狗搜索和广告方面，利用词根嵌入（类似英文的word embedding）、用户的点击数据，进行监督学习（supervised learning）,相当于建立一个比较大的神经网络之后进行匹配，深度学习使得广告排序更合理。

其次，搜狗不断强化搜索技术，在中文信息处理、图像理解和语音识别等领域积极发展基于深度学习的人工智能技术，并成功应用于通用搜索排序优化、识图搜索、语音搜索等。仅在语音搜索领域，搜狗语音识别准确率在最近一年内提升40%，用户语音请求搜索数提升超过3倍。而搜狗识图搜索则成功将其应用于图像识别领域，通过模拟人认知图片的过程，多层次地模拟和学习，大幅提高了图片分类和识别的准确性。截至目前，搜狗深度学习技术已经积累千万量级的模拟训练数据，达到了行业领先水平。

那个时候还停留在字和词的层面上，现在这篇文章推进到了更小的以字根为单位？

柳：当时我们做的工作，引导我们进行了这样的思考：国内比较火的算法，很多都是用国外的英文的特点，用更多的机器进行的研究工作，但是并没有考虑中文语言的特点，中文和英文分属于不同的语系，我们认为可以用算法对此专门进行研究。此外，中文有几千年的悠久文明，我们也希望用这种方式对中文进行文化的传承。古代的说文解字，可以把文字分解成很深的渊源，我们团队也是出于对祖国文化的好奇，希望对中文文字进行研究。我们的研究动机一个方面就是探究仓颉造字的数学原理。

可以看到在您的文章中，像对“朝阳”的朝字进行的字根拆解，就是按照象形文字的方式进行的分解。这样的分解有考虑过用繁体字吗？

柳：这种分解方式我们认为用繁体字应该会更好，简体版我们在使用的时候发现了一些问题，但是training set 更易于获得，最终选用简体，先来看字根分解是否初步奏效。前段时间开会遇到新疆的老师，他们认为可能可以应用在维吾尔语上，因为字根的意思更明确。

从词根跨度到字根进行分析，有哪些优势?

柳：我们在论文中想做的事情并不是为了证明字根比词根更好，而是对于汉语，字根是最小不可分割的语义单位。我们的论文想传达的观点是探索一条分解中文的新途径，这些可以用词根解决的问题，同样可以用字根进行很好的处理，并且一些问题可以处理的更好，很多时候可能两者结合达到更好的效果。Deep learning就是将分析对象在特征表达方面分解成非常细小的单位，依靠数据和模型的能力，让他们自动交互、形成联系，最终解决任务。

您在做字根嵌入时是否主要用五笔字型的分解方式，尤其是对于古体字？

柳：是。这可能不是最优的分解方式。对这几万个字我们并没有找到更合理的方式去分解，但五笔字型分解可以直接从输入法那边拿过来，相对简单。并且五笔中还有字的结构，如左右结构、上下结构、包围结构等。

您的文章中将两种嵌入还有in-house的方法（STC和CWS）以及搜索排名进行试验比较，您为何要选择此三种进行实验比较呢？是否为标准方法？

柳：首先，分词的形式（segmentation）是汉语独有的，英语里面不牵扯分词的事情，所以一定要做测试。我们通过使用上面这些方法，希望可以对汉语特有的特性做一些提升。第二，字根也是表达语义，短文分类（text segmentation）也可以表征这种方法是否有效。第三进行大规模的工业型层面上的应用，来展示这个方法对工业界的一些影响。相比几十年前，学术界和工业界之间的隔阂是越来越小的。我们对每个任务的比较都起到这种在标准的benchmark上面去做测试。

在基于STC的试验里，在金融、体育和娱乐三个领域里对字根嵌入和词的结合比支持向量机和LR有更好的准确度。这个是否说明搜狗会基于不同的语类采用最优化的语义预测呢？比如休闲类话题用词与字根，体育类话题用文字与字根结合的方式？当数据量比较大的时候，会选择性的（如词与字根的结合、文字与字根的结合等）去训练一些特别的语类吗？

柳：我们当时挑选这三个类别是因为数据量比较多，并没有去专门选择这三种类别。因为做深度学习（deep learning），network比较深的话需要基于一定量的数据进行试验，否则就很容易过拟合（overfitting）。至于实际中是否会选择性的去训练特别的语类就不像论文写得这么简单了。实际中要看现在这种方法的准确率是多少，你需要给它提高到多少。有时候会对算法进行改变，有时候会给他增加新的数据，有时候再加上一些新的特征。好比加入新特征的话，字根嵌入就可以作为一个特征（extra features）来把模型做得更好。实际应用会有很多trade off（权衡），如果是做繁体字的语义分析，好比古文献里面，我们的这种预测、猜想应该会是更有意思的。因为很多字变成简体字之后其实看不到字本来的意思了。

在CWS的试验里，PSA和RDE两种方法不分伯仲，字根嵌入法跟PSA相比的优势在哪儿？

柳：优势在于当数据量再大时，我们把模型调的更深一些来利用更大量的数据，PSA相当于已经饱和了。深度学习中，只要你有足够多的计算资源，有足够量的训练集（training set），效果会上涨，相当于提供了一种可扩容式的学习方式。以前的方法相当于一个人只能吃一定量的东西，再来十个馒头就吃不下去了，但深度学习的方式是，再来十个馒头有方法让胃再扩大一倍，这个时候就可以变得更强壮。在Computational complexity（计算复杂性）和learning theory里，一个模型到底能学出多么复杂的function，也就是它的learning capacity（学习能力）。如果是linear function（线性方程）只能学习线性的，但non-linear（非线性）模型可以涵盖的东西比较多，这个相当于覆盖的learning capacity比linear要高。深度学习的Learning capacity非常大，如果模型调的好，数据量匹配，并且function正确，很多是看不到overfitting（过拟合）的。

字根搜索在算法速度上是否有一定优势？

柳：字根是最小的单位元，计算比较慢，模型在去中心的时候同时读写会比较多一些，这是一个速度上的瓶颈。以前单独使用字的时候，相当于每一个字上有一个参数。现在把字拆成字根之后，变成只有200多个字根。以前训练一个来回只需要更新这些出现的字，几万个里面可能有几十个或几百个参数需要改，不会出现同时都需要修改的东西。但在字根层面其实就需要更改这200多个地方，因而很多人需要去改同一个东西，这就导致“写”的累积，所以造成速度上的瓶颈。速度上在做并行式的，分布在不同的机器上，很大程度上减少“写”的冲突，速度上已经有很大的提高。

在搜索排名的试验中，可以看到词嵌入法在一半数据集中就已经趋于饱和了，但字根嵌入可以利用上样本的优势，随着样本量的增加准确度增高，这是否是字根嵌入法在大数据量上的预测优势？

柳：由于我们做更深一层（dive deeper），扩充了learning capacity，这就是为什么现在做deep learning的时候都试图去用最原始的东西，好比图像上面就抛弃了以前的feature selection（特征选择）的方法，而直接用pixel像素层级来做。以前的话有几十个上百个feature就不错了，现在的图片按像素做事很大的，靠神经网络来自组织，learning capacity就会上升很多。

目前的中文语义分析是只基于现代文学的语言习惯，是否涉及古文、方言？特别是不同方言在词、语法使用上会有很大的差异。

柳：主要是做普通话，因为我们考虑的是手写体，文字（text）。在语音处理上很多地方涉及方言，手写上很多方言的汉字不知怎么写，所以我们在处理text时只涉及汉语文字。

字根嵌入法的应用主要是希望提高搜索和广告投放的质量，这个技术应用起来如果增加产品的竞争力？

柳：在搜索上，把排名排对了，更是用户所想要的，为用户创造价值。对于搜索广告的广告商来说，也可以得到更加精准的匹配。这就是字根对客户、对搜索带来的影响。

采访撰稿｜刘小娇于丽君

大数据文摘原点栏目

阚小玺原点栏目主编。美国伦斯勒理工学院决策科学专业博士学位。现任RetailMeNot, Inc.的资深决策分析师，负责运用统计测试及最优化分析提供产品方案的决策建议。希望通过原点平台与致力于大数据领域创业的朋友互相交流学习。刘小娇盖洛普咨询高级统计分析师及品牌战略咨询师、《阿里商业评论》特约撰稿人。现居美国华盛顿特区。任盖洛普多项全球调查及美国居民幸福指数实时调查首席分析师。合作撰文内容涵盖政治、经济、国际金融、健康等领域。从事各项数据分析及可视化工作。如有对移动医疗领域、统计建模、大数据应用及可视化感兴趣，有志创业的同仁，请给她留言。于丽君本科硕士毕业于清华大学数学系，硕士研究课题为图像修补问题建模，目前为美国Case Western Reserve University应用数学在读博士，研究方向为贝叶斯方法反问题建模，博士研究课题为利用MEG（脑磁成像技术）时序信号对大脑活动进行定位，对数学建模、机器学习、人工智能以及图像处理等方面有广泛兴趣，希望可以通过原点栏目组，结识更多相关领域的朋友以及有志于创业的同仁，互相交流进步。郭曼桐清华新闻与传播学院2005级本科，毕业后在新华社工作，主要参与CNC World英语台的电视节目制作。曾被新华社派驻至美国华盛顿任驻外记者。曾参与美国大选、美国政府关门风波、IMF和World Bank年会等报道。闫小瑾原点栏目采访联络人, 04年兰州市高考理科状元，清华数学本科，美国马里兰大学数理统计博士。博士论文研究眼动数据(eye tracking)在医疗、市场营销方面的应用；同时关注HIV药品的临床数据分析。目前在美国某大型银行做量化分析，构建房地产贷款的信用风险预测模型(credit risk model)。期待通过原点认识更多有志于大数据相关产业创业的朋友。同时现正组建自己的团队，为顾客提供大数据咨询服务(分析，建模，解决方案，模型测试等)，有项目需求者请联系: smallbear@bigdatadigest.cn.

帐号		自动登录	找回密码
密码			立即注册

【专访】搜狗首席科学家柳超博士谈“字根嵌入”让机器更懂中文

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1