机器学习领域国际著名学者迈克尔·乔丹谈大数据等重大技术探索的迷思

发表于 2014-11-26 22:42:34

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

大数据浪潮与仿脑芯片只是我们产生严重误读的其中两例而已。

迈克尔·乔丹，美国加州大学伯克利分校陈丕宏杰出教授(PehongChen Distinguished Professor)，美国科学院、美国工程院、美国艺术与科学院的院士，ACM, IEEE, AAAS, AAAI, ASA, IMS等学会会士(Fellow)，机器学习领域国际著名学者

迈克尔·乔丹 (Michael Jordan) 谈
1. 为什么我们谈论计算模型的时候不该继续用脑作比方
2. 雾里看花的机器视觉
3. 为什么大数据可能只是一场空欢喜
4. 有10亿美元他会干什么
5. 如何避谈“技术奇点”(singularity)
6. 比起P=NP他更关心什么
7. 图灵测试的意义到底在哪里

本文摘译自IEEE Spectrum,”Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other HugeEngineering Efforts”, 2014, 10一文。本译文是原文的第一部分。

以下S代指IEEE《科技纵览》(IEEE Spectrum)期刊，M代指迈克尔·乔丹。——译者注

为什么我们谈论计算模型的时候不该继续用脑作比方

S：从您的文章中可以看出，您认为外界对于深度学习、大数据、计算机视觉凡此种种存在着诸多误读。

M：嗯，所有学术问题都有这样的误读。媒体总是尽力发掘那些抓人眼球的话题，有时候有些报道就言过其实了。就拿深度学习来说，基本上就是把神经网络重新包装了一下，而神经网络20世纪80年代就有了，甚至可以再往前追溯到60年代，感觉每二十年它就会卷土重来一次。目前在这一拨热潮中，主要的成功例子是卷积神经网络，可是这个想法早在上一拨就出现过了。那时候就有一个问题，并且遗憾的是目前这个问题仍然存在：即人们总是认为它（指人工神经网络。——译者注）和神经科学有着某种联系，并且认为深度学习是人们对脑如何处理信息、学习、决策乃至应对大规模数据的认识。而事实显然不是这样。

S：作为媒体从业人员，我对您刚才的话有些异议，原因是很多时候正是学术圈里的人非常渴望地想让我们写一些关于他们的故事。

M：是的，这算是一种合作关系吧。

S：我一直以来都有这样的印象，当计算机科学领域的人描述脑是如何工作的时候，他们总是采用一些极其简化的说法，而神经科学家们也许永远都不会采用这样的说法。您称之为脑的“卡通模型”。

M：我可不想简单地给人贴上标签，说计算机科学家们都是某种样子，神经科学家们又是另外一种样子。但有一点是对的，对于神经科学来说，理解一些深刻的原理可能要耗费数十、甚至数百年之久。神经科学的最底层研究的确有一些进展，但是说到更高级的认知行为——比如我们如何感知、记忆或行动，我们还毫无头绪，包括神经元如何存储信息、如何进行计算、遵循什么准则和算法、采用哪种表示等。所以，我们还没有步入可以利用我们对脑的认识来指导搭建智能系统的时代。

S：除了批评那些脑的“卡通模型”，您其实还进一步批评了那一整套所谓“神经现实主义(neural realism)”的思潮——他们认为一个硬件或者软件系统只要拥有了某些脑的疑似特征就会因此变得更加智能。您是如何看待那些声称比如“我的系统是一个类脑系统因为它是大规模并行的”的计算机科学家？

M：啊，这些只是打个比方而已，某些时候还挺管用的。流和流水线就是从各种电路里引申出来的概念。我记得20世纪80年代早期的时候，计算机科学还基本都在关注顺序架构——也就是冯·诺依曼的那种一段存储的程序被顺序执行的模式。由此便有了想要突破这种范式的需求，所以人们寻求高度并行大脑的一些比喻，那还是有用的。

可是研究内容转变之后，并不是所谓的神经现实主义引导着主要的进展。在深度学习中被证实最为成功的算法是基于一种叫做反向传播的技术：（假设）你有若干层处理单元，并且从最后一层获得了输出，然后你把一个信号反向传播回去以调整所有的参数。显然脑是不会这样做的，这绝对是与“神经现实主义”偏离的，但是它带来了显著的研究进展。可是人们往往将那些个别的成功例子与其他所有企图搭建类脑系统而效果却又不及万一的尝试混为一谈。

S：对于神经现实主义的失败，您还提到了（人工）神经网络中并不存在哪怕一处比较符合神经科学的地方。

M：深度学习系统中并不存在神经脉冲这样的东西，也没有神经树突，倒是有双向信号这样的脑中并不存在的东西。我们不知道神经元是如何学习的。它是只在负责学习的突触的权重中有一个细微的改变吗？人工神经网络就是这么做的，而我们对于在脑中到底如何进行学习的则知之甚少。

S：我经常读到工程师们在描述他们新的芯片设计时采用了一种在我看来是不可思议的乱用的说法。他们会说芯片上的“神经元”或“神经突触”。但那简直是不可能的——神经元是一个活生生的细胞并且具有非凡的复杂性。难道工程师们不是擅用了生物学的语汇来描述一些在复杂程度上不及生物系统万一的结构吗？

M：呵呵，我想我还是小心为上。我认为有必要区分两个使用“神经”这一词汇的不同场合。一个是深度学习。在那里每个“神经元”其实是一种简笔画式的描述。它实际上是一个线性的加权求和再通过一个非线性（变换），电子工程领域内随便谁都熟识这种非线性系统。把那称作为神经元显然是一个简称，就像简笔画一样。有一种在统计学中被称之为逻辑回归的过程，可以追溯到20世纪50年代，它跟神经元毫无关系而又和上述这种微小单元（指人工神经网络中的“神经元”。——译者注）别无二致。

另一个就与你刚才提到的相关。如果我没理解错的话，他们试图模拟实际的脑，或者至少是一个实际的神经元回路的简化模型。但我发现一个问题，那就是这种研究没有与对这个系统在算法层面上究竟可以实现什么功能的认识相结合，也没有与一个接收数据并且解决问题的学习系统相结合，比如视觉系统。它其实仅是一个架构，指望着哪一天人们会找到一些让它能派上用场的算法，可是又没有什么清晰的迹象表明这种愿景指日可待。我觉得它是基于这样一种信念，即如果你造出了像脑一样的东西，有朝一日它自会找到用武之地。

S：如果可以，您会宣称禁止将脑的生物学原理当成计算模型来使用吗？

M：我不会。你应该从任何可能的地方汲取灵感。就像我刚才提到的，早在20世纪80年代，说一些“让我们跳出顺序的冯·诺依曼架构，来多想想高度并行化的系统吧”的话事实上是很有益处的。但是就现在来讲，显然脑所用的细致的处理方式对于（我们设计）算法过程没有太大启示，因此我认为用脑来刻画我们的所作所为是不合适的。我们并不知道脑是如何处理视觉信息的。

作者：李·戈梅斯(Lee Gomes)
译者：徐旻捷　朱　军

帐号		自动登录	找回密码
密码			立即注册

机器学习领域国际著名学者迈克尔·乔丹谈大数据等重大技术探索的迷思

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1