Quora 精选：现代深度学习方法中，数据重要还是算法重要？

发表于 2017-1-18 14:56:43

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

来源：Quora、新智元

编译：新智元刘小芹

【新智元导读】你可能都认为数据更重要，但这个问题实际上非常复杂，不是简单的“是”或“不是”就能一言以概之。对于这个问题的理解，能够反映出对理论和实际应用问题把握的深刻，新智元摘选 Quora 精彩问答供你参考。

Xavier Amatriain（Quora 工程副总裁）

　　对这个问题，我希望你期待的不是一个简单的是或者否的答案。在过去几年里，数据更重要还是算法更重要这个问题，专家们（以及非专家们）已经进行过许多冗长的辩论，概括其结论，就是二者谁重要取决于许多细节和细微差别，了解需要时间。

　　我之前回答过一个很相似的问题：在机器学习中，更多的数据总是比更好的算法好吗？我建议先阅读那个答案，可以解决这个问题的80%，然后再回到这个答案来。这两个问题有一些细微但很重要的区别，我将在下面讨论。

　　首先，我前面回答的问题是指向机器学习（ML）的，而这个问题提问的是人工智能（AI）。机器学习和人工智能是一回事吗？不完全是。实际上，ML 是 AI 的一个子领域，ML 特别需要用大量数据来训练算法。而 AI 还包括基于逻辑或基于规则的其他方法，这些方法不像 ML 那样需要大量的数据。换句话说，假如我们同意在 ML 中数据并不总是比算法更重要，那么在范围更广的 AI 领域，数据的重要性应该更小。

　　正如我在另一个问题“市场认为 AI 与 ML 间的区别是什么？”的答案中提到的，大多数人可能不太在意 ML 和 AI 之间的区别，往往将它们混合使用。实际上，今天大多数人把 AI 当做深度学习的同义词，而深度学习其实是一种特殊的机器学习方法。所以，我认为从深度学习的最新进展的观点来看这个问题更好：

　　在现代深度学习方法中，数据是否比算法更重要？

　　是，也不是。的确，深度学习方法非常的“数据饥渴”。深度学习算法有很多参数需要微调，因此需要大量的数据以得出可概括的模型。所以，在这层意义上，拥有大量的数据是是为这些方法提供良好的训练集的关键。

　　有人认为在大型公共数据集（例如 Imagenet）以及最近的一些研究进展上，算法的表现优劣与数据的量有直接关系。需要注意的是，这里强调了起码在某些领域，公共数据集的存在使得数据不再是很大的竞争优势。

斯坦福大学实验室主任李飞飞

　　此外，这些算法和方法的有趣的一些方面是，它们有时可以由拥有数据集的人进行“预训练”（pre-trained），然后被许多人应用。在这种情况下，数据就显得不那么重要。举个简单的例子：如果你需要训练一个将英语翻译为西班牙语的模型，拟需要做的是收集数据做成一个巨大的数据集，然后在这个数据集上训练模型一次。模型本身已经具有所有的信息，所以得到这个模型的其他人就不再需要原始数据了。例如，著名的22层的 Googlenet 模型可以从不同的库里下载，例如 GoogLeNet in Keras。

　　所以，即使对这些数据饥渴型的应用程序来说，是否需要很大量的数据来利用最新的研究，答案也不是确定的。也就是说，如果你在做 state of the art 的研究，或者想做出非常具体的某个场景的应用程序，那么，你需要有内部数据来训练你的最新深度学习方法。

　　Max Loh（UC Berkeley EECS，Quora Published Writer）

　　如果你是指短期的考虑，那么数据比算法更重要。许多机器学习研究者将数据比喻为机器学习的“火箭燃料”。一般来说，在大量数据上训练的平庸模型的表现会比在少量数据上训练的伟大模型要好得多。

　　然而，state of the art 是技术的永恒追求。为了获得突破（如 AlphaGo，Wavenet 等），需要有人不断研究新的机器学习方法。多大的数据量也不可能装满了人类水平的智能，可以编写史诗小说，发明新的医疗技术，打篮球，或者用更少的数据（如人类大脑一般）做出高质量的预测。

　　所以，如果你想今天就在实际业务中使用机器学习，那么数据更重要；如果你想推动机器的智能潜力，那么算法/模型更重要。

　　Roman Trusov（Facebook AI 研究实习生，Quora Top Writer）

　　Neal Stephenson 曾在 Cryptonomicon 中给出了数据和算法之间的关系的最好描述：

　　“深度”（depth）可以通过在每个人的头顶上安一个绿色的灯泡，然后追踪他们在伦敦的行踪得到。得到的结果将是一堆厚厚的图纸，每一张图纸看起来都是随机的。图纸的厚度越大，深度就越深。

　　“独创性”则是完全不同的问题。没有系统的方法能够获得独创性。看着一大叠矩形波追踪图纸（square wave tracing）时，可能一个人只能看到乱糟糟一团线，而另一个人会找到一个令人着迷的源头，一种其他人无法分享的不合理的感觉。心灵的某些深层部分擅长注意到模式（或模式的存在），这会唤醒大脑的某个部分的信号，让大脑继续注意图纸。信号是昏暗的，并不总会被注意到。

　　无论你拥有怎样的数据，你所能做到的事情仍会有限制。更好的算法是突破这个限制的唯一方法。同时，数据永远都不会缺乏——整个世界就是各种信号的巨大型的来源，这些信号可以被解释或用于训练，现在已经在做这些事了。但是要有效地使用它们，我们需要开发能够有效地“在某个领域”学习的方法，这仍有很长的路要走。

　　使用相同的旧算法就像盯着那堆厚厚的图表。

　　Mehmet Ufuk Dalmis（PhD，6年机器学习经验）

　　我认为答案是肯定的，在这个方向上数据是明显的趋势。

　　在开始解释之前，我想说明的是，以下的讨论限制在机器学习，而非整个AI领域。

　　“就算你有很厉害的算法，最重要的仍然是数据的量。”我想没人会反对这句话。但是，我们已经有了“厉害的”算法吗？

　　经过几十年的机器学习研究和深度学习的进展，在过去几年里，答案越来越倾向“是的，我们的算法很好了”。请看下图，这是经常被拿来解释为什么深度学习如此强大的图示。当你向深度学习系统提供更多的数据，他就会变得越来越好，远比旧的方法要好。

　　这是人们在实践中能体会的。我自己体会过，我也听许多研究人员说过，就是你可以尝试许多不同的深度学习架构和训练策略，但最终你会发现最重要的还是数据量。这是决定算法性能的关键因素。

　　总结而言，经过几十年的机器学习研究，尤其是最近几年深度学习的进展，现在我们已经有了很好的算法。所以，数据已经成为决定性能的最重要的决定因素。

　　为了支持我的答案，我想举一个谷歌的例子。现在谷歌已经开始进军医疗领域，尤其是病理、放射学图像和显微图像的自动化分析。他们不需要再花几十年来研究更好的算法，因为他们已经有了算法。他们只需要的是数据。这也是他们正在努力的方向：与医院合作以获取数据。

　　编译来源：https://www.quora.com/In-AI-is-d ... ant-than-algorithms

帐号		自动登录	找回密码
密码			立即注册

Quora 精选：现代深度学习方法中，数据重要还是算法重要？

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1