最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

那些深度学习《面试》你可能需要知道的

[复制链接]
跳转到指定楼层
楼主
发表于 2017-11-3 14:17:44 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
作者:Jin Lee
本文是问题“那些深度学习《面试》你可能需要知道的”的回答.
1.列举常见的一些范数及其应用场景,如L0,L1,L2,L∞,Frobenius范数
答:p39-p40 ;还有p230-p236有regularization的应用
2.简单介绍一下贝叶斯概率与频率派概率,以及在统计中对于真实参数的假设。
答:p55
3.概率密度的万能近似器
答:p67:3.10上面那一段
4.简单介绍一下sigmoid,relu,softplus,tanh,RBF及其应用场景
答:sigmoid和softplus在p67页;全部的在p193-p197
5.Jacobian,Hessian矩阵及其在深度学习中的重要性
答:p86-p92
6.KL散度在信息论中度量的是那个直观量
答:p74
7.数值计算中的计算上溢与下溢问题,如softmax中的处理方式
答:p80-p81
8.与矩阵的特征值相关联的条件数(病态条件)指什么,与梯度爆炸与梯度弥散的关系
答:p82;
9.在基于梯度的优化问题中,如何判断一个梯度为0的零界点为局部极大值/全局极小值还是鞍点,Hessian矩阵的条件数与梯度下降法的关系
答:p86-p92
10.KTT方法与约束优化问题,活跃约束的定义
答:p93-p95
11.模型容量,表示容量,有效容量,最优容量概念
答:p111;p113;p114;p115
12.正则化中的权重衰减与加入先验知识在某些条件下的等价性
答:p119;p138
13.高斯分布的广泛应用的缘由
答:p63-p64
14.最大似然估计中最小化KL散度与最小化分布之间的交叉熵的关系
答:p132
15.在线性回归问题,具有高斯先验权重的MAP贝叶斯推断与权重衰减的关系,与正则化的关系
答:p138-p139
16.稀疏表示,低维表示,独立表示
答:p147
17.列举一些无法基于地图(梯度?)的优化来最小化的代价函数及其具有的特点
答:p155 最顶一段
18.在深度神经网络中,引入了隐藏层,放弃了训练问题的凸性,其意义何在
答:p191-192
19.函数在某个区间的饱和与平滑性对基于梯度的学习的影响
答:p160
20.梯度爆炸的一些解决办法
答:p302
21.MLP的万能近似性质
答:p198
22.在前馈网络中,深度与宽度的关系及表示能力的差异
答:p200-p201
23.为什么交叉熵损失可以提高具有sigmoid和softmax输出的模型的性能,而使用均方误差损失则会存在很多问题。分段线性隐藏层代替sigmoid的利弊
答:p226;p226
24.表示学习的发展的初衷?并介绍其典型例子:自编码器
答:p3-p4;p4
25.在做正则化过程中,为什么只对权重做正则惩罚,而不对偏置做权重惩罚
答:p230
26.在深度学习神经网络中,所有的层中考虑使用相同的权重衰减的利弊
答:p230
27.正则化过程中,权重衰减与Hessian矩阵中特征值的一些关系,以及与梯度弥散,梯度爆炸的关系
答:p231-234
28.L1/L2正则化与高斯先验/对数先验的MAP贝叶斯推断的关系
答:p234-p237
29.什么是欠约束,为什么大多数的正则化可以使欠约束下的欠定问题在迭代过程中收敛
答:p239
30.为什么考虑在模型训练时对输入(隐藏单元/权重)添加方差较小的噪声,与正则化的关系
答:p240-p243
31.共享参数的概念及在深度学习中的广泛影响
答:p245;p253
32.Dropout与Bagging集成方法的关系,以及Dropout带来的意义与其强大的原因
答:p258-p268
33.批量梯度下降法更新过程中,批量的大小与各种更新的稳定性关系
答:p279
34.如何避免深度学习中的病态,鞍点,梯度爆炸,梯度弥散
答:p282-p293
35.SGD以及学习率的选择方法,带动量的SGD对于Hessian矩阵病态条件及随机梯度方差的影响
答:p294;p296-p300
36.初始化权重过程中,权重大小在各种网络结构中的影响,以及一些初始化的方法;偏置的初始化
答:初始化权重:p301-p305;偏置初始化:p305-p306
37.自适应学习率算法:AdaGrad,RMSProp,Adam等算法的做法
答:AdaGrad:p307; RMSProp:p307-p308; Adam:p308-p309
38.二阶近似方法:牛顿法,共轭梯度,BFGS等的做法
答:牛顿法:p310-p313; 共轭梯度:p313-p316; BFGS:p316-p317
39.Hessian的标准化对于高阶优化算法的意义
答:p318-p321
40.卷积网络中的平移等变性的原因,常见的一些卷积形式
答:平移等变性:p338-p339;常见的一些卷积形式:p347-p358
41.pooling的做法的意义
答:p342-p347
42.循环神经网络常见的一些依赖循环关系,常见的一些输入输出,以及对应的应用场景
答:p378-p395
43.seq2seq,gru,lstm等相关的原理
答:seq2seq:p396-p397; gru:p411-p412; lstm:p408-p411
44.采样在深度学习中的意义
答:p469-p471
45.自编码器与线性因子模型,PCA,ICA等的关系
答:自编码器与线性因子模型:p489-p490CA:p490-p491;ICA:p491-p493
46.自编码器在深度学习中的意义,以及一些常见的变形与应用
答:意义:p502-p503; 常见变形:p503-p508;p509-p512; p521-p524应用:p515-p520;p524-p525
47.受限玻尔兹曼机广泛应用的原因
答:p460:想特别了解的人注意这句话: See Mohamed et al. (2012b) for an analysis of reasons for the success of these models.
48.稳定分布与马尔可夫链
答:p595-p598
49.Gibbs采样的原理
答:p599
50.配分函数通常难以计算的解决方案
答:p605,p606第一段
51.几种参数估计的联系与区别:MLE/MAP/贝叶斯
答:P134-P139
52.半监督的思想以及在深度学习中的应用
答:p541-p546
53.举例CNN中的channel在不同数据源中的含义
答:p360-p362
54.深度学习在NLP,语音,图像等领域的应用及常用的一些模型
答:p452-p485
55.word2vec与glove的比较
答:How is GloVe different from word2vec?GloVe以及Word2vec能称为deep learning么?这俩模型的层次其实很浅的http://clic.cimec.unitn.it/marco/publications/acl2014/baroni-etal-countpredict-acl2014.pdf 这个问题没找到答案,我去找了quora和知乎上的相关问题以及quora一个回答提及的论文。 (若有人在书中找到,请批评指正)
56.注意力机制在深度学习的某些场景中为何会被大量使用,其几种不同的情形
答:p475-p476
57.wide&deep模型中的wide和deep介绍
答:https://arxiv.org/pdf/1606.07792.pdf 此问题答案未在书中找到,为此我去找了原论文,论文图1有详细的介绍。 (若有人在书中找到,请批评指正)
58.核回归与RBF网络的关系
答:p142
59.LSTM结构推导,为什么比RNN好?
答:p408-p411
60.过拟合在深度学习中的常见的一些解决方案或结构设计
答:p230-p268;包括:Parameter Norm Penalties( 参数范数惩罚); Dataset Augmentation (数据集增强); Early Stopping(提前终止); Parameter Tying and Parameter Sharing (参数绑定与参数共享); Bagging and Other Ensemble Methods(Bagging 和其他集成方法);Dropout. 另外还有Batch Normalization。
61.怎么理解贝叶斯模型的有效参数数据会根据数据集的规模自动调整
答:关于非参数模型:p115-p116 ;非参数模型不依赖于特定的概率模型,它的参数是无穷维的,数据集的规模的大小影响着模型使用更多或者更少的参数来对其进行建模。(并未在书中找到准确的答案,若有更好的回答,请联系我改正)

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-29 04:02

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表