14、多模型语言学规律 记得“国王-男性+女性=女王”吗?事实上图片也能这么处理(Kiros等人,2015)。
15、泰勒级数逼近 当我们在点处,向移动时,那么我们可以通过计算导函数来估计函数在新位置的值,我们将使用泰勒级数逼近:
同样地,当我们将参数更新到时,我们可以估计损失函数:
其中g是对θ的导数,H是对θ的二阶Hessian导数。 这是二阶泰勒逼近,但是我们可以通过采用更高阶导数来增加准确性
16、计算强度 Adam Coates 提出了一种分析GPU上矩阵操作速度的策略。这是一个简化的模型,可以显示花在读取内存或者进行计算的时间。假设你可以同时计算这两个值,那么我们就可以知道那一部分耗费时间更多。 假设我们将矩阵和一个向量相乘:
如果M=1024,N=512,那么我们需要读取和存储的字节数是: 4 bytes ×(1024×512+512+1024)=2.1e6 bytes 计算次数是: 2×1024×512=1e6 FLOPs 如果我们有块6TFLOP/s的GPU,带宽300GB/s的内存,那么运行总时间是: max{2.1e6 bytes /(300e9 bytes/s),1e6 FLOPs/(6e12 FLOP/s)}=max{7μs,0.16μs} 这意味着处理过程的瓶颈在于从内存中复制或向内存中写入消耗的7μs,而且使用更快的GPU也不会提升速度了。你可能会猜到,在进行矩阵-矩阵操作时,当矩阵/向量变大时,这一情况会有所好转。 Adam同样给出了计算操作强度的算法: 强度= (#算术操作)/(#字节加载或存储数) 在之前的场景中,强度是这样的: 强度= (1e6 FLOPs)/(2.1e6 bytes)= 0.5FLOPs/bytes 低强度意味着系统受内存大小的牵制,高强度意味着受GPU速度的牵制。这可以被可视化,由此来决定应该改进哪个方面来提升整体系统速度,并且可以观察最佳点的位置。
17、小批量 继续说说计算强度,增加网络强度的一种方式(受计算而不是内存限制)是,将数据分成小批量。这可以避免一些内存操作,GPU也擅长并行处理大矩阵计算。 然而,增加批次的大小的话可能会对训练算法有影响,并且合并需要更多时间。重要的是要找到一个很好的平衡点,以在最短的时间内获得最好的效果。
18、对抗样本的训练 据最近信息显示,神经网络很容易被对抗样本戏弄。在下面的案例中,左边的图片被正确分类成金鱼。但是,如果我们加入中间图片的噪音模式,得到了右边这张图片,分类器认为这是一张雏菊的图片。图片来自于Andrej Karpathy的博客 “Breaking Linear Classifiers on ImageNet”,你可以从那了解更多。
噪音模式并不是随机选择的,而是为了戏弄网络通过精心计算得到的。但是问题依然存在:右边的图像显然是一张金鱼而不是雏菊。 显然,像集成模型,多扫视后投票和无监督预训练的策略都不能解决这个漏洞。使用高度正则化会有所帮助,但会影响判断不含噪声图像的准确性。 Ian Goodfellow提出了训练这些对抗样本的理念。它们可以自动的生成并添加到训练集中。下面的结果表明,除了对对抗样本有所帮助之外,这也提高了原始样本上的准确性。
最后,我们可以通过惩罚原始预测分布与对抗样本上的预测分布之间的KL发散来进一步改善结果。这将优化网络使之更具鲁棒性,并能够对相似(对抗的)图像预测相似类分布。 19、万事万物皆为语言建模 Phil Blunsom 提出,几乎所有的NLP都可以构建成语言模型。我们可以通过这种方式实现,将输出与输入连接,并尝试预测整个序列的概率。 翻译: P(Les chiens aiment les os || Dogs love bones) 问答: P(What do dogs love? || bones .) 对话: P(How are you? || Fine thanks. And you?) 后两个必须建立在对世界已知事物了解的基础上。第二部分甚至可以不是词语,也可以是一些标签或者结构化输出,比如依赖关系。 20、SMT开头难 当Frederick Jelinek 和他在IBM的团队在1988年提交了关于统计机器翻译第一批之一的论文时,他们的到了如下的匿名评审:
正如作者提到的,早在1949年Weaver就肯定了统计(信息论)方法进行机器翻译的有效性。而在1950年被普遍认为是错误的(参见Hutchins, MT – Past, Present, Future, Ellis Horwood, 1986, p. 30ff 和参考文献)。计算机的暴力解决并不是科学。该论文已经超出了COLING的范围。 21、神经机器翻译(Neural Machine Translation)现状 显然,一个非常简单的神经网络模型可以产生出奇好的结果。下图是Phil Blunsom的一张幻灯片,将中文翻译成英文的例子:
在这个模型中,汉字向量简单地相加在一起形成一个语句向量。解码器包含一个条件性语言模型,将语句向量和两个最近生成的英语单词中的向量结合,然后生成译文中下一个单词。 然而,神经模型仍然没有将传统机器翻译系统性能发挥到极致。但是它们已经相当接近了。Sutskever等人(2014)在“Sequence to Sequence Learning with Neural Networks”中的结果: Model | BLEU score | Baseline | 33.30 | Best WMT'14 result | 37.0 | Scoring with 5 LSTMs | 36.5 | Oracle(upper bound) | ~45 |
更新:@stanfordnlp指出,最近一些结果表明,神经模型确实会将传统机器翻译系统性能发挥到极致。查看这篇论文“Effective Approaches to Attention-based Neural Machine Translation”(Luong等人,2015) 22、伟大人物的分类例子 Richard Socher演示了伟大人物图像分类例子,你可以自己上传图像来训练。我训练了一个可以识别爱迪生和爱因斯坦(不能找到足够的特斯拉个人相片)的分类器。每个类有5张样本图片,对每个类测试输出图像。似乎效果不错。
23、优化梯度更新 Mark Schmidt给出了两份关于在不同情况下数值优化的报告。 在确定性梯度方法中,我们在整个数据集上计算了梯度,然后更新它。迭代成本与数据集大小呈线性关系。 在随机梯度方法中,我们在一个数据点上计算了梯度,然后更新它。迭代成本与数据集大小无关。 随机梯度下降中的每次迭代要快许多,但是它通常需要更多的迭代来训练网络,如下图所示:
为了达到这两者最好效果,我们可以用批量处理。确切的说,我们可以对数据集先进行随机梯度下降,为快速达到右边的部分,然后开始增加批大小。梯度误差随着批大小的增加而减少,然而最终迭代成本大小还是会取决于数据集大小。 随机平均梯度(SAG)可以避免这样的情况,每次迭代只有1个梯度,从而得到线性收敛速度。不幸的是,这对于大型神经网络是不可行的,因为它们需要记住每一个数据点的梯度更新,这就会耗费大量内存。随机方差降低梯度(SVRG)可以减少这种内存耗费的情况,并且每次迭代(加上偶然全部通过)只需要两次梯度计算。 Mark表示,他的一位学生实现了各种优化方法(AdaGrad,momentum,SAG等)。当问及在黑盒神经网络系统中他会使用什么方法时,这位学生给出了两种方法:Streaming SVRG(Frostig等人,2015),和一种他们还没发布的方法。 24、Theano分析 如果你将“profile=true”赋值给THEANO_FLAGS,它将会分析你的程序,然后显示花在每个操作上的时间。对寻找性能瓶颈很有帮助。 25、对抗性网络框架 继Ian Goodfellow关于对抗性样本的演讲之后,Yoshua Bengio 谈到了用两个系统相互竞争的案例。 系统D是一套判别性系统,它的目的是分类真实数据和人工生成的数据。 系统G是一套生成系统,它试图生成可以让系统D错误分类成真实数据的数据。 当我们训练一个系统时,另外一个系统也要相应的变的更好。在实验中这的确有效,不过步长必须保持十分小,以便于系统D可以更上G的速度。下面是“Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks”中的一些例子——这个模型的一个更高级版本,它试图生成教堂的图片。
26、arXiv.org编号 arXiv编号包含着论文提交的年份和月份,后面跟着序列号,比如论文1508.03854表示编号3854的论文在2015年8月份提交。很高兴知道这个。 原文链接:26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL(译者/刘翔宇 审校/赵屹华、朱正贵、李子健 责编/仲浩)
关于译者: 刘翔宇,中通软开发工程师,关注机器学习、神经网络、模式识别。
|