当前位置：首页> 深度神经网络的结构基础：自动编码器与限制玻尔兹曼机

深度神经网络的结构基础：自动编码器与限制玻尔兹曼机

时间：2018-10-24 05:07:58 下载该word文档

深度神经网络的结构基础：自动编码器与限制玻尔兹曼机
作者：康文斌彭菁唐乾元
来源：《中兴通讯技术》2017年第04期

摘要：自动编码器（AE）和限制玻尔兹曼机（RBM）是在深度神经网络领域广泛使用的两种常见的基础性结构。它们都可以作为无监督学习的框架，通过最小化重构误差，提取系统的重要特征；更重要的是，通过多层的堆叠和逐层的预训练，层叠式自动编码器和深度信念网络都可以在后续监督学习的过程中，帮助整个神经网络更好更快地收敛到最小值点。

关键词：深度学习；神经网络；AE；RBM

近年来，深度学习在图像和语音识别、自然语言处理、推荐系统等诸多领域中取得了许多重要的突破，深度学习的许多重大进展为解决许多长期以来难以解决的困难问题提供了崭新的思路[1-2]。深度学习以人工神经网络为结构基础，在一个神经网络中，如图1a）所示，每个神经元都是一个感知机，输入端的数据在线性组合后，经过激活函数引入了非线性因素。在一个神经网络的输入层和输出层之间常常会有一个或者多个隐藏层，如图1b）和c）中所示。通过许多个包含不同连接权重的感知机的组合和叠加，一个神经网络因而具有了极强的表示能力。“深度学习”这一名词中的深度指的是神经网络中隐藏层的数量。多个隐藏层让深度神经网络能够表示数据中更为复杂的特征，例如：在用深度卷积神经网络（CNN）进行人脸识别时，较为底层的隐藏层首先提取的是图片中一些边缘和界面的特征，随着层级的提高，图片中一些纹理的特征可能会显现，而随着层级继续提高，一些具体的对象将会显现，例如：眼睛、鼻子、耳朵等，再到更高层时，整个人脸的特征也就被提取了出来。在一个深度神经网络上，较高层的特征是低层特征的组合，而随着神经网络从低层到高层，其提取的特征也越来越抽象、越来越涉及“整体”的性质[3]。

神经网络的训练在本质上是一个非线性优化问题，要求在已知的约束条件下，寻找一组参数组合，使该组合确定的目标函数达到最小。反向传播（BP）算法是人工神经网络训练中的常见方法，在训练的过程中，BP算法要计算对网络中所有连接的权重计算损失函数的梯度，根据这一梯度值来更新连接的权值，进而最小化损失函数[1]。BP算法最早在20世纪70年代被提出，这一算法在浅层的神经网络训练中取得了重要的成功，然而在面对深度神经网络时，这一算法会遇到“梯度消失问题”，即前面的隐藏层中的神经元的学习速度要慢于后面的隐藏层，这一问题如果无法解决，那么神经网络将在事实上无法有效利用多个隐藏层。这一困难直到2006年才被加拿大多伦多大学教授Geoffrey Hinton解决，这成为了深度学习领域的标志性事件，它使得神经网络和深度学习重新被学术界所重视 [4]。在短短10余年的时间里，深度学习成为了学术界和工业界最为热门的研究主题，在许多不同的领域得到了广泛的应用。深度神经网络也发展出了诸多不同种类的变形。要想真正理解这些不同形式的深度神经网络的工作原理，我们首先必须对这些网络的结构基础进行深入的研究。在文章中，我们将以自动编码器（AE）和限制玻尔兹曼机（RBM）为例，介绍其工作原理和训练方法，在此基础上，我们将讨论这些基本结构在深度学习中的应用。