深度文章:初识深度学习

深度文章:初识深度学习

一、什么是深度学习?

深度学习(Deep Learning)是利用多层神经网络结构,从大数据中学习现实世界中各类事物能直接用于计算机计算的表示形式(如图像中的事物、音频中的声音等),被认为是智能机器可能的“大脑结构”。

Learning:让计算机自动调整函数参数以拟合想要的函数的过程。

Deep:多个函数进行嵌套,构成一个多层神经网络,利用训练算法调整有效地自动调整函数参数。

简单地说深度学习就是:使用多层神经网络来进行机器学习。同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网络(deep belief networks,简称DBNs)就是一种无监督学习下的机器学习模型。

深度文章:初识深度学习

二、深度学习训练过程

1)使用自下上升非监督学习(就是从底层开始,一层一层的往顶层训练)

采用无标定数据(有标定数据也可)分层训练各层参数,这一步可以看作是一个无监督训练过程,是和传统神经网络区别最大的部分(这个过程可以看作是feature learning过程)。

具体的,先用无标定数据训练第一层,训练时先学习第一层的参数(这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层),由于模型capacity的限制以及稀疏性约束,使得得到的模型能够学习到数据本身的结构,从而得到比输入更具有表示能力的特征;在学习得到第n-1层后,将n-1层的输出作为第n层的输入,训练第n层,由此分别得到各层的参数。

2)自顶向下的监督学习(就是通过带标签的数据去训练,误差自顶向下传输,对网络进行微调)

基于第一步得到的各层参数进一步fine-tune整个多层模型的参数,这一步是一个有监督训练过程;第一步类似神经网络的随机初始化初值过程,由于DL的第一步不是随机初始化,而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果;所以deep learning效果好很大程度上归功于第一步的feature learning过程。

深度文章:初识深度学习
深度文章:初识深度学习

三、深度学习模型

深度学习模型在网络结构上与传统的神经网络相似,都是分层的网络结构。但是,深度学习采用了与传统神经网络不同的训练机制。

深度神经网络DNN

深度神经网络(Deep Neural Network)是层数很深的全连接网络,层数决定了神经网络对数据的刻画能力——利用每层更少的神经元拟合更加复杂的函数。2006年Hinton利用预训练方法缓解了局部最优解问题,将隐含层推动到了7层,揭开了深度学习的浪潮。(注意这里的“深度”并没有固定的定义——在语音识别领域,4层就认为是比较深的了;而在图像识别领域20层的模型屡见不鲜)。

优点:

更好的数据刻画能力。

缺点:

参数数量膨胀(训练开销大),没有考虑数据的固有局部特征(如图像中的轮廓、边界等等)。

深度文章:初识深度学习

卷积神经网络CNN

卷积神经网络(Convolutional Neural Network,CNN)更改了神经网络的结构,不再是全连接的结构了,大量的减少了网络的参数;同时,通过参数共享进一步减少了网络参数。它考虑到了空间结构和局部特征,非常适用于图像处理领域。

优点:

具有位移、缩放以及其他形式扭曲不变性

隐式地从训练数据中进行学习,避免了显式的特征抽取

同一特征映射面上的神经元权值相同,所以网络可以并行学习

布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度,在语音识别和图像处理方面有着独特的优越性。

深度文章:初识深度学习

循环神经网络RNN

在普通的全连接网络或者CNN中,每层神经元的信号只能向上传播,样本的处理在各个时刻独立,因此又称为前馈神经网络。而在循环神经网络(recursive neural network,RNN)中,神经元的输出可以在下一个时间戳直接作用到自身;即第i层的神经元在m时刻的输入包含i-1层在该时刻的输出以及其自身在m-1时刻的输出。在此基础上发展出了长短期记忆LSTM网络。

优点:

可以对时间序列上的变化建模,适用于处理语音、自然语言等领域 。

深度文章:初识深度学习

深度置信网络DBN

深度置信网络(deep belief networks,DBN)是一种包含多层隐单元的概率生成模型,可被视为多层简单学习模型组合而成的复合模型。可以作为深度神经网络的预训练部分,并为网络提供初始权重,再使用反向传播或者其他判定算法作为调优的手段。

深度文章:初识深度学习

四、深度学习应用

从计算机视觉到自然语言处理,在过去的几年里,深度学习技术被应用到了数以百计的实际问题中。诸多案例也已经证明,深度学习能让工作比之前做得更好。

1、计算机视觉

在计算机视觉领域,深度学习最初成功的应用是在数据降维、手写数字识别等问题中。近年来,深度学习在更广泛的计算机视觉和模式识别问题中,例如图像识别、图像去噪和修复、运动建模、动作识别、物体跟踪、视觉建模、场景分析等,展现出了有效性。一个案例是2016年,多伦多大学辛顿教授等采用深度卷积神经网络在ImageNet 图像识别竞赛中将错误率从26%降低到15%。

2、语音识别

微软研究人员通过与hinton合作,首先将RBM和DBN引入到语音识别声学模型训练中,并且在大词汇量语音识别系统中获得巨大成功,使得语音识别的错误率相对减低30%。但是,DNN还没有有效的并行快速算法,很多研究机构都是在利用大规模数据语料通过GPU平台提高DNN声学模型的训练效率。在国际上,IBM、google等公司都快速进行了DNN语音识别的研究,并且速度飞快。国内方面,阿里巴巴,科大讯飞、百度、中科院自动化所等公司或研究单位,也在进行深度学习在语音识别上的研究。

3、自然语言处理等其他领域

深度学习在自然语言处理方面也具有巨大的潜力,尽管目前的研究还没有取得像语音识别那样的突破性成果。最近,辛顿领导的研究团队基于深度学习方法从大量分子中找到可能成为药物的分子,这项成果由此获得了默克(Merck)公司赞助的一项大奖。事实上,涉及到大数据智能分析和预测的领域都可能找到深度学习的用武之地,这样的领域包括(但不局限于):互联网行为分析、文本分析、市场监测、自动控制(如无人驾驶汽车)等等。


分享到:


相關文章: