1LSTM 模型概述长短时记忆网络是一种深度学习方法,目前是机器学习领域中应用最广泛的模型,并在科技领域有了众多应用
在 2015 年,谷歌通过LSTM 模型大幅提升了安卓手机和其他设备中语音识别的能力,之后谷歌使用 LSTM 的范围更加广泛,它可以自动回复电子邮件,生成图像字幕 , 同 时 显 著 地 提 高 了 谷 歌 翻 译 的 质 量 ; 苹 果 的 iPhone 也 在QucikType 和 Siri 中使用了 LSTM;微软不仅将 LSTM 用于语音识别,还将这一技术用于虚拟对话形象生成和编写程序代码等等[56]LSTM 算法全称为 Longshort-termmemory,最早由 SeppHochreiter和 JurgenSchmidhuber 于 1997 年提出[57],是一种特定形式的循环神经网络(RNN,Recurrentneuralnetwork,),而循环神经网络是一系列能够处理序列数据的神经网络的总称
RNN 在处理时间序列上距离较远的节点时会发生梯度膨胀和梯度消失的问题,为了解决 RNN 的这个问题,研究人员提出基于门限的 RNN(GatedRNN),而 LSTM 就是门限 RNN中应用最广泛的一种,LSTM 通过增加输入门(InputGate),输出门(OuputGate)和遗忘门(ForgetGate),使得神经网络的权重能够自我更新,在网络模型参数固定的情况下,不同时刻的权重尺度可以动态改变,从而能够避免梯度消失或者梯度膨胀的问题
LSTM 的结构中每个时刻的隐层包含了多个记忆单元(MemoryBlocks),每个单元(Block)包含了多个记忆细胞(MemoryCell),每个记忆细胞包含一个细胞(Cell)和三个门(Gate)[58],一个基础的 LSTM 结构示例如图 5-1 所示:FargctGate其BlocOutpu