第五周（循环神经网络）第五周：循环神经网络

第五周：循环神经网络视频学习绪论
1. 循环神经网络的应用语音问答、视觉问答、机器翻译、股票预测、作词机、作诗、仿写论文及代码、图像理解
2. 循环神经网络 vs 卷积神经网络

基本组成结构

1. 基本结构

文章图片

2. 深度RNN 深度较深，特征表示能力较强。

文章图片

3. 双向RNN 同时联系上、下文信息。

文章图片

4. BPTT算法与BP算法相似，复合函数链式求导需要考虑所有与W相关的h。

文章图片

循环神经网络的变种
1. 传统RNN的问题

2. LSTM

文章图片

LSTM中“记忆”不会被新的输入覆盖（相加）。
如果前面的输入对 C~t~ 产生了影响，那这个影响会一直存在，除非遗忘门的权重为0。

小技巧：

LSTM中learning rate可以被尽量的设置小

初始化将输出门bias置为正数（1或5），这样模型刚开始训练时forget gate的值接近于1，不会发生梯度消失

3. GRU

文章图片

【第五周（循环神经网络）】解决LSTM运算复杂的问题。

GRU只有两个门：
- 重置门：控制忽略前一时刻的状态信息的程度，重置门越小说明忽略的越多
- 更新门：控制前一时刻的状态信息被带入到当前状态中的程度，更新门越大表示前一时刻的状态信息带入越多
相似：
- 从t-1到t时刻的记忆的更新都引入加法
- 可以防止梯度消失

扩展
1. 解决RNN梯度消失的其他方法

Clockwise RNN
- 把隐层分成很多组，每组有不同的循环周期，有的周期是1（同普通RNN），有的周期更长。这样距离较远的某个依赖关系就可以通过周期较长的cell少数几次循环访问到，从而网络层数不太深，更容易学到。

2. 基于attention的RNN

第五周（循环神经网络）