深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)

1 为什么要引入反向传播算法? 在之前的学习中,我们仅仅学习了只有一层的神经网络的计算,例如模型函数为深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片
,在使用梯度下降算法进行训练的时候,很轻松就可以利用求导公式计算出深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片

但是在神经网络中不可能仅仅只有一层,神经网络就像我们大脑的神经系统,由很多层攀枝交错,经过多层函数的嵌套,不断的使我们训练的函数逼近真实的函数。如图所示是一个多层神经网络的示例图。
深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片

经过多层的嵌套,参数数量不断增加,我们很难利用求导公式直接求出深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片
。所以这时我们引入反向传播算法。
2 反向传播算法原理 反向传播算法就类似于我们高数中所学的复合函数求导,例如两层的神经网络,就类似于两层的复合函数深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片
,这时求深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片
对x的导数,就可以先计算深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片
,再计算深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片
,两数相乘就计算出了深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片
。如图所示是反向传播算法的计算原理(先前馈,后反馈):
深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片

【深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)】此模型的计算图如下图所示:
深度学习——反向传播算法及代码实例(B站刘二大人P4学习笔记)
文章图片


3 代码实例

import torchx_data = https://www.it610.com/article/[1.0, 2.0, 3.0] y_data = [2.0, 4.0, 6.0]# torch.Tensor()生成新的张量 w = torch.Tensor([1.0]) # 是否需要计算梯度?——True w.requires_grad = Truedef forward(x): return x * wdef loss(x, y): y_pred = forward(x) return (y_pred - y) ** 2# .item()的作用主要是把数据从tensor取出来,变成python的数据类型 print("训练前的预测是", 4, forward(4).item()) for epoch in range(100): for x, y in zip(x_data, y_data): l = loss(x, y) # 利用PyTorch的反向传播函数求梯度 l.backward() # 这里是数值计算,w一定要取data值,tensor做加法运算会构建运算图,消耗内存 print('\tgrad:', x, y, w.grad.item()) w.data = https://www.it610.com/article/w.data - 0.01 * w.grad.data# 每次反向传播的数据要清零 w.grad.data.zero_() print("progress:", epoch, l.item()) print("训练之后的预测值是", 4, forward(4).item())

注意:1、torch.Tensor()作用是生成新的张量
2、w.requires_grad = True意思是:是否需要计算梯度?——True
3、.item()的作用主要是把数据从tensor取出来,变成python的数据类型
4、.backward()函数:反向传播求梯度
5、w一定要取data值进行数值计算,tensor做加法运算会构建运算图,消耗内存
6、w.grad.data.zero_(): 每次反向传播的数据要清零,否则梯度值是每次计算相加的总额


    推荐阅读