pytorch|图像分类篇（实现pytorch官网demo(LeNet)）深度学习|分类

跟着b站up主学习整理：2.1 pytorch官方demo(Lenet)_哔哩哔哩_bilibili
目录
一、CNN的雏形——LeNet网络结构
二、官网demo文件
【pytorch|图像分类篇（实现pytorch官网demo(LeNet)）】三、代码实现
1.model.py
2.train.py
3.predict.py
一、CNN的雏形——LeNet网络结构 1998年，LeCun等人发布了LeNet网络，从而揭开了深度学习的面纱，之后的深度神经网络都是在这个基础之上进行改进的，其结构如图所示。

文章图片

如图，LeNet是由卷积层、池化层、全连接层的顺序连接，网络中的每个层使用一个可微分的函数将激活数据从一层传递到另一层。

pytorch 中 tensor（也就是输入输出层）的通道排序为：[batch, channel, height, width]
pytorch中的卷积、池化、输入输出层中参数的含义与位置如下图所示：

文章图片

二、官网demo文件 pytorch官网给出的LeNet demo文件如图所示：

文章图片

model.py——定义LeNet网络模型
train.py——加载数据集并训练，训练集计算损失值loss，测试集计算accuracy，保存训练好的网络参数
predict.py——利用训练好的网络参数后，用自己找的图像进行分类测试

三、代码实现 1.model.py

# 使用torch.nn包来构建神经网络. import torch.nn as nn import torch.nn.functional as Fclass LeNet(nn.Module):# 继承于nn.Module这个父类 def __init__(self):# 初始化网络结构 super(LeNet, self).__init__()# 多继承需用到super函数 self.conv1 = nn.Conv2d(3, 16, 5) self.pool1 = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(16, 32, 5) self.pool2 = nn.MaxPool2d(2, 2) self.fc1 = nn.Linear(32*5*5, 120) self.fc2 = nn.Linear(120, 84) self.fc3 = nn.Linear(84, 10)def forward(self, x):# 正向传播过程 x = F.relu(self.conv1(x))# input(3, 32, 32) output(16, 28, 28) x = self.pool1(x)# output(16, 14, 14) x = F.relu(self.conv2(x))# output(32, 10, 10) x = self.pool2(x)# output(32, 5, 5) x = x.view(-1, 32*5*5)# output(32*5*5) x = F.relu(self.fc1(x))# output(120) x = F.relu(self.fc2(x))# output(84) x = self.fc3(x)# output(10) return x

代码中的卷积层函数Conv2d在pytorch中对应的原函数是：

torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros')

其中输入参数的解释如下：

in_channels:输入特征矩阵的深度。如输入一张RGB彩色图像，那in_channels=3
out_channels:卷积之后输出特征矩阵的深度，也就等于卷积核的个数，使用n个卷积核输出的特征矩阵深度就是n维
kernel_size:卷积核的大小。例如卷积核为3x3，则kernel_size=3
stride:卷积核的步长。默认为1.
padding:在输入的特征矩阵四周进行补零操作，默认为0
bias：是否使用偏置，默认是true

经过卷积后的输出矩阵维度大小变化的计算公式如下：

文章图片

输入图片大小为WxW（一般来说width=height)
Filter大小FxF
步长为S
padding的像素值为P

如果在卷积过程中通过上式计算得到的N不为整数时，pytorch一般会通过删除多余的行和列来保证卷积输出的矩阵尺寸N为整数。具体参考pytorch中的卷积操作详解
Tensor的展平：view()
在经过第二个池化层之后，数据还是一个三维的tensor(32,5,5)，需要先展平成(35*5*5)后再传入到全连接层，展平操作通过view()函数实现。
2.train.py 导入包

import torch import torchvision import torch.nn as nn from model import LeNet import torch.optim as optim import torchvision.transforms as transforms

数据预处理
使用transform函数对输入的图像数据进行预处理，ToTensor()将其转换为tensor。Normalize()进行标准化

transform = transforms.Compose( [transforms.ToTensor(), # transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

数据集介绍
利用torchvision.datasets函数可以在线下载导入pytorch中的数据集，包含一些常见的数据集如MNIST等。

文章图片

此demo中使用的是CIFAR10数据集，是一个经典的图像分类数据集，由Hinton的学生Alex Krizhevsky和IIya Sutskever整理的一个用于识别普适物体的小型数据集，其中包含了10个类别的RGB彩色图片。

文章图片

导入和加载训练集：

# 50000张训练图片 # 第一次使用时要将download设置为True才会自动去下载数据集 train_set = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) train_loader = torch.utils.data.DataLoader(train_set, batch_size=36, shuffle=True, num_workers=0)

导入和加载测试集：

# 10000张验证图片 # 第一次使用时要将download设置为True才会自动去下载数据集 val_set = torchvision.datasets.CIFAR10(root='./data', train=False, download=False, transform=transform) val_loader = torch.utils.data.DataLoader(val_set, batch_size=10000, shuffle=False, num_workers=0)

文章图片
训练过程参数：

名词	定义
epoch	1个epoch表示过了1遍训练集中的所有样本
iteration	表示1次迭代，每次迭代更新1次网络结构的参数
batch_size	将训练集分成多个批次训练，每批数据的大小为 batch_size，即1次迭代所使用的样本量

以本demo为例，训练集一共有50000个样本，batch_size=50，那么完整的训练一次样本：iteration=1000 。训练过程代码如下：

net = LeNet()# 定义训练的网络模型 loss_function = nn.CrossEntropyLoss()# 定义损失函数为交叉熵损失函数 optimizer = optim.Adam(net.parameters(), lr=0.001)# 定义优化器（训练参数，学习率）for epoch in range(5):# 一个epoch即对整个训练集进行一次训练 running_loss = 0.0 time_start = time.perf_counter()for step, data in enumerate(train_loader, start=0):# 遍历训练集，step从0开始计算 inputs, labels = data# 获取训练集的图像和标签 optimizer.zero_grad()# 清除历史梯度# forward + backward + optimize outputs = net(inputs)# 正向传播 loss = loss_function(outputs, labels) # 计算损失 loss.backward()# 反向传播 optimizer.step()# 优化器更新参数# 打印耗时、损失、准确率等数据 running_loss += loss.item() if step % 1000 == 999:# print every 1000 mini-batches，每1000步打印一次 with torch.no_grad(): # 在以下步骤中（验证过程中）不用计算每个节点的损失梯度，防止内存占用 outputs = net(test_image)# 测试集传入网络（test_batch_size=10000），output维度为[10000,10] predict_y = torch.max(outputs, dim=1)[1] # 以output中值最大位置对应的索引（标签）作为预测输出 accuracy = (predict_y == test_label).sum().item() / test_label.size(0)print('[%d, %5d] train_loss: %.3ftest_accuracy: %.3f' %# 打印epoch，step，loss，accuracy (epoch + 1, step + 1, running_loss / 500, accuracy))print('%f s' % (time.perf_counter() - time_start))# 打印耗时 running_loss = 0.0print('Finished Training')# 保存训练得到的参数 save_path = './Lenet.pth' torch.save(net.state_dict(), save_path)

训练时间花费12分钟左右，训练结果：

文章图片

3.predict.py

import torch import torchvision.transforms as transforms from PIL import Image from model import LeNetdef main(): transform = transforms.Compose( [transforms.Resize((32, 32)), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')net = LeNet() # 初始化 net.load_state_dict(torch.load('Lenet.pth'))#载入训练好的权重文件im = Image.open('1.jpg') im = transform(im)# [C, H, W] im = torch.unsqueeze(im, dim=0)# [N, C, H, W]with torch.no_grad(): outputs = net(im) #predict = torch.max(outputs, dim=1)[1].data.numpy() # print(classes[int(predict)]) predict = torch.softmax(outputs, dim=1) print(predict)if __name__ == '__main__': main()

测试图片：