#|深度学习100例 | 第24天-卷积神经网络（Xception）（动物识别）《深度学习100例》|神经网络

大家好，我是『K同学啊』！
之前写了一篇名为「多图」图解10大CNN架构的文章后，发现有些模型在我们的《深度学习100例》中并未介绍，后来不是说填坑嘛，之前已经写一篇深度学习100例-卷积神经网络（LeNet-5）深度学习里的“Hello Word” | 第22天来填补LeNet-5的坑。今天继续写一篇关于Xception模型的实例，实现了四种动物（狗、猫、鸡、马）的识别分类。希望大家多多支持，点赞、收藏、评论。
本文的重点是：

Xception模型的搭建
深度可分离卷积

文章目录

一、前期工作
- 1. 设置GPU
- 2. 导入数据
- 3. 查看数据
二、数据预处理
- 1. 加载数据
- 3. 再次检查数据
- 4. 配置数据集
三、构建模型
- 1. 深度可分离卷积
- 2. 构建Xception模型
四、设置动态学习率
五、编译
六、训练模型
七、模型评估
- 1. Accuracy与Loss图
- 2. 混淆矩阵
八、保存and加载模型

一、前期工作我的环境：

语言环境：Python3.6.5
编译器：jupyter notebook
深度学习环境：TensorFlow2.4.1
数据和代码：【传送门】

本文选自专栏：《深度学习100例》
深度学习新人必看：《小白入门深度学习》

小白入门深度学习 | 第一篇：配置深度学习环境
小白入门深度学习 | 第二篇：编译器的使用-Jupyter Notebook
小白入门深度学习 | 第三篇：深度学习初体验
小白入门深度学习 | 第四篇：配置PyTorch环境

往期精彩-卷积神经网络篇：

深度学习100例-卷积神经网络（CNN）实现mnist手写数字识别 | 第1天
深度学习100例-卷积神经网络（CNN）彩色图片分类 | 第2天
深度学习100例-卷积神经网络（CNN）服装图像分类 | 第3天
深度学习100例-卷积神经网络（CNN）花朵识别 | 第4天
深度学习100例-卷积神经网络（CNN）天气识别 | 第5天
深度学习100例-卷积神经网络（VGG-16）识别海贼王草帽一伙 | 第6天
深度学习100例-卷积神经网络（VGG-19）识别灵笼中的人物 | 第7天
深度学习100例-卷积神经网络（ResNet-50）鸟类识别 | 第8天
深度学习100例-卷积神经网络（AlexNet）手把手教学 | 第11天
深度学习100例-卷积神经网络（CNN）识别验证码 | 第12天
深度学习100例-卷积神经网络（Inception V3）识别手语 | 第13天
深度学习100例-卷积神经网络（Inception-ResNet-v2）识别交通标志 | 第14天
深度学习100例-卷积神经网络（CNN）实现车牌识别 | 第15天
深度学习100例-卷积神经网络（CNN）识别神奇宝贝小智一伙 | 第16天
深度学习100例-卷积神经网络（CNN）注意力检测 | 第17天
深度学习100例-卷积神经网络（VGG-16）猫狗识别 | 第21天
深度学习100例-卷积神经网络（LeNet-5）深度学习里的“Hello Word” | 第22天
深度学习100例-卷积神经网络（CNN）3D医疗影像识别 | 第23天

往期精彩-循环神经网络篇：

深度学习100例-循环神经网络（RNN）实现股票预测 | 第9天
深度学习100例-循环神经网络（LSTM）实现股票预测 | 第10天

往期精彩-生成对抗网络篇：

深度学习100例-生成对抗网络（GAN）手写数字生成 | 第18天
深度学习100例-生成对抗网络（DCGAN）手写数字生成 | 第19天
深度学习100例-生成对抗网络（DCGAN）生成动漫小姐姐 | 第20天

1. 设置GPU 如果使用的是CPU可以注释掉这部分的代码。

import tensorflow as tfgpus = tf.config.list_physical_devices("GPU")if gpus: tf.config.experimental.set_memory_growth(gpus[0], True)#设置GPU显存用量按需使用 tf.config.set_visible_devices([gpus[0]],"GPU")# 打印显卡信息，确认GPU可用 print(gpus)

[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]

2. 导入数据

import matplotlib.pyplot as plt # 支持中文 plt.rcParams['font.sans-serif'] = ['SimHei']# 用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False# 用来正常显示负号import os,PIL# 设置随机种子尽可能使结果可以重现 import numpy as np np.random.seed(1)# 设置随机种子尽可能使结果可以重现 import tensorflow as tf tf.random.set_seed(1)import pathlib

data_dir = "./data"data_dir = pathlib.Path(data_dir)

3. 查看数据

image_count = len(list(data_dir.glob('*/*')))print("图片总数为：",image_count)

图片总数为： 4000

二、数据预处理 1. 加载数据使用image_dataset_from_directory方法将磁盘中的数据加载到tf.data.Dataset中

batch_size = 2 img_height = 299 img_width= 299

TensorFlow版本是2.2.0的同学可能会遇到module 'tensorflow.keras.preprocessing' has no attribute 'image_dataset_from_directory'的报错，升级一下TensorFlow就OK了。

""" 关于image_dataset_from_directory()的详细介绍可以参考文章：https://mtyjkh.blog.csdn.net/article/details/117018789 """ train_ds = tf.keras.preprocessing.image_dataset_from_directory( data_dir, validation_split=0.2, subset="training", seed=12, image_size=(img_height, img_width), batch_size=batch_size)

Found 4000 files belonging to 4 classes. Using 3200 files for training.

""" 关于image_dataset_from_directory()的详细介绍可以参考文章：https://mtyjkh.blog.csdn.net/article/details/117018789 """ val_ds = tf.keras.preprocessing.image_dataset_from_directory( data_dir, validation_split=0.2, subset="validation", seed=12, image_size=(img_height, img_width), batch_size=batch_size)

Found 4000 files belonging to 4 classes. Using 800 files for validation.

我们可以通过class_names输出数据集的标签。标签将按字母顺序对应于目录名称。

class_names = train_ds.class_names print(class_names)

['cat', 'chook', 'dog', 'horse']

3. 再次检查数据

for image_batch, labels_batch in train_ds: print(image_batch.shape) print(labels_batch.shape) break

(2, 299, 299, 3) (2,)

Image_batch是形状的张量（2, 299, 299, 3)。这是一批形状240x240x3的8张图片（最后一维指的是彩色通道RGB）。
Label_batch是形状（8，）的张量，这些标签对应8张图片

4. 配置数据集

shuffle() ：打乱数据，关于此函数的详细介绍可以参考：https://zhuanlan.zhihu.com/p/42417456
prefetch() ：预取数据，加速运行，其详细介绍可以参考我前两篇文章，里面都有讲解。
cache() ：将数据集缓存到内存当中，加速运行

AUTOTUNE = tf.data.AUTOTUNEtrain_ds = ( train_ds.cache() .shuffle(1000) #.map(train_preprocessing)# 这里可以设置预处理函数 #.batch(batch_size)# 在image_dataset_from_directory处已经设置了batch_size .prefetch(buffer_size=AUTOTUNE) )val_ds = ( val_ds.cache() .shuffle(1000) #.map(val_preprocessing)# 这里可以设置预处理函数 #.batch(batch_size)# 在image_dataset_from_directory处已经设置了batch_size .prefetch(buffer_size=AUTOTUNE) )

三、构建模型 Xception是谷歌公司继Inception后，提出的InceptionV3的一种改进模型，其中Inception模块已被深度可分离卷积（depthwise separable convolution）替换。它与Inception-v1（23M）的参数数量大致相同。

#|深度学习100例 | 第24天-卷积神经网络（Xception）（动物识别）

文章图片

1. 深度可分离卷积深度可分离卷积其实是一种可分解卷积操作（factorized convolutions）。其可以分解为两个更小的操作：depthwise convolution 和 pointwise convolution。

文章图片

（1）标准卷积
下面先学习标准的卷积操作：

文章图片

输入一个12123的一个输入特征图，经过 553的卷积核得到一个881的输出特征图。如果我们此时有256个卷积核，我们将会得到一个88256的输出特征图。
以上就是标准卷积做的活，那么深度卷积和逐点卷积呢？
（2）深度卷积

文章图片

与标准卷积网络不一样的是，这里会将卷积核拆分成单通道形式，在不改变输入特征图像的深度的情况下，对每一通道进行卷积操作，这样就得到了和输入特征图通道数一致的输出特征图。如上图，输入12x12x3 的特征图，经过5x5x1x3的深度卷积之后，得到了8x8x3的输出特征图。输入和输出的维度是不变的3，这样就会有一个问题，通道数太少，特征图的维度太少，能获得足够的有效信息吗?
(3)逐点卷积
逐点卷积就是1*1卷积，主要作用就是对特征图进行升维和降维，如下图：

文章图片

在深度卷积的过程中，我们得到了8x8x3的输出特征图，我们用256个1x1x3的卷积核对输入特征图进行卷积操作，输出的特征图和标准的卷积操作一样都是8x8x256了。
标准卷积与深度可分离卷积的过程对比如下：

文章图片

(4)为什么要用深度可分离卷积？
深度可分离卷积可以实现更少的参数，更少的运算量。
2. 构建Xception模型

#====================================# #Xception的网络部分 #====================================# from tensorflow.keras.preprocessing import imagefrom tensorflow.keras.models import Model from tensorflow.keras import layers from tensorflow.keras.layers import Dense,Input,BatchNormalization,Activation,Conv2D,SeparableConv2D,MaxPooling2D from tensorflow.keras.layers import GlobalAveragePooling2D,GlobalMaxPooling2D from tensorflow.keras import backend as K from tensorflow.keras.applications.imagenet_utils import decode_predictionsdef Xception(input_shape = [299,299,3],classes=1000):img_input = Input(shape=input_shape)#=================# #Entry flow #=================# #block1 # 299,299,3 -> 149,149,64 x = Conv2D(32, (3, 3), strides=(2, 2), use_bias=False, name='block1_conv1')(img_input) x = BatchNormalization(name='block1_conv1_bn')(x) x = Activation('relu', name='block1_conv1_act')(x) x = Conv2D(64, (3, 3), use_bias=False, name='block1_conv2')(x) x = BatchNormalization(name='block1_conv2_bn')(x) x = Activation('relu', name='block1_conv2_act')(x)# block2 # 149,149,64 -> 75,75,128 residual = Conv2D(128, (1, 1), strides=(2, 2), padding='same', use_bias=False)(x) residual = BatchNormalization()(residual)x = SeparableConv2D(128, (3, 3), padding='same', use_bias=False, name='block2_sepconv1')(x) x = BatchNormalization(name='block2_sepconv1_bn')(x) x = Activation('relu', name='block2_sepconv2_act')(x) x = SeparableConv2D(128, (3, 3), padding='same', use_bias=False, name='block2_sepconv2')(x) x = BatchNormalization(name='block2_sepconv2_bn')(x)x = MaxPooling2D((3, 3), strides=(2, 2), padding='same', name='block2_pool')(x) x = layers.add([x, residual])# block3 # 75,75,128 -> 38,38,256 residual = Conv2D(256, (1, 1), strides=(2, 2),padding='same', use_bias=False)(x) residual = BatchNormalization()(residual)x = Activation('relu', name='block3_sepconv1_act')(x) x = SeparableConv2D(256, (3, 3), padding='same', use_bias=False, name='block3_sepconv1')(x) x = BatchNormalization(name='block3_sepconv1_bn')(x) x = Activation('relu', name='block3_sepconv2_act')(x) x = SeparableConv2D(256, (3, 3), padding='same', use_bias=False, name='block3_sepconv2')(x) x = BatchNormalization(name='block3_sepconv2_bn')(x)x = MaxPooling2D((3, 3), strides=(2, 2), padding='same', name='block3_pool')(x) x = layers.add([x, residual])# block4 # 38,38,256 -> 19,19,728 residual = Conv2D(728, (1, 1), strides=(2, 2),padding='same', use_bias=False)(x) residual = BatchNormalization()(residual)x = Activation('relu', name='block4_sepconv1_act')(x) x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False, name='block4_sepconv1')(x) x = BatchNormalization(name='block4_sepconv1_bn')(x) x = Activation('relu', name='block4_sepconv2_act')(x) x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False, name='block4_sepconv2')(x) x = BatchNormalization(name='block4_sepconv2_bn')(x)x = MaxPooling2D((3, 3), strides=(2, 2), padding='same', name='block4_pool')(x) x = layers.add([x, residual])#=================# # Middle flow #=================# # block5--block12 # 19,19,728 -> 19,19,728 for i in range(8): residual = x prefix = 'block' + str(i + 5)x = Activation('relu', name=prefix + '_sepconv1_act')(x) x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False, name=prefix + '_sepconv1')(x) x = BatchNormalization(name=prefix + '_sepconv1_bn')(x) x = Activation('relu', name=prefix + '_sepconv2_act')(x) x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False, name=prefix + '_sepconv2')(x) x = BatchNormalization(name=prefix + '_sepconv2_bn')(x) x = Activation('relu', name=prefix + '_sepconv3_act')(x) x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False, name=prefix + '_sepconv3')(x) x = BatchNormalization(name=prefix + '_sepconv3_bn')(x)x = layers.add([x, residual])#=================# #Exit flow #=================# # block13 # 19,19,728 -> 10,10,1024 residual = Conv2D(1024, (1, 1), strides=(2, 2), padding='same', use_bias=False)(x) residual = BatchNormalization()(residual)x = Activation('relu', name='block13_sepconv1_act')(x) x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False, name='block13_sepconv1')(x) x = BatchNormalization(name='block13_sepconv1_bn')(x) x = Activation('relu', name='block13_sepconv2_act')(x) x = SeparableConv2D(1024, (3, 3), padding='same', use_bias=False, name='block13_sepconv2')(x) x = BatchNormalization(name='block13_sepconv2_bn')(x)x = MaxPooling2D((3, 3), strides=(2, 2), padding='same', name='block13_pool')(x) x = layers.add([x, residual])# block14 # 10,10,1024 -> 10,10,2048 x = SeparableConv2D(1536, (3, 3), padding='same', use_bias=False, name='block14_sepconv1')(x) x = BatchNormalization(name='block14_sepconv1_bn')(x) x = Activation('relu', name='block14_sepconv1_act')(x)x = SeparableConv2D(2048, (3, 3), padding='same', use_bias=False, name='block14_sepconv2')(x) x = BatchNormalization(name='block14_sepconv2_bn')(x) x = Activation('relu', name='block14_sepconv2_act')(x)x = GlobalAveragePooling2D(name='avg_pool')(x) x = Dense(classes, activation='softmax', name='predictions')(x)inputs = img_inputmodel = Model(inputs, x, name='xception')return model

model = Xception() # 打印模型信息 model.summary()

Model: "xception" __________________________________________________________________________________________________ Layer (type)Output ShapeParam #Connected to ================================================================================================== input_1 (InputLayer)[(None, 299, 299, 3) 0 __________________________________________________________________________________________________ block1_conv1 (Conv2D)(None, 149, 149, 32) 864input_1[0][0] __________________________________________________________________________________________________ block1_conv1_bn (BatchNormaliza (None, 149, 149, 32) 128block1_conv1[0][0] __________________________________________________________________________________________________ ...... __________________________________________________________________________________________________ block14_sepconv2 (SeparableConv (None, 10, 10, 2048) 3159552block14_sepconv1_act[0][0] __________________________________________________________________________________________________ block14_sepconv2_bn (BatchNorma (None, 10, 10, 2048) 8192block14_sepconv2[0][0] __________________________________________________________________________________________________ block14_sepconv2_act (Activatio (None, 10, 10, 2048) 0block14_sepconv2_bn[0][0] __________________________________________________________________________________________________ avg_pool (GlobalAveragePooling2 (None, 2048)0block14_sepconv2_act[0][0] __________________________________________________________________________________________________ predictions (Dense)(None, 1000)2049000avg_pool[0][0] ================================================================================================== Total params: 22,910,480 Trainable params: 22,855,952 Non-trainable params: 54,528 __________________________________________________________________________________________________

四、设置动态学习率这里先罗列一下学习率大与学习率小的优缺点。

学习率大
- 优点：
  1、加快学习速率。
  2、有助于跳出局部最优值。
- 缺点：
  1、导致模型训练不收敛。
  2、单单使用大学习率容易导致模型不精确。
学习率小
- 优点：
  1、有助于模型收敛、模型细化。
  2、提高模型精度。
- 缺点：
  1、很难跳出局部最优值。
  2、收敛缓慢。

注意：这里设置的动态学习率为：指数衰减型（ExponentialDecay）。在每一个epoch开始前，学习率（learning_rate）都将会重置为初始学习率（initial_learning_rate），然后再重新开始衰减。计算公式如下：

learning_rate = initial_learning_rate * decay_rate ^ (step / decay_steps)

# 设置初始学习率 initial_learning_rate = 1e-4lr_schedule = tf.keras.optimizers.schedules.ExponentialDecay( initial_learning_rate, decay_steps=300,# 敲黑板！！！这里是指 steps，不是指epochs decay_rate=0.96,# lr经过一次衰减就会变成 decay_rate*lr staircase=True)# 将指数衰减学习率送入优化器 optimizer = tf.keras.optimizers.Adam(learning_rate=lr_schedule)

五、编译在准备对模型进行训练之前，还需要再对其进行一些设置。以下内容是在模型的编译步骤中添加的：

优化器（optimizer）：决定模型如何根据其看到的数据和自身的损失函数进行更新。
损失函数（loss）：用于估量预测值与真实值的不一致程度。
评价函数（metrics）：用于监控训练和测试步骤。以下示例使用了准确率，即被正确分类的图像的比率。

model.compile(optimizer=optimizer, loss='sparse_categorical_crossentropy', metrics=['accuracy'])

六、训练模型

epochs = 15history = model.fit( train_ds, validation_data=https://www.it610.com/article/val_ds, epochs=epochs )

Epoch 1/15 1600/1600 [==============================] - 90s 52ms/step - loss: 1.4092 - accuracy: 0.4022 - val_loss: 1.6745 - val_accuracy: 0.4575 Epoch 2/15 1600/1600 [==============================] - 82s 52ms/step - loss: 0.9802 - accuracy: 0.5900 - val_loss: 0.9004 - val_accuracy: 0.6438 Epoch 3/15 1600/1600 [==============================] - 84s 53ms/step - loss: 0.6793 - accuracy: 0.7350 - val_loss: 0.7429 - val_accuracy: 0.7075 Epoch 4/15 1600/1600 [==============================] - 83s 52ms/step - loss: 0.3124 - accuracy: 0.9022 - val_loss: 0.8336 - val_accuracy: 0.6737 Epoch 5/15 1600/1600 [==============================] - 83s 52ms/step - loss: 0.1679 - accuracy: 0.9528 - val_loss: 0.7033 - val_accuracy: 0.7538 Epoch 6/15 1600/1600 [==============================] - 82s 51ms/step - loss: 0.0629 - accuracy: 0.9887 - val_loss: 0.7681 - val_accuracy: 0.7163 Epoch 7/15 1600/1600 [==============================] - 82s 51ms/step - loss: 0.0271 - accuracy: 0.9956 - val_loss: 0.7099 - val_accuracy: 0.7513 Epoch 8/15 1600/1600 [==============================] - 82s 51ms/step - loss: 0.0110 - accuracy: 0.9984 - val_loss: 0.7282 - val_accuracy: 0.7312 Epoch 9/15 1600/1600 [==============================] - 83s 52ms/step - loss: 0.0036 - accuracy: 1.0000 - val_loss: 0.7635 - val_accuracy: 0.7588 Epoch 10/15 1600/1600 [==============================] - 82s 51ms/step - loss: 0.0015 - accuracy: 1.0000 - val_loss: 0.7716 - val_accuracy: 0.7675 Epoch 11/15 1600/1600 [==============================] - 82s 51ms/step - loss: 8.3236e-04 - accuracy: 1.0000 - val_loss: 0.8014 - val_accuracy: 0.7638 Epoch 12/15 1600/1600 [==============================] - 83s 52ms/step - loss: 4.7407e-04 - accuracy: 1.0000 - val_loss: 0.8212 - val_accuracy: 0.7575 Epoch 13/15 1600/1600 [==============================] - 83s 52ms/step - loss: 2.6988e-04 - accuracy: 1.0000 - val_loss: 0.8443 - val_accuracy: 0.7563 Epoch 14/15 1600/1600 [==============================] - 82s 51ms/step - loss: 1.5524e-04 - accuracy: 1.0000 - val_loss: 0.8707 - val_accuracy: 0.7550 Epoch 15/15 1600/1600 [==============================] - 83s 52ms/step - loss: 9.0777e-05 - accuracy: 1.0000 - val_loss: 0.9037 - val_accuracy: 0.7575

七、模型评估 1. Accuracy与Loss图

acc = history.history['accuracy'] val_acc = history.history['val_accuracy']loss = history.history['loss'] val_loss = history.history['val_loss']epochs_range = range(epochs)plt.figure(figsize=(12, 4)) plt.subplot(1, 2, 1)plt.plot(epochs_range, acc, label='Training Accuracy') plt.plot(epochs_range, val_acc, label='Validation Accuracy') plt.legend(loc='lower right') plt.title('Training and Validation Accuracy')plt.subplot(1, 2, 2) plt.plot(epochs_range, loss, label='Training Loss') plt.plot(epochs_range, val_loss, label='Validation Loss') plt.legend(loc='upper right') plt.title('Training and Validation Loss') plt.show()

文章图片

2. 混淆矩阵 Seaborn 是一个画图库，它基于 Matplotlib 核心库进行了更高阶的 API 封装，可以让你轻松地画出更漂亮的图形。Seaborn 的漂亮主要体现在配色更加舒服、以及图形元素的样式更加细腻。

from sklearn.metrics import confusion_matrix import seaborn as sns import pandas as pd# 定义一个绘制混淆矩阵图的函数 def plot_cm(labels, predictions):# 生成混淆矩阵 conf_numpy = confusion_matrix(labels, predictions) # 将矩阵转化为 DataFrame conf_df = pd.DataFrame(conf_numpy, index=class_names ,columns=class_names)plt.figure(figsize=(8,7))sns.heatmap(conf_df, annot=True, fmt="d", cmap="BuPu")plt.title('混淆矩阵',fontsize=15) plt.ylabel('真实值',fontsize=14) plt.xlabel('预测值',fontsize=14)

val_pre= [] val_label = []for images, labels in val_ds:#这里可以取部分验证数据（.take(1)）生成混淆矩阵 for image, label in zip(images, labels): # 需要给图片增加一个维度 img_array = tf.expand_dims(image, 0) # 使用模型预测图片中的人物 prediction = model.predict(img_array)val_pre.append(class_names[np.argmax(prediction)]) val_label.append(class_names[label])

plot_cm(val_label, val_pre)

文章图片

八、保存and加载模型这是最简单的模型保存与加载方法哈

# 保存模型 model.save('model/24_model.h5')

c:\users\administrator\appdata\local\programs\python\python36\lib\site-packages\tensorflow\python\keras\utils\generic_utils.py:497: CustomMaskWarning: Custom mask layers require a config and must override get_config. When loading, the custom mask layer must be passed to the custom_objects argument. category=CustomMaskWarning)