先说结论:在CNN中,没有放缩和旋转的功能。
1. 什么是Spatial Transformer Layer 【深度学习—— Spatial Transformer Layer】因为有pooling层的原因,所以有一点translation的功能。在下图中,通常情况下左右两个对于CNN来说是不一样的。
文章图片
那么,Spatial Transformer Layer的功能是,想要学习一个层,能够对左图中的图片进行旋转和缩放。
文章图片
2. How to work? 学习过程中,平移本质上来说就是调整权重的过程。
文章图片
上图中,权重相同的颜色代表相同的权值。其目标是进行向下平移,具体公式如下:
文章图片
举个栗子:
文章图片
- 向下平移:把 a l 3 l ? 1 a_{l3}^{l-1} al3l?1?移动到 a l 23 a_{l}^{23} al23?的位置,此时, a l 23 a_{l}^{23} al23?与 a l 3 l ? 1 a_{l3}^{l-1} al3l?1?相对应, a l 23 a_{l}^{23} al23?与左图中其他位置的连接权重均为0
- 向右旋转:把 a l 3 l ? 1 a_{l3}^{l-1} al3l?1?移动到 a l 33 a_{l}^{33} al33?的位置,此时, a l 33 a_{l}^{33} al33?与 a l 3 l ? 1 a_{l3}^{l-1} al3l?1?相对应, a l 33 a_{l}^{33} al33?与左图中其他位置的连接权重均为0
通过一个全连接层实现:
文章图片
2.1.1 对图片进行平移:
文章图片
首先把图片中的每一个像素坐标化,矩阵
[ 2 2 2 2 ] \begin{bmatrix} 2 &2 \\ 2 &2 \end{bmatrix} [22?22?]
的作用是将其放大,
[ 0 0 ] \begin{bmatrix} 0 \\ 0 \end{bmatrix} [00?]的作用是控制其是否进行平移操作。
2.1.2 对图片进行缩小
文章图片
2.1.3 对图片进行旋转
文章图片
综上,Spatial Transformer Layer需要六个参数
文章图片
但是,实际上在计算的过程中,如果 a , b , c , d , e , f a,b,c,d,e,f a,b,c,d,e,f的值如果是小数呢?在这样的情况下是没有办法进行可微分的操作的。因此,需要采用一种方法Interpolation操作。
文章图片
推荐阅读
- 机器学习|关于权重衰退和丢弃法
- #PyTorch|【PyTorch笔记】60分钟入门PyTorch——自动求导autograd
- 论文笔记|深度学习-数据增强总结
- tensorflow|四. softmax多分类
- Keras|五 softmax多分类实例
- Unity3D|Unity3D ML-Agent-0.8.1 学习一(基础教程)
- 机器学习|无源域适应(SFDA)方向的领域探究和论文复现(第二部分)
- 深度学习|深度学习-视频行为识别(论文阅读——双流网络(Two-stream convolutional networks for action recognition in videos))
- 深度学习之医学图像分割论文|[深度学习论文笔记]使用多模态MR成像分割脑肿瘤的HNF-Netv2