action recognition论文阅读

1.Potion
步骤:
(1)抓取每一帧每个joint的heatmaps(每一个像素点被划分为某一个joint概率的heatmap)
--》每一帧图像都得到N个heatmap(H*W), 共 T*N*H*W
(2)对每一帧每个joint的heatmaps按照时间顺序进行colorizing,可以多个通道
--》每个heatmaps*Oi(t),然后所有时刻相加, 共N*C*H*W
C=2:通道一O1(t), 通道二O2(t).C=3:通道一O1(t), 通道二O2(t),通道三O3(t).
action recognition论文阅读
文章图片

C>2: 将T帧的视频分为C-1个片段,第一个片段对前两个channel使用前述的colorization方法,其余channel=0;接着在第二个片段,对第二个和第三个channel使用同样的方式,其余channel=0;以此类推。
(3)CNN训练,输入数据为N个joint在通道上堆叠
--》共(N*C)* H * W
举例:
action recognition论文阅读
文章图片

2.Two-stream文章
步骤:
(1)RGB图像+spatial CNN(resnet)
(2)Option flow + motion CNN
(3)融合
action recognition论文阅读
文章图片

问题:
(1)option flow获取数据耗时长,数据量大
光流数据获取:
1)利用OpenCV直接获取
2)利用flownet网络获取,其中flownet2效果最好
输入图片大小(h=384,w=512),输出(384,512,2)
3. STNet
action recognition论文阅读
文章图片

步骤:
(1)super-image:n个连续的视频帧叠加成一个具有3N个通道的image
输入的视频中采样T个时序段,每个时序段包括N张连续的RGB帧,N张图片在通道上进行堆叠形成super-image为:T*3N*H*W。Super-Image中不仅仅包含单帧局部空间信息,而且也包含局部连续视频帧之间时序依赖信息。
(2)对super-image进行二维卷积以获取局部的时空关系
(3)Temporal Modeling Block:通过三维卷积以获取全局的时空特征
经过2D卷积的作用,得到T个局部时空特征图,通过这T个时空特征图建立全局的时空特征图对于理解视频是至关重要的,因此通过3D卷积实现(Conv3d-BN3d-ReLU)。为了节省计算量,3D卷积空间核size为1,时序kernel size为3。
(4)Temporal Xception Block:实现特征序列之间高效的时间建模
action recognition论文阅读
文章图片

输入的size为T*Cin,是对T个super-imags的feature map 进行全局均值池化所得到。为了建立时间关系,在时间维上进行卷积,作者将时间卷积分解为基于逐通道和逐时序的一维卷积。基于逐通道channel-wise的一维卷积,时序核大小设置为3,卷积核的数目和group设置为与输入通道数目相同。基于逐时序temporal-wise的一维卷积,时序核大小为1,group为1。

实例: 1D卷积配置(#kernel,kernel size,padding,#groups)
action recognition论文阅读
文章图片

4. I3D: Inflated 3D ConvNets
1)拓展2D卷积网到3D: 将2D转化为3D
2)将2D滤波器变为3D: 除了结构,还想提取预训练参数。视频可以通过复制图片序列得到,且视频上的pooling激活值应该与单张图片相同。由于是线性的,可以将2D滤波器沿着时间维度重复N次。这保证了相应的相同。由于图片组成的视频卷积层在时间上输出是恒定的,因此点状非线性层和average层和max pooling层和2D的一致。
3)空间、时间和网络深度接收增长: 图片中空间域自然的将x,y同等对待,在时间域上却没必要这样,(时间域上的pooling核选取有不同),这取决于帧率和图片维度之间的关系,如果相比空间域,时间域增长太快,可能破坏早期的特征检测,如果时间上增长的过慢,可能难以捕捉场景动态信息。
action recognition论文阅读
文章图片


【action recognition论文阅读】

    推荐阅读