每日模型系列(2022.07.11)

本周一共介绍了 5 个视频相关的模型:“杂食者” Omnivore、“性价比之王” TSM、“进击的纯血” TimeSformer、“回归的高手” Video Swin Tranformer、“国产之光” UniFormer。无论是崛起的新生代,还是与时俱进的 OG,总有一款模型为你所爱。图像、视频、3D 数据一把抓,不挑食的 AI 模型 Omnivore !
出品人:Towhee 技术团队
厌烦了不同数据要用不同的模型?是否想过用一个模型就能处理不同模态的数据?终于,在 2022 年初 Meta AI 推出了 “杂食者” Omnivore,一个模型搞定不同视觉模态数据,可以对图像、视频、3D数据进行分类。Omnivore 不仅兼容多种类型的数据,在不同任务的数据集上也都名列前茅。Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 精度;在用于动作识别的 Kinetics 数据集上能达到 84.1% 精度;在用于单视图3D场景分类的 SUN RGB-D 数据集上,精度也高达 67.1% 。
每日模型系列(2022.07.11)
文章图片

Omnivore: Multiple visual modalitiesOmnivore 将不同视觉模态的数据都转换成通用的向量格式,然后利用 Transformer 特有的灵活性,针对不同模态的分类任务进行联合训练。无论是从头训练,还是对预训练模型进行微调,只要使用 Omnivore 和现成的标准数据集,就能让其性能达到甚至超越对应的单模型。
参考资料:模型用例:action-classification/omnivore
论文:OMNIVORE: A Single Model for Many Visual Modalities
更多资料:Facebook AI 推出“超级模型”:搞定图像、视频和3D数据三大分类任务,性能不输独立模型
高性价比模型 TSM,用 2D 的成本达到 3D 的效果
MIT 和 IBM Watson AI Lab 联合提出一种高效的视频理解模型 TSM(Temporal Shift Module),在保留 2D 效率的同时,通过时间位移模拟 3D 建模提高模型性能。以往的模型理解视频时,需要在传统图片分析的基础上耗费大量算力补充关于时间的信息。TSM 的出现,使得低成本实现高性能视频理解模型成为可能。
每日模型系列(2022.07.11)
文章图片

TSM:Temporal shifting2D CNN 和 3D CNN是视频理解中最常用的两个方法:使用 2D CNN 模型运算量少,但会丧失部分时间信息;而使用 3D CNN 虽然效果好,但运算量极大。面对这样的情况,TSM 将时间位移模块嵌入 2D CNN,从而可以在不添加任何额外的计算量和参数的情况下,轻松的达到与 3D CNN 效果相当的视频理解能力。
参考资料:模型用例:action-classification/tsm
论文: TSM: Temporal Shift Module for Efficient Video Understanding
更多资料:视频分类 | 论文 2019 TSM: Temporal Shift Module for Efficient Video UnderstandingTSM:Temporal Shift Module for 视频理解
TimeSformer: 只靠 Transformer 就能理解视频?注意力机制的又一次进击!
【每日模型系列(2022.07.11)】Facebook AI 提出了一种 TimeSformer(Time-Space transformer)的视频理解新架构,完全基于Transformer,能够彻底摆脱 CNN!仅用三分之一的时间训练,TimeSformer 就能以十倍的速度推理,并且在多个行为识别数据集得到超群的效果。论文中使用的数据集包括 Kinetics-400,Kinetics-600、Something-Something-v2 、Diving-48 和 HowTo100M ,均验证了 TimeSformer 的高性能!
每日模型系列(2022.07.11)
文章图片

TimeSformer: Visualization of 5 space-time self-attention schemesTimeSformer 可以捕获整个视频的时间和空间依赖性。它将输入视频视为一个时空序列,由每一帧中提取的图像小块 (patches) 组成,类似 Transformer 在 NLP 中的部分用法。与现代的 3D 卷积神经网络相比,TimeSformer 不仅加速了训练过程,也大幅减少了推理时间。除此之外,由于 TimeSformer 的可拓展性,它更具发展潜力,能够处理更长的视频片段、训练更大的模型。
参考资料:模型用例:action-classification/timesformer
论文:Is Space-Time Attention All You Need for Video Understanding?
其他资料:Facebook AI 提出 TimeSformer:完全基于 Transformer 的视频理解框架TimeSformer 解析:视频理解中的transformerTimeSformer:视频理解所需的只是时空注意力吗?
ICCV 2021 的最佳论文模型 Swin Transformer 终于对视频下手了!
在去年 Swin Transformer 获得 ICCV 2021 最佳论文后,微软亚洲研究院又在今年推出了视频领域的佳作 Video Swin Transformer 。Video Swin Transformer 模型在 CVPR 2022 中性能屠榜,在动作识别和时序建模任务上都优于 ViViT、TimeSformer 等网络!该模型在 Kinetics-400 上的准确率为 84.9% top-1,在 Something-Something v2 上的准确率为 69.6% top-1。
每日模型系列(2022.07.11)
文章图片

Video Swin Transformer: an illustrated example of 3D shifted windows从图像领域拓展到视频领域,Swin Transformer 在原来的基础上引入局部性的归纳偏置,并且有效利用了预训练图像模型。与之前相比,Video Swin Transformer 即使时空分解也可以全局计算自注意力,因此能够更好地权衡速度与准确率。
参考资料:
模型用例:action-classification/video-swin-transformer
论文:Video Swin Transformer
官方说明:屠榜视频理解几大任务!微软提出:Video Swin Transformer
其他资料:视频分类利器之Video Swin Transformer
国产之光!高分时空表征学习模型 UniFormer
由中科院、国科大、上海人工智能实验室、商汤、香港中文大学几大高手联合出品,SoTA 模型 UniFormer (UNIFIED TRANSFORMER) 在主流数据集上都取得了优秀的成绩:在 Kinetics-400/Kinetics600 上取得 82.9% / 84.8% top-1 精度;在 Something-Something V1 & V2 上取得 60.9% 和 71.2% top-1 精度。其论文一经发表,就获得了高分,最终收录于 ICLR 2022(初审评分高达7.5分:8 8 6 8)。
每日模型系列(2022.07.11)
文章图片

UniFormer ArchitectureUniFormer 提出了一种整合 3D 卷积和时空自注意力机制的 Transformer 结构,能在计算量和精度之间取得平衡。不同于传统的 Transformer 结构在所有层都使用自注意力机制,论文中提出的 relation aggregator 可以分别处理视频的冗余信息和依赖信息。在浅层,aggregator 利用一个小的 learnable matrix 学习局部的关系,通过聚合小的 3D 邻域的 token 信息极大地减少计算量。在深层,aggregator通过相似性比较学习全局关系,可以灵活的建立远距离视频帧 token 之间的长程依赖关系。
参考资料:
模型用例:action-classification/video-swin-transformer
论文:UNIFORMER: UNIFIED TRANSFORMER FOR EFFICIENT SPATIOTEMPORAL REPRESENTATION LEARNING
更多资料:高分论文!UniFormer:高效时-空表征学习的统一TransformerICLR2022 UniFormer:无缝集成 Transformer,更高效的时空表征学习框架
更多项目更新及详细内容请关注我们的项目 ( https://github.com/towhee-io/...) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)
每日模型系列(2022.07.11)
文章图片

    推荐阅读