每日模型系列（2022.07.11）数据库人工智能

本周一共介绍了 5 个视频相关的模型：“杂食者” Omnivore、“性价比之王” TSM、“进击的纯血” TimeSformer、“回归的高手” Video Swin Tranformer、“国产之光” UniFormer。无论是崛起的新生代，还是与时俱进的 OG，总有一款模型为你所爱。图像、视频、3D 数据一把抓，不挑食的 AI 模型 Omnivore ！
出品人：Towhee 技术团队
厌烦了不同数据要用不同的模型？是否想过用一个模型就能处理不同模态的数据？终于，在 2022 年初 Meta AI 推出了 “杂食者” Omnivore，一个模型搞定不同视觉模态数据，可以对图像、视频、3D数据进行分类。Omnivore 不仅兼容多种类型的数据，在不同任务的数据集上也都名列前茅。Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 精度；在用于动作识别的 Kinetics 数据集上能达到 84.1% 精度；在用于单视图3D场景分类的 SUN RGB-D 数据集上，精度也高达 67.1% 。

文章图片

Omnivore: Multiple visual modalitiesOmnivore 将不同视觉模态的数据都转换成通用的向量格式，然后利用 Transformer 特有的灵活性，针对不同模态的分类任务进行联合训练。无论是从头训练，还是对预训练模型进行微调，只要使用 Omnivore 和现成的标准数据集，就能让其性能达到甚至超越对应的单模型。
参考资料：模型用例：action-classification/omnivore
论文：OMNIVORE: A Single Model for Many Visual Modalities
更多资料：Facebook AI 推出“超级模型”：搞定图像、视频和3D数据三大分类任务，性能不输独立模型
高性价比模型 TSM，用 2D 的成本达到 3D 的效果
MIT 和 IBM Watson AI Lab 联合提出一种高效的视频理解模型 TSM（Temporal Shift Module），在保留 2D 效率的同时，通过时间位移模拟 3D 建模提高模型性能。以往的模型理解视频时，需要在传统图片分析的基础上耗费大量算力补充关于时间的信息。TSM 的出现，使得低成本实现高性能视频理解模型成为可能。

文章图片

TSM：Temporal shifting2D CNN 和 3D CNN是视频理解中最常用的两个方法：使用 2D CNN 模型运算量少，但会丧失部分时间信息；而使用 3D CNN 虽然效果好，但运算量极大。面对这样的情况，TSM 将时间位移模块嵌入 2D CNN，从而可以在不添加任何额外的计算量和参数的情况下，轻松的达到与 3D CNN 效果相当的视频理解能力。
参考资料：模型用例：action-classification/tsm
论文: TSM: Temporal Shift Module for Efficient Video Understanding
更多资料：视频分类 | 论文 2019 TSM: Temporal Shift Module for Efficient Video UnderstandingTSM：Temporal Shift Module for 视频理解
TimeSformer: 只靠 Transformer 就能理解视频？注意力机制的又一次进击！
【每日模型系列（2022.07.11）】Facebook AI 提出了一种 TimeSformer（Time-Space transformer）的视频理解新架构，完全基于Transformer，能够彻底摆脱 CNN！仅用三分之一的时间训练，TimeSformer 就能以十倍的速度推理，并且在多个行为识别数据集得到超群的效果。论文中使用的数据集包括 Kinetics-400，Kinetics-600、Something-Something-v2 、Diving-48 和 HowTo100M ，均验证了 TimeSformer 的高性能！

文章图片

TimeSformer: Visualization of 5 space-time self-attention schemesTimeSformer 可以捕获整个视频的时间和空间依赖性。它将输入视频视为一个时空序列，由每一帧中提取的图像小块 (patches) 组成，类似 Transformer 在 NLP 中的部分用法。与现代的 3D 卷积神经网络相比，TimeSformer 不仅加速了训练过程，也大幅减少了推理时间。除此之外，由于 TimeSformer 的可拓展性，它更具发展潜力，能够处理更长的视频片段、训练更大的模型。
参考资料：模型用例：action-classification/timesformer
论文：Is Space-Time Attention All You Need for Video Understanding?
其他资料：Facebook AI 提出 TimeSformer：完全基于 Transformer 的视频理解框架TimeSformer 解析：视频理解中的transformerTimeSformer：视频理解所需的只是时空注意力吗？
ICCV 2021 的最佳论文模型 Swin Transformer 终于对视频下手了！
在去年 Swin Transformer 获得 ICCV 2021 最佳论文后，微软亚洲研究院又在今年推出了视频领域的佳作 Video Swin Transformer 。Video Swin Transformer 模型在 CVPR 2022 中性能屠榜，在动作识别和时序建模任务上都优于 ViViT、TimeSformer 等网络！该模型在 Kinetics-400 上的准确率为 84.9% top-1，在 Something-Something v2 上的准确率为 69.6% top-1。

文章图片

Video Swin Transformer: an illustrated example of 3D shifted windows从图像领域拓展到视频领域，Swin Transformer 在原来的基础上引入局部性的归纳偏置，并且有效利用了预训练图像模型。与之前相比，Video Swin Transformer 即使时空分解也可以全局计算自注意力，因此能够更好地权衡速度与准确率。
参考资料：
模型用例：action-classification/video-swin-transformer
论文：Video Swin Transformer
官方说明：屠榜视频理解几大任务！微软提出：Video Swin Transformer
其他资料：视频分类利器之Video Swin Transformer
国产之光！高分时空表征学习模型 UniFormer
由中科院、国科大、上海人工智能实验室、商汤、香港中文大学几大高手联合出品，SoTA 模型 UniFormer (UNIFIED TRANSFORMER) 在主流数据集上都取得了优秀的成绩：在 Kinetics-400/Kinetics600 上取得 82.9% / 84.8% top-1 精度；在 Something-Something V1 & V2 上取得 60.9% 和 71.2% top-1 精度。其论文一经发表，就获得了高分，最终收录于 ICLR 2022（初审评分高达7.5分：8 8 6 8）。

文章图片

UniFormer ArchitectureUniFormer 提出了一种整合 3D 卷积和时空自注意力机制的 Transformer 结构，能在计算量和精度之间取得平衡。不同于传统的 Transformer 结构在所有层都使用自注意力机制，论文中提出的 relation aggregator 可以分别处理视频的冗余信息和依赖信息。在浅层，aggregator 利用一个小的 learnable matrix 学习局部的关系，通过聚合小的 3D 邻域的 token 信息极大地减少计算量。在深层，aggregator通过相似性比较学习全局关系，可以灵活的建立远距离视频帧 token 之间的长程依赖关系。
参考资料：
模型用例：action-classification/video-swin-transformer
论文：UNIFORMER: UNIFIED TRANSFORMER FOR EFFICIENT SPATIOTEMPORAL REPRESENTATION LEARNING
更多资料：高分论文！UniFormer：高效时-空表征学习的统一TransformerICLR2022 UniFormer：无缝集成 Transformer，更高效的时空表征学习框架
更多项目更新及详细内容请关注我们的项目 ( https://github.com/towhee-io/...) ，您的关注是我们用爱发电的强大动力，欢迎 star, fork, slack 三连 :)

文章图片

每日模型系列（2022.07.11）

推荐阅读

讣告上存殁均感的殁字是什么意思讣告上存殁均感的殁字是啥意思

门前清水尚能西上一句

6670换7610外壳外一篇

广东省有哪些土特产食品类的

牛奶加蜂蜜可以解酒吗

桑葚树怎么种桑葚树怎么移栽

空调没有遥控器怎么开

100克食物有多少多少是一克

575

80平米房屋装修价格 80平米房屋装修价格东莞

早餐吃燕麦能减肥吗

感赏生活第一天（这个周日好好玩）

孩子|女性有没有生过孩子，其实三个部位一看就知道了，想遮掩都遮不住

夫妻离婚按揭房屋怎么分配离婚后按揭房款怎么分配

春日杂咏是一首什么诗春日杂咏是一首什么律诗

DIY改造TP-Link 7650小音箱成为具备三防、mesh、poe的高性能户外AP

2020年北京长城文化节 2023年北京长城梅花节活动时间

材料化学属于什么类材料化学属于什么类专业

汽车天窗冰甲和隔热膜哪个好

redis高并发架构设计与源码剖析高并发下redis的瓶颈