导读
随着短视频的快速发展以及安全管理的需求不断增多,视频领域的相关技术应用包括视频智能标签、智能教练、智能剪辑、智能安全管理、文本视频检索、视频精彩片段提取、视频智能封面正逐渐成为人们生活中的重要部分。
以视频相关业务为例,短视频网站希望能迅速给每个新作品打上标签并推送给合适的用户,剪辑人员希望从比赛视频中便捷地提取精彩比赛片段集锦,教练员希望系统分析运动员的动作并进行技术统计和分析,安全管理部门也希望能精准地进行视频内容审核比如实时识别违规行为,编辑人员希望通过文本检索相关的视频片段作为新闻素材,广告或推荐网站希望为视频生成更加美观的封面提升转化率。这些业务对传统的人工处理方式是很大的挑战。
视频理解是通过AI技术让机器理解视频内容,如今在短视频、推荐、搜索、广告,安全管理等领域有着广泛的应用和研究价值,像动作定位与识别、视频打标签、文本视频检索、视频内容分析之类的任务都可以通过视频理解技术搞定。
PaddleVideo是百度自主研发的产业级深度学习开源开放平台飞桨的视频开发套件,包含视频领域众多模型算法和产业案例,本次开源主要升级点如下:
发布10个视频领域产业级应用案例,涵盖体育、互联网、医疗、媒体和安全等行业。
首次开源5个冠军/顶会/产业级算法,包含视频-文本学习、视频分割、深度估计、视频-文本检索、动作识别/视频分类等技术方向。
配套丰富的文档和教程,更有直播课程和用户交流群,可以与百度资深研发工程师一起讨论交流。
十大视频场景化应用工具详解
飞桨PaddleVideo基于体育行业中足球/篮球/乒乓球/花样滑冰等场景,开源出一套通用的体育类动作识别框架;针对互联网和媒体场景开源了基于知识增强的大规模多模态分类打标签、智能剪辑和视频拆条等解决方案;针对安全、教育、医疗等场景开源了多种检测识别案例。百度智能云结合飞桨深度学习技术也形成了一系列深度打磨的产业级多场景动作识别、视频智能分析和生产以及医疗分析等解决方案。
- 足球场景:开源FootballAction精彩片段智能剪辑解决方案
FootballAction基于行为识别PP-TSM模型、视频动作定位BMN模型和序列模型AttentionLSTM组合得到,不仅能准确识别出动作的类型,而且能精确定位出该动作发生的起止时间。目前能识别的动作类别有8个,包含:背景、进球、角球、任意球、黄牌、红牌、换人、界外球。准确率超过90%。
- 篮球场景:开源BasketballAction精彩片段智能剪辑解决方案
- 乒乓球场景:开源大规模数据训练的动作分类模型
在百度Create 2021(百度AI开发者大会)上,PaddleVideo联合北京大学一同发布的乒乓球动作进行识别模型,基于超过500G的比赛视频构建了标准的训练数据集,标签涵盖发球、拉、摆短等8个大类动作。其中起止回合准确率达到了97%以上,动作识别也达到了80%以上。
- 花样滑冰动作识别
- 知识增强的视频大规模/多模态分类打标签
MultimodalVideoTag模型基于真实短视频业务数据,融合文本、视频图像、音频三种模态进行视频多模标签分类,相比纯视频图像特征,能显著提升高层语义标签效果。模型提供一级标签25个,二级标签200+个,标签准确率超过85%。
- 视频内容智能生产
- 视频交互式标注工具开源
- 基于时空动作检测单模型实现87类通用行为识别
- 无人机检测
(1)无人机目标微小,观测困难。
(2)无人机移动速度多变。
(3)无人机飞行环境复杂,可能被建筑、树木遮挡。
针对以上挑战,飞桨开源了无人机检测模型,以实现在众多复杂环境中对无人机进行检测。
10.医疗影像的分类鉴别
【十大视频场景化应用工具+五大视频领域冠军/顶会算法重磅开源!】基于公开的3D-MRI脑影像数据库,浙江大学医学院附属第二医院和百度研究院开源了帕金森3D-MRI脑影像的分类鉴别项目,数据集包括neurocon, taowu, PPMI和OASIS-1等公开数据集,囊括帕金森患者(PD)与正常(Con)共378个case。提供2D及3D基线模型和4种分类模型以及3D-MRI 脑影像的预训练模型。其中PP-TSN和PP-TSM取得了超过91%的准确度和超过97.5%的AUC,而TimeSformer实现了最高准确度也超过92.3%
五大冠军、顶会算法开源
百度研究院首次开源自研冠军、顶会算法
- CVPR 2020 顶会论文:多模态预训练模型ActBERT首次开源
ActBERT是融合了视频、图像和文本的多模态预训练模型,它使用一种全新的纠缠编码模块从三个来源进行多模态特征学习,以增强两个视觉输入和语言之间的互动功能。该纠缠编码模块,在全局动作信息的指导下,对语言模型注入了视觉信息,并将语言信息整合到视觉模型中。纠缠编码器动态选择合适的上下文以促进目标预测。简单来说,纠缠编码器利用动作信息催化局部区域与文字的相互关联。在文本视频检索、视频描述、视频问答等5个下游任务上,ActBERT均明显优于其他方法。下表展示了ActBERT模型在文本视频检索数据集MSR-VTT上的性能表现。
- CVPR 2021 顶会论文:文本视频检索模型T2VLAD首次开源
随着各种互联网视频尤其是短视频的火热,文本视频检索在近段时间获得了学术界和工业界的广泛关注。特别是在引入多模态视频信息后,如何精细化地配准局部视频特征和自然语言特征成为一大难点。T2VLAD采用一种高效的全局-局部的对齐方法,自动学习文本和视频信息共享的语义中心,并对聚类后的局部特征做对应匹配,避免了复杂的计算,同时赋予了模型精细化理解语言和视频局部信息的能力。
- CVPR2020视频分割模型MA-Net首次开源
视频目标分割(VOS)是计算机视觉领域的一个基础任务,有很多重要的应用场景,如视频编辑、场景理解及自动驾驶等。交互式视频目标分割由用户在视频的某一帧中给目标物体简单的标注(比如在目标物体上画几条简单的线),就能够通过算法获得整个视频中该目标物体的分割结果,用户可以通过多次和视频交互而不断提升视频分割质量,直到用户对分割质量满意。
- 首次开源ECCV 2020 Spotlight视频分割模型CFBI、CVPR2021视频目标分割国际竞赛中,基于 CFBI设计的解决方案在两项任务上夺得了冠军
在视频目标分割领域中,半监督领域在今年来备受关注。给定视频中第一帧或多个参考帧中的目标标定,半监督方法需要精确跟踪并分割出目标物体在整个视频中的掩模。以往的视频目标分割方法都专注于提取给定的前景目标的鲁棒特征,但这在遮挡、尺度变化以及背景中存在相似物体的等等复杂场景下是十分困难的。基于此,我们重新思考了背景特征的重要性,并提出了前背景整合式的视频目标分割方法(CFBI)。
CFBI系列方法在视频目标分割领域上保持着单模型最高精度的记录。特别地,百度研究院的单模型性能优于旷视清华团队在CVPR2020视频目标分割国际竞赛上融合三个强力模型的结果。在今年刚刚结束的CVPR2021视频目标分割国际竞赛中,基于 CFBI设计的解决方案在两项任务上夺得了冠军。下表展示了CFBI模型在DAVIS-2017数据集上的表现。
- ICCV 2021无监督单目深度估计模型ADDS首次开源
ADDS是基于白天和夜晚图像的自监督单目深度估计模型,其利用了白天和夜晚的图像数据互补性质,减缓了昼夜图像较大的域偏移以及照明变化对深度估计的精度带来的影响,在具有挑战性的牛津RobotCar数据集上实现了全天图像的最先进的深度估计结果。下表展示了ADDS模型在白天和夜间数据集上的测试性能表现。
https://github.com/PaddlePadd...
精彩课程预告
1.17~1.21日每晚20:15~21:30,飞桨联合百度智能云、百度研究院数十位高工为大家带来直播讲解,剖析行业痛点问题,深入解读体育、互联网、医疗、媒体等行业应用案例及产业级视频技术方案,并带来手把手项目实战。扫码或点击"阅读原文"进行报名,我们直播间不见不散~
扫码报名直播课,加入技术交流群
更多相关内容,请参阅以下内容
官网地址:https://www.paddlepaddle.org.cn
项目地址:
GitHub: https://github.com/PaddlePadd...
参考文献:
1.ActBERT: Learning Global-Local Video-Text Representations , Linchao Zhu, Yi Yang
2.T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval, Xiaohan Wang, Linchao Zhu, Yi Yang
3.Memory Aggregation Networks for Efficient Interactive Video Object Segmentation, Jiaxu Miao, Yunchao Wei, Yi Yang
4.Collaborative Video Object Segmentation by Foreground-Background Integration, Zongxin Yang, Yunchao Wei, Yi Yang
5.Self-supervised Monocular Depth Estimation for All Day Images using Domain Separation, Liu, Lina and Song, Xibin and Wang, Mengmeng and Liu, Yong and Zhang, Liangjun
推荐阅读
- 人脸识别|【人脸识别系列】| 实现自动化妆
- 人工智能|干货!人体姿态估计与运动预测
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- Python专栏|数据分析的常规流程
- 历史上的今天|【历史上的今天】2 月 16 日(世界上第一个 BBS 诞生;中国计算机教育开端;IBM 机器人赢得智能竞赛)
- 网络|一文彻底搞懂前端监控
- 游戏|2022年如何学习前端前沿技术,破卷而出()
- 分布式|《Python3网络爬虫开发实战(第二版)》内容介绍