移动端的视频分割算法研究进展
语义分割任务要求图像中的每个像素都被赋予具有语义的标记。视频语义分割任务要求每个视频帧中的每个像素都被赋予一个带语义的标签。
【移动端的视频分割算法研究进展】视频分割是一种广泛使用的技术,可用于将场景的前景与背景分离。通过修改或替换背景,可以在现实中不存在或难以实现的场景中设置任务,并且可以增强信息的影响。传统上,视频图像的逐帧遮蔽可以手动完成(在具有绿色屏幕的专业工作室环境中拍摄,背景去除以及切换到图1的后期效果)。例如,复仇者联盟,美国队长,钢铁侠等专业软件(如Pr,Symphony Shadow)可用于添加各种逼真的特效。让电影更有趣,更震撼。可以想象,在2019年,北京卫视和浙江卫视都有这样的特效,没有手工逐帧映射一位姓吴的着名叔叔,这将是多么和谐。
文章图片
影视特效和绿屏消光
首先,本文总结了视频分割的基础,如视频对象分割的分类,评价指标和数据集,详细介绍了谷歌为YouTubeapp设计的移动视频分割方法,以及CVPR2019视频领域的最新进展。分段,简要介绍RVOS,重点分析准确性和实时性。平衡的FEELVOS和暹罗面具。
1.视频分割基础
1.视频对象分割和分类
语义分割分为图像语义分割和视频语义分割,如图所示。
文章图片
语义分割域分区
经典的基于图像的语义分割算法包括FCN,SegNet,扩张卷积,DeepLab(v1&V2&v3),RefineNet,PSPNet,大内核等。然而,视频对象分割任务与图像语义分割有两个基本差异。:视频对象分割任务是分割非语义对象,而视频对象分割增加了定时模块,其任务是在视频的每个连续帧中找到目标的相应像素。利用经典语义分割算法很难直接实现视频处理的性能,这就是为什么基于时间序列的MaskTrack算法优于基于视频独立帧处理的OSVOS算法。
2.视频分割的评估指标
视频目标分割的评价指标包括轮廓精度,区域相似度和时间稳定性。
区域相似性:区域相似性是掩模M和真实G之间的联合功能
文章图片
轮廓精度:将蒙版视为一组闭合轮廓,并根据轮廓计算F度量,即精度和召回的函数。也就是说,轮廓精度是基于轮廓的精度和召回率的F-度量。
文章图片
直观地,区域相似性测量错误标记像素的数量,而轮廓精度测量分割边界的准确性。
3.视频分段数据集
视频分割领域的数据集包括DAVIS系列(DAVIS-2016,DAVIS-2017,DAVIS-2018),youtube-VOS,GyGO:Visualead的电子商务视频对象分割,KITTI MOTS(多目标跟踪和分段)和MOTS挑战数据集。
2.谷歌:移动视频分割
1.移动终端和视频分割
可以在移动终端上实现视频分割,如华为Mate 20系列的新型人像保色功能(人像保色或人像分割是视频分割的一部分,分割目标是人体),可以识别轮廓在视频记录过程中实时的人,然后通过AI优化人的颜色。周围的所有景物都是黑白的,以使主角更加突出,营造出大的视觉感受。
文章图片
肖像着色
如图所示,衣服的颜色,肤色和头发都保留在图像的主体中。相反,作为背景的地面,栏杆,台阶和远处的树木变成了黑色和白色。总的来说,它具有大电影的视觉感受。
本节主要介绍谷歌用于手机摄像头的实时视频分割消光技术。视频肖像分割在本文中的效果是惊人的,它可以在iPhone 7上运行100 + FPS。
视频分段
故事是YouTube的轻量级视频格式。将视频分段与故事相结合,可为YouTube应用提供精确,实时,便携的移动视频分割体验(需要转换墙体验)。
Google提供的视频分割技术不需要专业设备,因此创作者可以轻松替换和修改背景,从而提高视频制作水平。基于移动端神经网络来解决语义分割,满足以下条件:
移动解决方案必须轻巧,每秒达到30帧才能实现实时推理。
L视频模型需要利用时间冗余(相邻帧看起来相似)和时间一致性(相邻帧得到类似的结果)。
高质量的分割结果需要高质量的标签。
2.标记数据集
为了获得高质量的数据集,Google标记了10W +图像,其中包括丰富的前景和背景信息。前景注释实现了精细的像素级定位,如头发,眼睛,颈部,皮肤,嘴唇等,并实现了超过98%的IoU手动注释质量。目前,谷歌并没有公布这部分数据集(图5)。它可以使用另一个开源数据集Supervisory Person Dataset [2]来代替模型的训练。
文章图片
google标注人像数据集
3. 网络架构
文章图片
网络架构输入通道
根据模型参考文献[3],网络模型的输入帧是当前帧(t)RGB三通道加上前一帧(t-1帧)的二进制掩码。先前掩码是前一帧的结果。如果它是视频的第一帧,则先前掩码可以是全零的矩阵。
模型训练中的第一个视频帧没有掩码,因此需要一种算法将地面实况掩码转换为可能的先前掩码。谷歌使用[3]方法:
直接使用Empty previous mask模拟视频的第一帧。
L对仿真掩模进行仿射变换,以模拟人类向镜头移动/上/下/前后移动。
L用于地面真实掩模的薄板样条。谷歌表示,它可以模拟相机的快速移动和旋转。
文章图片
Unet +沙漏网络架构
谷歌在移动端使用Unet + Hourglass架构。沙漏是人体姿势估计的常用框架。模型推断的速度非常慢。谷歌已经做了一些改进。
通过使用大卷积核和stride = 4或更多来提取RGB特征,其具有较少的计算复杂度。
使用大规模下采样和Unet跳转连接,我们可以加速上采样中低级特征的恢复。
修改ResNet瓶颈。ResNet瓶颈实现了四次通道压缩(256个通道功能被压缩到64个通道),而Google压缩到16个通道而不会显着降低功能质量。
为了提高纵向边缘的准确性,在网络末端添加了几层DenseNet Layer(使用Deep Image Matting中的一些想法)。
这些改进在移动设备上实现,iPhone 7上为100 + FPS,Pixel 2上为40 + FPS,Google自有标记数据集上的准确率为94.8%,以及YouTube故事的流畅运行。
由于Google发布的技术只是一个博客[1],因此没有发布任何培训细节和详细的网络架构,这使得复制变得困难。
4.优缺点分析
Google实施的移动视频细分可以在常见设备上运行特效。iPhone 7似乎也不是一款低端手机。华为在Mote 20中实现了人像色彩,人工智能进入了人类生活的方方面面。
谷歌提出了许多参考方向,例如使用ResNet瓶颈的模型压缩,大卷积核心和大步。对于数据集,可以使用通常用于视频分割的Lucid Dreaming(事实上,地面实况是放射变换和随机放置在图像上的一种方式,数据增强)。
谷歌没有开源数据集和模型细节,这使得重现模型变得更加困难。
3. FEELVOS
FEELVOS [5]是由亚琛工业大学和谷歌在德国联合提出的视频分割算法。主要解决半监督视频分割中推理速度慢,网络结构复杂的问题。神经网络依赖于第一帧的微调,实现了基于嵌入向量机制,全局匹配和局部匹配的多目标分割。简单,快速的推理,端到端的实施和高稳健性,J&F在DAVIS 2017的验证集上占65%,并在视频分割的速度和准确度之间取得平衡。
1. Motavation
DAVIS视频对象分割挑战赛是CVPR会议的研讨会之一。半监督视频对象分割任务验证偏向于J&F索引,对模型的实时要求较低。例如,2018年DAVIS Challenge的冠军模型PReMVOS集成了四种不同的神经网络,每帧的视频推理时间为38.其次,不能满足实时要求。在本文中,我们设计了一个简单的(单个神经网络),快速推理(不需要微调第一帧),端到端实现和多目标分割中的应用,首先,高稳健性戴维斯2017。
基于Pixel-Wise度量学习(PML),本文提出了一种学习嵌入向量和邻域匹配(包括全局匹配,局部匹配)作为神经网络特征的方法。结合骨干特征,前一帧的预测掩模具有四个维度,用于端到端模型训练。
2.网络架构
文章图片
FEELVOS模型架构
如图8所示,FEELVOS神经网络的体系结构包括骨干特征,像素嵌入,局部匹配,全局匹配和其他动态分割头。
在视频处理过程中,视频中每个帧的每个对象都由骨干和嵌入层提取,以提取嵌入特征。根据嵌入矢量,在当前帧和前一帧之间计算局部匹配距离图,并在当前帧和视频的第一帧之间计算全局匹配距离图。动态分割头堆叠四个特征(主干特征,ocal匹配距离图,全局匹配距离图,先前帧掩模预测),使用深度可分离卷积和软Max来预测当前帧的掩模信息。
上述计算过程适用于每个对象。随着物体的增加,计算时间呈线性增加。
主干是DeepLabv3 +(Xception-65,与原始RGB图像相比,将特征分辨率降低了四倍),嵌入层输出嵌入向量。骨干提取功能是一种共享方法,可为每个图像计算一次特征。每个嵌入向量对应于stride = 4的RGB图像区域。不同帧图像或同一图像的两个像素属于同一类别,并且它们的嵌入向量非常接近。如果两个像素属于不同的类别,则它们的嵌入向量很远。
文章图片
embedding特征示意图p,q表示两个像素,ep和eq分别表示对应的embedding向量,表示embedding空间距离,其计算方式为:
文章图片
D(p,q)的范围为[0,1]。对于相同类别的像素,我们可以很容易地发现D的值应该非常接近0或0;
对于不同类别的像素,D接近1或1。
嵌入层由深度可分卷积组成,由3x3卷积层和1x1卷积组成。提取的特征尺寸为100.在逐像素嵌入的基础上,计算当前帧与第一帧视频之间的全局匹配距离图。计算当前帧和前一帧之间的本地匹配距离映射。
计算全局匹配距离图是耗时的。在本文中,输入图像像素为465 x 465,嵌入层输出为(465/4)x(465/4)x 100.每帧需要与第一帧计算距离图,这非常耗时。
可以简化局部匹配距离图的计算。目标在前一帧和当前帧中的移动通常非常小。没有必要使用当前嵌入特征的矢量来仅计算第一帧的所有嵌入矢量在K邻域的大小中的距离。
文章图片
Dynamic segmentation head网络结构
Dynamic segmentation head网络输入为4类:主干特性、全局匹配距离图、局部匹配距离图和前一帧的遮罩输出。
Dynamic segmentation head由四个深度分离的卷积(7x7卷积核)组成,它们产生用于预测类别的一维特征图(1 xw/4 xh/4)。对于每个目标,需要动态分割头来计算逻辑。.
本文的实验环境是烧蚀研究。动态分割头网络有四个输入。作者禁用了一些输入并做了6个实验。结果表明,局部匹配和全局匹配非常重要,丢弃它们会导致网络性能显著下降。
文章图片
在DAVIS2017中进行FEELVOS耗时的比较
3.分析优缺点
1.如图11所示,FEELVOS平衡了性能和时间消耗,大约需要0.6s /帧。实时性能需要进一步调试。
2.在全局匹配阶段,需要当前帧和第一帧的特征映射来计算所有匹配关系。该论文已被简化为样本第一帧的每个对象1024像素,并且计算量仍然很大。
3.没有必要为第一帧和每个帧计算全局匹配,对于慢动作视频,例如跳跃5帧或10帧。只有本地匹配计算才会带来累积误差,全局匹配可以纠正累积误差。
4.计算当前帧的掩码时,它取决于前一帧的掩码。随着视频序列的增加,掩码错误将累积增加。建议添加掩码来监督对齐过程。
该模型对第一帧的基本事实有更大的影响。例如,在本文提供的实验中,第一帧是猫的分割图,并且后区没有标记。在随后的预测中,猫的背部区域预测不是很好。
4. RVOS
视频目标分割依赖于时间相关性和空间相关性,而LSTM在处理时间序列方面具有天然优势。基于ConvLSTM,加泰罗尼亚开放大学的学者提出了一种基于RNN的视频分割算法ROVS,它解决了单射和零射击多目标视频分割问题,并在P100上实现了44ms /帧的推理处理速度。GPU。。
1. ConvLSTM
LSTM在语音识别,视频分析和序列建模领域取得了很大进展。传统的LSTM网络由五个模块组成:输入门,忘记门,单元,输出门和隐藏。
文章图片
FC-LSTM和ConvLSTM
LSTM结构也可以称为FC-LSTM,因为它的内部部门是通过依赖类似前馈的神经网络来计算的,该神经网络对时间序列数据进行了很好的处理,但是对于空间数据。在这种情况下,将产生冗余,因为空间数据具有强大的局部特征,但是FC-LSTM不能描述该局部特征。ConvLSTM尝试通过以卷积形式的前馈计算替换FC-LSTM的输入到状态和状态到状态部分来解决此问题。
2.网络架构
如RVOS网络架构的图13所示,骨干网是典型的编码器编码器,每帧中的N个目标对应于N个RNN。本文提出的模型解决了单击和零击VOS两个问题。
单次触发VOS是一种普通的DAVIS任务,它根据初始化帧的掩码和图像序列预测视频序列的掩码。对于零镜头VOS任务,输入仅为RGB图像。
文章图片
RVOS网络架构
零镜头VOS将目标从视频序列中分离出来,而无需任何先验知识,模型必须检测和分割视频中出现的目标。YouTube VOS和Davis是专为单镜头VOS设计的。在视频序列中未初始化且没有注释信息的对象对于零镜头VOS来说非常困难。本文在每帧图像中划分10个目标,期望5个目标属于预测对象。
3.利弊分析
1.多目标实体分割的性能取决于分割实体的数量。
2.第二步。虽然RNN在处理时间上有明显的优势,但convlstm也可以用来处理图像,但对存储空间的依赖性很高,很难实现实时性要求。
个人认为,零镜头VOS已经从VOS分类中分离出来,可以将视频分解成序列图形,对每个图像分别进行物理分割,在图像中进行匹配。
5.SiamMask
机动化
虽然跟踪和视频对象分割(VOS)属于视频分析领域,但它们并没有犯过水罪。视觉目标跟踪任务是在给定视频序列初始帧的目标大小和位置的情况下,预测目标在后续帧中的大小和位置(通常以框架框的形式)。早期的跟踪算法采用了一个轴对准的矩形框架,在VOT2015旋转矩形框架后,跟踪精度要求得到了提高,实时掩模是近视计算。
VOS是一个根据初始帧的遮罩预测视频序列的遮罩。在VOS领域,一般都是基于光流法,离线训练,需要对初始帧的掩模真值进行微调,从而降低了视频分割的实时性,限制了视频分割的应用范围。
Siammask[8]由中国科学院自动化研究所和牛津大学设计,结合视频目标跟踪和视频分割,实现实时像素级目标定位。初始化简单,在初始帧中只给出目标的边界框,在后续图像序列中计算估计的边界框和目标分割遮罩。
2.网络体系结构
文章图片
Siammash网络架构
图2中所示的siammash网络架构。14是基于Siamese Net的追踪器。进一步引入掩码分支以获得分割结果和跟踪目标信息。实际上,这一步相当于在一定程度上解决了目标规模变化的问题。
127x127x3是第0帧的模板补丁.255x255x3是搜索区域,来自第n帧的局部区域。两个分支共享相同的主干,分别获得15 * 15 * 256和31 * 31 * 256个特征映射。然后,通过深度卷积获得17 * 17 * 256个特征图。
Mask分支是Siamese Net的新成员,它使用向量来编码RoW掩码。这使得每个预测位置具有非常高的输出尺寸(63 * 63)。本文使用深度卷积来级联1x1卷积以实现高效操作。
图14中所示的掩模预测类似于编码 - 解码模型。在卷积过程中,特性不断丢失,并且预测的掩模分支的准确度不是很高。本文提出使用SharpMask语义分割模型和优化模块来提高分割的准确性。
文章图片
精简模块网络架构的siammash网络
Siammash在VOT,VOT 2016和VOT 2018数据集上的表现已经达到了SOTA的结果,同时保持了超级实时56fps的性能。Siammash在视频对象分割(VOS),DAVIS 2017和Youtube-VOS数据集方面表现出色,但其实时性能提高了1-2个数量级。56fps的处理速度可以满足移动终端的需求。
3.优缺点分析
1. Siammash的多任务学习方法以及VOT和VOS中准确性和实时性的折衷使学术研究更容易在工业水平上降落。
2. SharpMask语义分割模型用于Siammash的掩模预测分支,提高了准确度范围。替换模型的这一部分可以进一步提高掩模预测的准确性。
3.目前,跟踪并未具体涉及消失问题(目标跟踪器离开或完全遮挡当前图片)。特别是,siammash易受语义干扰者的影响。当被遮挡时,它预测遮罩是两个对象的遮罩。在VOS领域处理闭塞和消失也很困难。
关注微信公众号:“图像算法”或者微信搜索imalg_cn 可获取更多有用资源
推荐阅读
- 热闹中的孤独
- JAVA(抽象类与接口的区别&重载与重写&内存泄漏)
- 放屁有这三个特征的,请注意啦!这说明你的身体毒素太多
- 一个人的旅行,三亚
- 布丽吉特,人生绝对的赢家
- 慢慢的美丽
- 尽力
- 一个小故事,我的思考。
- 家乡的那条小河
- 《真与假的困惑》???|《真与假的困惑》??? ——致良知是一种伟大的力量