来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章介绍了SAM 2(Segment Anything Model 2)的引入,这是对Segment Anything(SAM)模型在视频领域的自然演进。SAM 2通过扩展可提示分割任务到视频中,引入记忆机制以处理连续帧中的信息,并提供了多样化的SA-V数据集用于训练和评估。文章展示了SAM 2在视频分割任务中的显著性能提升,相比现有方法,在精度、稳定性和处理速度上都有显著优势。这些改进标志着视觉感知技术的一次重要进展,预期将推动进一步的研究和实际应用。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:SAM 2: Segment Anything in Images and Videos
作者:Nikhila Ravi, Valentin Gabeur等
作者机构:Meta FAIR
论文链接:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/
2. 摘要
我们推出了 Segment Anything Model 2(SAM 2),这是一个旨在解决图像和视频中可提示视觉分割问题的基础模型。我们构建了一个数据引擎,通过用户交互来改进模型和数据,以收集迄今为止最大的高清视频分割数据集。我们的模型采用简单的Transformer架构,并配备流式内存以实现实时视频处理。经过我们数据训练的SAM 2在各种任务中表现出色。在视频分割中,我们观察到其准确性更高,所需交互次数仅为以前方法的三分之一。在图像分割中,我们的模型比Segment Anything Model(SAM)更准确,速度快六倍。我们相信我们的数据、模型和见解将成为视频分割及相关感知任务的重要里程碑。我们将发布模型的一个版本、数据集以及一个交互式演示。
3. 效果展示
SA-V数据集中示例视频,叠加了手动和自动生成的掩码片段(masklets)。每个掩码片段都有独特的颜色,每行展示的是一个视频中的帧,帧与帧之间间隔为1秒。
4. 主要贡献
可提示分割任务的扩展到视频领域:将传统的图像分割任务扩展到视频分割,允许在视频序列中进行交互式分割,并支持动态调整和优化分割结果。
SAM架构的记忆功能增强:为SAM架构引入记忆功能,提升了处理视频数据的能力,使其能够在处理长视频序列时有效存储和利用上下文信息。
SA-V数据集的多样化:创建了一个多样化的SA-V数据集,用于训练和基准测试视频分割算法,覆盖了丰富的视频场景和类别,推动了视频分割技术的发展。
视频分割的性能提升:通过在视频数据上进行训练和优化,实现了显著的性能提升,包括更高的分割精度和更快的处理速度。
推动视觉感知领域的研究:SAM 2的引入标志着视觉感知技术的一次重要进步,成为未来研究和应用的里程碑,推动了视频和图像分割技术的进一步发展。
5. 基本原理是啥?
SAM 2的基本原理包括以下几个关键方面:
可提示分割(Promptable Segmentation):SAM 2扩展了可提示分割任务,从静态图像到动态视频。这意味着用户可以通过提供简单的提示(如点击、框选或遮罩)来引导分割过程。该方法允许在视频中选择感兴趣的帧,并进行交互式分割,优化了用户体验和分割精度。
记忆机制:SAM 2引入了记忆功能,使得分割模型能够在处理视频数据时存储和利用先前帧的上下文信息。这种记忆机制帮助模型保持对视频内容的长期记忆,从而提升了分割的连贯性和一致性。
多样化的训练数据集(SA-V数据集):SAM 2使用了一个多样化的SA-V数据集进行训练和评估。这个数据集包含了各种不同的视频场景和类别,提供了丰富的标注数据,用于提高模型的泛化能力和性能。
先进的网络架构:SAM 2在网络架构上进行了优化,尤其是在图像编码器和记忆机制方面。通过使用更小但更有效的图像编码器(Hiera-B+),以及改进的记忆和注意力机制,SAM 2能够在保证高分割精度的同时提高处理速度。
交互式和非交互式模式:SAM 2支持两种模式:交互式模式和非交互式模式。交互式模式允许用户通过实时提示来优化分割结果,而非交互式模式则使用自动化的方法进行分割。这种灵活性使得SAM 2能够适应不同的应用场景和用户需求。
总的来说,SAM 2通过扩展分割任务的适用范围、引入记忆机制、使用多样化的数据集和优化网络架构,显著提升了视频和图像分割的效果。
6. 实验结果
SAM 2的实验结果展示了其在视频分割任务中的显著进步和优势:
视频分割性能:SAM 2在视频分割任务上表现出了优异的性能。实验表明,与现有的视频分割方法相比,SAM 2在分割精度、稳定性和连贯性上都有显著提升。特别是在处理复杂场景和快速移动的对象时,SAM 2能够保持高质量的分割结果。
与现有方法的对比:SAM 2在多个标准数据集上与其他视频分割方法进行了对比。结果显示,SAM 2在分割精度和一致性方面超越了许多现有的方法。具体来说,它在精度(如IoU、精确度、召回率等指标)上均取得了较好的成绩。
记忆机制的影响:引入记忆机制后,SAM 2在视频中的连续帧处理上表现出更好的稳定性和连贯性。实验结果表明,记忆机制有助于保持前后帧之间的分割一致性,尤其是在长视频序列中,模型能够更好地捕捉到对象的运动和变化。
多样化数据集的有效性:使用SA-V数据集进行训练和评估,SAM 2在处理各种不同场景的视频时都表现出了良好的泛化能力。实验结果表明,模型能够适应不同类型的场景和对象,并且在各种环境下都能保持较高的分割精度。
交互式与非交互式模式:SAM 2的交互式模式和非交互式模式都表现出了较高的效果。在交互式模式下,用户能够通过简单的提示进一步优化分割结果。而在非交互式模式下,模型能够自动完成高质量的分割,适用于需要快速处理的场景。
处理速度和效率:实验还评估了SAM 2的处理速度和计算效率。结果显示,尽管模型在精度上有所提升,但处理速度和效率仍然保持在合理范围内,适合实际应用中的需求。
总的来说,SAM 2的实验结果证明了其在视频分割领域的有效性和先进性,标志着分割技术的一个重要进步。
7. 总结 & 未来工作
我们展示了Segment Anything(SAM)在视频领域的自然进化,基于三个关键方面:(i) 将可提示分割任务扩展到视频,(ii) 为SAM架构配备视频应用中的记忆功能,以及(iii) 用于训练和基准测试视频分割的多样化SA-V数据集。我们相信,SAM 2标志着视觉感知领域的一项重要进展,我们的贡献将成为推动该领域进一步研究和应用的重要里程碑。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。