Segment Anything 2分割一切_AIGC培训-AIGC学习

还记得 Meta 的「分割一切模型」吗？这个模型在去年 4 月发布，被很多人认为是颠覆传统 CV 任务的研究。

SAM 2 演示 |开发商：Meta FAIR — SAM 2 Demo | By Meta FAIR (metademolab.com)

时隔一年多，刚刚，Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上，SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割，将图像和视频分割功能统一到一个强大的系统中。

Segment Anything 2分割一切

SAM 2 可以分割任何视频或图像中的任何对象 —— 甚至是它以前没有见过的对象和视觉域，从而支持各种不同的用例，而无需自定义适配。

在与黄仁勋的对话中，扎克伯格提到了 SAM 2:「能够在视频中做到这一点，而且是在零样本的前提下，告诉它你想要什么，这非常酷。」

Segment Anything 2分割一切

Meta 多次强调了最新模型 SAM 2 是首个用于实时、可提示的图像和视频对象分割的统一模型，它使视频分割体验发生了重大变化，并可在图像和视频应用程序中无缝使用。SAM 2 在图像分割准确率方面超越了之前的功能，并且实现了比现有工作更好的视频分割性能，同时所需的交互时间为原来的 1/3。

该模型的架构采用创新的流式内存（streaming memory）设计，使其能够按顺序处理视频帧。这种方法使 SAM 2 特别适合实时应用，为各个行业开辟了新的可能性。

当然，处理视频对算力的要求要高得多。SAM 2 仍然是一个庞大的模型，也只有像 Meta 这样的能提供强大硬件的巨头才能运行，但这种进步还是说明了一些问题：一年前，这种快速、灵活的分割几乎是不可能的。SAM 2 可以在不借助数据中心的情况下运行，证明了整个行业在计算效率方面的进步。

模型需要大量的数据来训练，Meta 还发布了一个大型带注释数据库，包括大约 51,000 个真实世界视频和超过 600,000 个 masklets。与现有最大的视频分割数据集相比，其视频数量多 4.5 倍，注释多 53 倍，Meta 根据 CC BY 4.0 许可分享 SA-V。在 SAM 2 的论文中，另一个包含超过 100,000 个「内部可用」视频的数据库也用于训练，但没有公开。

与 SAM 一样，SAM 2 也会开源并免费使用，并在 Amazon SageMaker 等平台上托管。为了履行对开源 AI 的承诺，Meta 使用宽松的 Apache 2.0 协议共享代码和模型权重，并根据 BSD-3 许可分享 SAM 2 评估代码。

目前，Meta 已经提供了一个 Web 的演示体验地址：https://sam2.metademolab.com/demo

基于 web 的 SAM 2 演示预览，它允许分割和跟踪视频中的对象。

正如扎克伯格上周在一封公开信中指出的那样，开源人工智能比任何其他现代技术都更具有潜力，可以提高人类的生产力、创造力和生活质量，同时还能加速经济增长并推动突破性的医学和科学研究。人工智能社区利用 SAM 取得的进展给我们留下了深刻的印象， SAM 2 必将释放更多令人兴奋的可能性。

Segment Anything 2分割一切