北京智源推出通用视觉 AI 模型 SegGPT：可自动追踪并分割影音中的物体

感谢IT之家网友肖战割割的线索投递！

▲ 图源 Arxiv

据称，SegGPT 模型是智源通用视觉模型 Painter 的衍生模型，具备上下文推理能力，在训练完成后只需要提供示例即可推理并完成对应分割任务，包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸、医学图像等，都可以利用视觉提示词（Prompt）完成分割任务。

北京智源推出通用视觉 AI 模型 SegGPT：可自动追踪并分割影音中的物体

▲ 图源 Arxiv

SegGPT 也拥有支持任意数量视觉提示的推理能力。能够以第一帧图像和对应的物体掩码作为上下文示例进行自动视频分割，并且可以用掩码的颜色作为物体的 ID，进行自动追踪。

IT之家经过查询知悉，此前 Meta 也发布了其基于 AI 的 Segment Anything Model （SAM）模型，具有识别和分离图像和视频中特定对象的能力。而威斯康辛麦迪逊、微软、港科大等机构的研究人员也推出 SEEM 模型，通过不同的视觉提示和语言提示，一键分割图像、视频。IT之家的小伙伴们可以从这里访问模型的论文链接。

未经允许不得转载：新聚网 » 北京智源推出通用视觉 AI 模型 SegGPT：可自动追踪并分割影音中的物体

北京智源推出通用视觉 AI 模型 SegGPT：可自动追踪并分割影音中的物体

作者：新聚网

相关推荐

搜索

热文推荐

最新文章