感谢IT之家网友 肖战割割 的线索投递!

据称,SegGPT 模型是智源通用视觉模型 Painter 的衍生模型,具备上下文推理能力,在训练完成后只需要提供示例即可推理并完成对应分割任务,包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸、医学图像等,都可以利用视觉提示词(Prompt)完成分割任务。

SegGPT 也拥有支持任意数量视觉提示的推理能力。能够以第一帧图像和对应的物体掩码作为上下文示例进行自动视频分割,并且可以用掩码的颜色作为物体的 ID,进行自动追踪。
IT之家经过查询知悉,此前 Meta 也发布了其基于 AI 的 Segment Anything Model (SAM)模型 ,具有识别和分离图像和视频中特定对象的能力。而威斯康辛麦迪逊、微软、港科大等机构的研究人员也推出 SEEM 模型,通过不同的视觉提示和语言提示,一键分割图像、视频。IT之家的小伙伴们可以从这里访问模型的论文链接。
未经允许不得转载:新聚网 » 北京智源推出通用视觉 AI 模型 SegGPT:可自动追踪并分割影音中的物体

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





