机器之心报道
机器之心编辑部
CV 领域已经卷到了一个新的高度。
(资料图片)
本月初,Meta 发布「分割一切」AI 模型 —— Segment Anything Model(SAM)。SAM 被认为是一个通用的图像分割基础模型,它学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,包括在训练过程中没有遇到过的物体和图像类型。这种「零样本迁移」的能力令人惊叹,甚至有人称 CV 领域迎来了「GPT-3 时刻」。
最近,一篇「一次性分割一切」的新论文《Segment Everything Everywhere All at Once》再次引起关注。在该论文中,来自威斯康星大学麦迪逊分校、微软、香港科技大学的几位华人研究者提出了一种基于 prompt 的新型交互模型 SEEM。SEEM 能够根据用户给出的各种模态的输入(包括文本、图像、涂鸦等等),一次性分割图像或视频中的所有内容,并识别出物体类别。该项目已经开源,并提供了试玩地址供大家体验。
论文链接:https://arxiv.org/pdf/2304.06718.pdf项目链接:https://github.com/UX-Decoder/Segment-Everything-Everywhere-All-At-Once
试玩地址:https://huggingface.co/spaces/xdecoder/SEEM
该研究通过全面的实验验证了 SEEM 在各种分割任务上的有效性。即使 SEEM 不具有了解用户意图的能力,但它表现出强大的泛化能力,因为它学会了在统一的表征空间中编写不同类型的 prompt。此外,SEEM 可以通过轻量级的 prompt 解码器有效地处理多轮交互。
先来看一下分割效果:在变形金刚的合影中把「擎天柱」分割出来:
还能对一类物体做分割,比如在一张景观图片中分割出所有建筑物:SEEM 也能轻松分割出视频中移动的物体:这个分割效果可以说是非常丝滑了。我们来看一下该研究提出的方法。方法概述
该研究旨在提出一个通用接口,以借助多模态 prompt 进行图像分割。为了实现这一目标,他们提出了一种包含 4 个属性的新方案,包括多功能性(versatility)、组合性(compositionality)、交互性(interactivity)和语义感知能力(semantic-awareness),具体包括
1)多功能性该研究提出将点、掩码、文本、检测框(box)甚至是另一个图像的参考区域(referred region)这些异构的元素,编码成同一个联合视觉语义空间中的 prompt。
2)组合性通过学习视觉和文本 prompt 的联合视觉语义空间来即时编写查询以进行推理。SEEM 可以处理输入 prompt 的任意组合。
3)交互性:该研究引入了通过结合可学习的记忆(memory) prompt,并通过掩码指导的交叉注意力保留对话历史信息。
4)语义感知能力:使用文本编码器对文本查询和掩码标签进行编码,从而为所有输出分割结果提供了开放集语义。
架构方面,SEEM 遵循一个简单的 Transformer 编码器 - 解码器架构,并额外添加了一个文本编码器。在 SEEM 中,解码过程类似于生成式 LLM,但具有多模态输入和多模态输出。所有查询都作为 prompt 反馈到解码器,图像和文本编码器用作 prompt 编码器来编码所有类型的查询。具体来说,该研究将所有查询(如点、框和掩码)编码为视觉 prompt,同时使用文本编码器将文本查询转换为文本 prompt,这样视觉和文本 prompt 就能保持对齐。5 种不同类型的 prompt 都能都映射到联合视觉语义空间中,通过零样本适应来处理未见过的用户 prompt。通过对不同的分割任务进行训练,模型具有处理各种 prompt 的能力。此外,不同类型的 prompt 可以借助交叉注意力互相辅助。最终,SEEM 模型可以使用各种 prompt 来获得卓越的分割结果。除了强大的泛化能力,SEEM 在运行方面也很高效。研究人员将 prompt 作为解码器的输入,因此在与人类进行多轮交互时,SEEM 只需要在最开始运行一次特征提取器。在每次迭代中,只需要使用新的 prompt 再次运行一个轻量级的解码器。因此,在部署模型时,参数量大运行负担重的特征提取器可以在服务器上运行,而在用户的机器上仅运行相对轻量级的解码器,以缓解多次远程调用中的网络延迟问题。
如上图 3(b)所示,在多轮交互中,每次交互包含一个人工循环和一个模型循环。在人工循环中,人接收上一次迭代的掩码输出,并通过视觉 prompt 给出下一轮解码的正反馈或负反馈。在模型循环中,模型接收并更新记忆 prompt 供未来的预测。
实验结果
该研究将 SEEM 模型与 SOTA 交互式分割模型进行了实验比较,结果如下表 1 所示。
作为一个通用模型,SEEM 实现了与 RITM,SimpleClick 等模型相当的性能,并且与 SAM 的性能非常接近,而 SAM 用于训练的分割数据是 SEEM 的 50 倍之多。与现有的交互式模型不同,SEEM 是第一个不仅支持经典分割任务,还支持各种用户输入类型的通用接口,包括文本、点、涂鸦、框和图像,提供强大的组合功能。如下表 2 所示,通过添加可组合的 prompt,SEEM 在 cIoU,mIoU 等指标上有了显著的分割性能提升。
我们再来看一下交互式图像分割的可视化结果。用户只需要画出一个点或简单涂鸦,SEEM 就能提供非常好的分割结果也可以输入文本,让 SEEM 进行图像分割还能直接输入参考图像并指出参考区域,对其他图像进行分割,找出与参考区域一致的物体:该项目已经可以线上试玩,感兴趣的读者快去试试吧。THE END
投稿或寻求报道:content@jiqizhixin.com
关键词:
推荐内容
- 一次性分割一切,比 SAM 更强,华人团
- 重返未来1999雾行者获取方式分享 重返未
- “重庆产”鲜鸡蛋首次实现自营出口:一天
- 4月24日华研精机涨6.97%,大成核心趋势混
- 扶余农信联社:依托“三项文化”,激发高
- 今年一季度全国地表水水质提升_世界热头条
- 智向云中鹤:某银行数字人民币线上线下协
- 快资讯:军绿色油漆怎么调配
- 读书之美”系列思政课|孔子的智慧 看热讯
- 家用电梯尺寸是多少合适-家用电梯尺寸是
- 焦点要闻:中钢协:2023年4月中旬重点统
- 部分百亿私募重仓股浮现 争相布局数字经
- 在古代帝王如果想选用继承人,会看中什么
- 网游概念再度爆发,星辉娱乐“20cm”涨停
- 全国音乐大擂台精彩连连 欢歌一曲曲 掌
- 七巧板的拼法_常见的七巧板玩法介绍
- 灯笼拼音怎么写_灯笼拼音
- 焦点报道:说明书 | 航天员用的太空用品
- 今日317只个股突破五日均线
- 环球热资讯!世界地球日主题宣传活动周在
- 每日热门:2023版熊猫金币30克今天报价(
- 政企携手优服务 专项整治“转供电”
- 涉嫌严重违纪违法,原银监会处置非法集资
- 【环球快播报】探月四期稳步推进 嫦娥家
- 跨越百亿!东鹏饮料以绿色和创新引领行业
- 世界百事通!今日重点关注的财经数据和事
- 当百万级电动车成为常态,燃油车正迎来最
- 统计局:4月中旬生猪(外三元)价格环比
- 膝盖缝针后几天拆线_缝针后几天拆线
- 环球时讯:“宁王”业绩大爆炸!1720人参
- 深圳职工体育节开幕|环球信息
- 微动态丨新冠红利消退后,华大基因其他业
- 【环球快播报】读书之美|人间四月天 阅
- 云南德宏州芒市发生3.2级地震,震源深度8
- 缘来客会员登录 5169888会员登录 天天精选
- 尼克斯篮板47-33骑士&前场板17-7 米切罗
- 当前聚焦:剑与魔法与国家怎么获取木材_
- 当前信息:报告称2022年深圳外借读者人均
- 企业失业保险缴费比例(失业保险缴费比例
- 如何取得管理员权限删除软件(如何取得管
- 天天热讯:射箭世界杯河南小伙射落金牌
- 天天动态:新能源汽车销量下降的主要原因
- 三丽鸥成员介绍_天天兄弟成员_视点
- 焦点简讯:23分8助5板生死战打出领袖风范
- 天天资讯:“要求解冻6.8亿美元资产申诉
- 【播资讯】短路接地线
- 建安区图书馆开展送书进军营活动
- 天天热头条丨最新!江苏一地宣布:这些人
- 中国上城(02330):内部控制审阅完成 继
- 目标价为华尔街10倍!木头姐为何如此看好
- 【井鸣|巍生】月迷津渡91钥匙&项圈
- 来凤藤茶亮相第十四届北京国际茶业及茶艺
- “外卖诗人”王计兵:我笨拙地爱着这个世
- 广东法院去年共审结各类知识产权案件12万
- 世界十大健康食品_十大健康食品
- 2023年十大最好听的歌曲大全_全球今亮点
- 扎哈罗娃曝德国言行不一:说要驱逐俄人员
- 布兰特:多特某些时候缺乏战术纪律性 罗
- 非洲客商期待前来中国广交会寻找新商机|
- 环球通讯!孕妇、产妇这样吃
- 每日热门:2023版熊猫金币30克今天报价(
- 政企携手优服务 专项整治“转供电”
- 涉嫌严重违纪违法,原银监会处置非法集资
- 【环球快播报】探月四期稳步推进 嫦娥家
- 跨越百亿!东鹏饮料以绿色和创新引领行业
- 世界百事通!今日重点关注的财经数据和事
- 当百万级电动车成为常态,燃油车正迎来最
- 统计局:4月中旬生猪(外三元)价格环比
- 膝盖缝针后几天拆线_缝针后几天拆线
- 环球时讯:“宁王”业绩大爆炸!1720人参
- 深圳职工体育节开幕|环球信息
- 微动态丨新冠红利消退后,华大基因其他业
- 【环球快播报】读书之美|人间四月天 阅
- 云南德宏州芒市发生3.2级地震,震源深度8
- 缘来客会员登录 5169888会员登录 天天精选
- 尼克斯篮板47-33骑士&前场板17-7 米切罗
- 当前聚焦:剑与魔法与国家怎么获取木材_
- 当前信息:报告称2022年深圳外借读者人均
- 企业失业保险缴费比例(失业保险缴费比例
- 如何取得管理员权限删除软件(如何取得管
- 天天热讯:射箭世界杯河南小伙射落金牌
- 天天动态:新能源汽车销量下降的主要原因
- 三丽鸥成员介绍_天天兄弟成员_视点
- 焦点简讯:23分8助5板生死战打出领袖风范
- 天天资讯:“要求解冻6.8亿美元资产申诉
- 【播资讯】短路接地线
- 建安区图书馆开展送书进军营活动
- 天天热头条丨最新!江苏一地宣布:这些人
- 中国上城(02330):内部控制审阅完成 继
- 目标价为华尔街10倍!木头姐为何如此看好
- 【井鸣|巍生】月迷津渡91钥匙&项圈
- 来凤藤茶亮相第十四届北京国际茶业及茶艺
- “外卖诗人”王计兵:我笨拙地爱着这个世
- 广东法院去年共审结各类知识产权案件12万
- 世界十大健康食品_十大健康食品
- 2023年十大最好听的歌曲大全_全球今亮点
- 扎哈罗娃曝德国言行不一:说要驱逐俄人员
- 布兰特:多特某些时候缺乏战术纪律性 罗
- 非洲客商期待前来中国广交会寻找新商机|
- 环球通讯!孕妇、产妇这样吃
- 世界快播:ps背景虚化快捷键_ps背景虚化
- 焦点速递!奥园健康:王吉人接替陈木贵出
- 日本的物价可真不低啊!三份打折便当一共
- 车票紧俏,增开列车
- 世界播报:恒逸石化董秘回复:公司严格遵
- 马里一机场附近发生炸弹袭击 已致9死61
- 克蒂圣姆峰SV800|上海车展全球首发
- 资讯:广德市:提高“跨省通办”就医直接
- 要闻速递:新华全媒+|先进制造业走势稳
- 海上风电前期开发,哪个国家最难?
- “一本书·一个人·一座城”国图讲坛全国
- 旅游业复苏渐入佳境-天天观速讯
- 每日快报!会东县气象台解除大风蓝色预警
- 特朗普长期盟友被德桑蒂斯“挖走” 或帮
- 天天热讯:4月23日华北地区对二甲苯装置动态
- 万宁工业经济一季度实现“开门红”稳增长
- 印尼苏门答腊岛南部海域发生5.8级地震-当
- 绑定华为的极狐,上一台车卖 30 万,这
- 菜鸟、京东物流再提速,快递业卷出新高度
- 我国全面完成生态保护红线划定工作 切实
















