其次,目前MLLMs对视觉功能的支持还有所不足。大多数模型仅能进行理解,或者最多生成图像或视频。研究人员认为,未来的MLLMs应该是一个通用大语言模型,能覆盖更广泛的视觉任务和操作范围,实现对所有视觉相关任务的统一支持,达到“one for all”的能力。这点对实际应用尤其是在经常涉及一系列迭代和交互操作的视觉创作中至关重要。例如,用户通常首先从文本开始,通过文生图,将一个想法转化为视觉内容;然后通过进一步的细粒度图像编辑来完善初始想法,添加更多细节;接着,通过图像生成视频来创建动态内容;最后,进行几轮迭代交互,如视频编辑,完善创作。
上表简单地归纳了现有的视觉MLLM的能力(只代表性地囊括了部分模型,覆盖不全面)。为了弥补这些差距,该团队提出一种通用的像素级视觉MLLM——Vitron。
02. Vitron系统架构:三大关键模块
Vitron整体框架如下图所示。Vitron采用了与现有相关MLLMs相似的架构,包括三个关键部分:1) 前端视觉&语言编码模块,2) 中心LLM理解和文本生成模块,以及3) 后端用户响应和模块调用以进行视觉操控模块。
前端模块:视觉-语言编码。为了感知图像和视频模态信号,并支持细粒度用户视觉输入,融易新媒体消息,Vitron集成了图像编码器、视频编码器、区域框/草图编码器。
中心模块:核心LLM。Vitron使用的是Vicuna(7B,1.5),来实现理解、推理、决策制定和多轮用户交互。
后端模块:用户响应与模块调用。Vitron采用以文本为中心的调用策略,整合现成的几个强大先进(SoTA)的图像和视频处理模块,用于解码和执行从低层到高层的一系列视觉终端任务。通过采用以文本为中心的模块集成调用方法,Vitron不仅实现了系统统一,还确保了对齐效率和系统可扩展性。
03. Vitron模型训练三大阶段
基于上述架构,再对Vitron进行训练微调,以赋予其强大的视觉理解和任务执行能力。模型训练主要囊括三个不同的阶段。
步骤一:视觉-语言整体对齐学习。将输入的视觉语言特征映射到一个统一的特征空间中,从而使其能够有效理解输入的多模态信号。这是一种粗粒度的视觉-语言对齐学习,可以让系统具备整体上有效处理传入的视觉信号。研究人员采用了现存的图像-标题对(CC3M)、视频-标题对(Webvid)和区域-标题对(RefCOCO)的数据集进行训练。
步骤二:细粒度的时空视觉定位指令微调。系统采用了调用外部模块方式来执行各种像素级视觉任务,但LLM本身并未经过任何细粒度的视觉训练,这将会阻碍了系统实现真正的像素级视觉理解。为此,研究人员提出了一种细粒度的时空视觉定位指令微调训练,核心思想是使LLM能够定位图像的细粒度空间性和视频的究竟时序特性。
步骤三:输出端面向命令调用的指令微调。上述第二阶段的训练赋予了LLM和前端编码器在像素级别理解视觉的能力。这最后一步,面向命令调用的指令微调,旨在让系统具备精确执行命令的能力,允许LLM生成适当且正确的调用文本。由于不同的终端视觉任务可能需要不同的调用命令,为了统一这一点,研究人员提出将LLM的响应输出标准化为结构化文本格式,其中包括:
1)用户响应输出,直接回复用户的输入。
2)模块名称,指示将要执行的功能或任务。
3)调用命令,触发任务模块的元指令。
4)区域(可选输出),指定某些任务所需的细粒度视觉特征,例如在视频跟踪或视觉编辑中,后端模块需要这些信息。对于区域,基于LLM的像素级理解,将输出由坐标描述的边界框。
04. 评估实验
国联证券与民生证券的整合取得重要进展。 停牌筹划重大资产重组,整合正式拉开序幕 国联证...
2 颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团...
3 杉杉股份2023年报:核心产品获大客户认可,双主业市场份额再创2024年4月25日晚间,宁波杉杉股份有限公司(600884)发布2023年年度报告,公司2023年实现营业收...
4 三只松鼠向全员派发超2000万奖励 内部信侧重“成果共享”4月24日,三只松鼠创始人兼CEO章燎原在内网发布《CEO致全员信:超2000万向全员派发年货节超额...
5 好未来发布2024Q4及全年财报:全年净收入14.9亿美元北京2024年4月25日消息,好未来教育(纽约证券交易所:TAL,下称“好未来”或“公司”)是中国...
6 证监会同意珂玛科技创业板IPO注册中国经济网北京4月25日讯 据证监会网站消息,证监会收到深交所报送的关于苏州珂玛材料科技...
7 中信博员工持股平台拟减持 谋不超11亿定增IPO超募6亿中国经济网北京4月25日讯中信博(688408.SH)昨日晚间发布员工持股平台大宗交易减持股份计划公告...
8 清研环境跌4.53% 2022年上市即巅峰募资5.16亿元中国经济网北京4月25日讯清研环境(301288.SZ今日收报13.06元,跌幅4.53%,总市值14.11亿元。目前该...
9 出门问问港股上市第二日跌8.7% 上市首日跌3.16%中国经济网北京4月25日讯出门问问(02438.HK)港股今日收报3.36港元,跌幅8.70%,港股市值50.11亿...
10 智能化加速 问界新M5系列上市人民网北京4月24日电 (焦磊、实习生张泊洋)4月23日,华为举办问界新M5发布会。华为常务董事、...
国联证券与民生证券的整合取得重要进展。 停牌筹划重大资产重组,整合正式拉开序幕 国联证...
2 颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团...
3 杉杉股份2023年报:核心产品获大客户认可,双主业市场份额再创2024年4月25日晚间,宁波杉杉股份有限公司(600884)发布2023年年度报告,公司2023年实现营业收...
4 三只松鼠向全员派发超2000万奖励 内部信侧重“成果共享”4月24日,三只松鼠创始人兼CEO章燎原在内网发布《CEO致全员信:超2000万向全员派发年货节超额...
5 好未来发布2024Q4及全年财报:全年净收入14.9亿美元北京2024年4月25日消息,好未来教育(纽约证券交易所:TAL,下称“好未来”或“公司”)是中国...
6 证监会同意珂玛科技创业板IPO注册中国经济网北京4月25日讯 据证监会网站消息,证监会收到深交所报送的关于苏州珂玛材料科技...
7 中信博员工持股平台拟减持 谋不超11亿定增IPO超募6亿中国经济网北京4月25日讯中信博(688408.SH)昨日晚间发布员工持股平台大宗交易减持股份计划公告...
8 清研环境跌4.53% 2022年上市即巅峰募资5.16亿元中国经济网北京4月25日讯清研环境(301288.SZ今日收报13.06元,跌幅4.53%,总市值14.11亿元。目前该...
9 出门问问港股上市第二日跌8.7% 上市首日跌3.16%中国经济网北京4月25日讯出门问问(02438.HK)港股今日收报3.36港元,跌幅8.70%,港股市值50.11亿...
10 智能化加速 问界新M5系列上市人民网北京4月24日电 (焦磊、实习生张泊洋)4月23日,华为举办问界新M5发布会。华为常务董事、...
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图