研究人员基于Vitron在22个常见的基准数据集、12个图像/视频视觉任务上进行了广泛的实验评估。Vitron展现出在四大主要视觉任务群组(分割、理解、内容生成和编辑)中的强大能力,与此同时其具备灵活的人机交互能力。以下代表性地展示了一些定性比较结果:
Vision Segmentation
Results of image referring image segmentation
Fine-grained Vision Understanding
Results of image referring expression comprehension.
Results on video QA.
Vision Generation
Vision Editing
Image editing results
究竟更多详细实验内容和细节请移步论文。
05. 未来方向展望
总体上,这项工作展示了研发大一统的视觉多模态通用大模型的巨大潜力,为下一代视觉大模型的研究奠定了一个新的形态,迈出了这个方向的第一步。尽管团队所提出的Vitron系统表现出强大的通用能力,但依然存在自身的局限性。以下研究人员列出一些未来可进一步探索的方向。
系统架构
Vitron系统仍采用半联合、半代理的方式来调用外部工具。虽然这种基于调用的方法便于扩展和替换潜在模块,但这也意味着这种流水线结构的后端模块不参与到前端与LLM核心模块的联合学习。这一限制不利于系统的整体学习,这意味着不同视觉任务的性能上限将受到后端模块的限制。未来的工作应将各种视觉任务模块整合成一个统一的单元。实现对图像和视频的统一理解和输出,同时通过单一生成范式支持生成和编辑能力,仍然是一个挑战。目前一种有希望的方式是结合modality-persistent的tokenization, 提升系统在不同输入和输出以及各种任务上的统一化。
用户交互性
与之前专注于单一视觉任务的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促进LLM和用户之间的深度交互,类似于行业内的OpenAI的DALL-E系列,Midjourney等。实现最佳的用户交互性是本项工作的核心目标之一。Vitron利用现有的基于语言的LLM,结合适当的指令调整,以实现一定程度的交互。例如,系统可以灵活地响应用户输入的任何预期消息,产生相应的视觉操作结果,而不要求用户输入精确匹配后端模块条件。然而,该工作在增强交互性方面仍有很大的提升空间。例如,从闭源的Midjourney系统汲取灵感,不论LLM在每一步做出何种决定,系统都应积极向用户提供反馈,以确保其行动和决策与用户意图一致。
模态能力
当前,Vitron集成了一个7B的Vicuna模型,其可能对其理解语言、图像和视频的能力会产生某些限制。未来的探索方向可以发展一个完整的端到端系统,比如扩大模型的规模,以实现对视觉的更彻底和完整的理解。此外,应该努力使LLM能够完全统一图像和视频模态的理解。
国联证券与民生证券的整合取得重要进展。 停牌筹划重大资产重组,整合正式拉开序幕 国联证...
2 颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团...
3 杉杉股份2023年报:核心产品获大客户认可,双主业市场份额再创2024年4月25日晚间,宁波杉杉股份有限公司(600884)发布2023年年度报告,公司2023年实现营业收...
4 三只松鼠向全员派发超2000万奖励 内部信侧重“成果共享”4月24日,三只松鼠创始人兼CEO章燎原在内网发布《CEO致全员信:超2000万向全员派发年货节超额...
5 好未来发布2024Q4及全年财报:全年净收入14.9亿美元北京2024年4月25日消息,好未来教育(纽约证券交易所:TAL,下称“好未来”或“公司”)是中国...
6 证监会同意珂玛科技创业板IPO注册中国经济网北京4月25日讯 据证监会网站消息,证监会收到深交所报送的关于苏州珂玛材料科技...
7 中信博员工持股平台拟减持 谋不超11亿定增IPO超募6亿中国经济网北京4月25日讯中信博(688408.SH)昨日晚间发布员工持股平台大宗交易减持股份计划公告...
8 清研环境跌4.53% 2022年上市即巅峰募资5.16亿元中国经济网北京4月25日讯清研环境(301288.SZ今日收报13.06元,跌幅4.53%,总市值14.11亿元。目前该...
9 出门问问港股上市第二日跌8.7% 上市首日跌3.16%中国经济网北京4月25日讯出门问问(02438.HK)港股今日收报3.36港元,跌幅8.70%,港股市值50.11亿...
10 智能化加速 问界新M5系列上市人民网北京4月24日电 (焦磊、实习生张泊洋)4月23日,华为举办问界新M5发布会。华为常务董事、...
国联证券与民生证券的整合取得重要进展。 停牌筹划重大资产重组,整合正式拉开序幕 国联证...
2 颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团...
3 杉杉股份2023年报:核心产品获大客户认可,双主业市场份额再创2024年4月25日晚间,宁波杉杉股份有限公司(600884)发布2023年年度报告,公司2023年实现营业收...
4 三只松鼠向全员派发超2000万奖励 内部信侧重“成果共享”4月24日,三只松鼠创始人兼CEO章燎原在内网发布《CEO致全员信:超2000万向全员派发年货节超额...
5 好未来发布2024Q4及全年财报:全年净收入14.9亿美元北京2024年4月25日消息,好未来教育(纽约证券交易所:TAL,下称“好未来”或“公司”)是中国...
6 证监会同意珂玛科技创业板IPO注册中国经济网北京4月25日讯 据证监会网站消息,证监会收到深交所报送的关于苏州珂玛材料科技...
7 中信博员工持股平台拟减持 谋不超11亿定增IPO超募6亿中国经济网北京4月25日讯中信博(688408.SH)昨日晚间发布员工持股平台大宗交易减持股份计划公告...
8 清研环境跌4.53% 2022年上市即巅峰募资5.16亿元中国经济网北京4月25日讯清研环境(301288.SZ今日收报13.06元,跌幅4.53%,总市值14.11亿元。目前该...
9 出门问问港股上市第二日跌8.7% 上市首日跌3.16%中国经济网北京4月25日讯出门问问(02438.HK)港股今日收报3.36港元,跌幅8.70%,港股市值50.11亿...
10 智能化加速 问界新M5系列上市人民网北京4月24日电 (焦磊、实习生张泊洋)4月23日,华为举办问界新M5发布会。华为常务董事、...
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图