当前位置:主页 > 财经 > 股市 > 颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态(3)

颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态(3)

2024-04-26 02:47:34来源:中国网科技

文章导读
近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。 这是一款重磅的通用视觉多模态大...

  研究人员基于Vitron在22个常见的基准数据集、12个图像/视频视觉任务上进行了广泛的实验评估。Vitron展现出在四大主要视觉任务群组(分割、理解、内容生成和编辑)中的强大能力,与此同时其具备灵活的人机交互能力。以下代表性地展示了一些定性比较结果: 

  Vision Segmentation

  

  Results of image referring image segmentation 

  Fine-grained Vision Understanding

  

  Results of image referring expression comprehension.

  

  Results on video QA. 

  Vision Generation

  

  Vision Editing

  

  Image editing results 

  究竟更多详细实验内容和细节请移步论文。 

  05. 未来方向展望 

  总体上,这项工作展示了研发大一统的视觉多模态通用大模型的巨大潜力,为下一代视觉大模型的研究奠定了一个新的形态,迈出了这个方向的第一步。尽管团队所提出的Vitron系统表现出强大的通用能力,但依然存在自身的局限性。以下研究人员列出一些未来可进一步探索的方向。 

  系统架构 

  Vitron系统仍采用半联合、半代理的方式来调用外部工具。虽然这种基于调用的方法便于扩展和替换潜在模块,但这也意味着这种流水线结构的后端模块不参与到前端与LLM核心模块的联合学习。这一限制不利于系统的整体学习,这意味着不同视觉任务的性能上限将受到后端模块的限制。未来的工作应将各种视觉任务模块整合成一个统一的单元。实现对图像和视频的统一理解和输出,同时通过单一生成范式支持生成和编辑能力,仍然是一个挑战。目前一种有希望的方式是结合modality-persistent的tokenization, 提升系统在不同输入和输出以及各种任务上的统一化。 

  用户交互性 

  与之前专注于单一视觉任务的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促进LLM和用户之间的深度交互,类似于行业内的OpenAI的DALL-E系列,Midjourney等。实现最佳的用户交互性是本项工作的核心目标之一。Vitron利用现有的基于语言的LLM,结合适当的指令调整,以实现一定程度的交互。例如,系统可以灵活地响应用户输入的任何预期消息,产生相应的视觉操作结果,而不要求用户输入精确匹配后端模块条件。然而,该工作在增强交互性方面仍有很大的提升空间。例如,从闭源的Midjourney系统汲取灵感,不论LLM在每一步做出何种决定,系统都应积极向用户提供反馈,以确保其行动和决策与用户意图一致。 

  模态能力 

  当前,Vitron集成了一个7B的Vicuna模型,其可能对其理解语言、图像和视频的能力会产生某些限制。未来的探索方向可以发展一个完整的端到端系统,比如扩大模型的规模,以实现对视觉的更彻底和完整的理解。此外,应该努力使LLM能够完全统一图像和视频模态的理解。 


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 国联证券筹划重大资产重组,与民生证券的整合取得重要进展

国联证券与民生证券的整合取得重要进展。 停牌筹划重大资产重组,整合正式拉开序幕 国联证...

2 颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定

近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团...

3 杉杉股份2023年报:核心产品获大客户认可,双主业市场份额再创

2024年4月25日晚间,宁波杉杉股份有限公司(600884)发布2023年年度报告,公司2023年实现营业收...

4 三只松鼠向全员派发超2000万奖励 内部信侧重“成果共享”

4月24日,三只松鼠创始人兼CEO章燎原在内网发布《CEO致全员信:超2000万向全员派发年货节超额...

5 好未来发布2024Q4及全年财报:全年净收入14.9亿美元

北京2024年4月25日消息,好未来教育(纽约证券交易所:TAL,下称“好未来”或“公司”)是中国...

6 证监会同意珂玛科技创业板IPO注册

中国经济网北京4月25日讯 据证监会网站消息,证监会收到深交所报送的关于苏州珂玛材料科技...

7 中信博员工持股平台拟减持 谋不超11亿定增IPO超募6亿

中国经济网北京4月25日讯中信博(688408.SH)昨日晚间发布员工持股平台大宗交易减持股份计划公告...

8 清研环境跌4.53% 2022年上市即巅峰募资5.16亿元

中国经济网北京4月25日讯清研环境(301288.SZ今日收报13.06元,跌幅4.53%,总市值14.11亿元。目前该...

9 出门问问港股上市第二日跌8.7% 上市首日跌3.16%

中国经济网北京4月25日讯出门问问(02438.HK)港股今日收报3.36港元,跌幅8.70%,港股市值50.11亿...

10 智能化加速 问界新M5系列上市

人民网北京4月24日电 (焦磊、实习生张泊洋)4月23日,华为举办问界新M5发布会。华为常务董事、...

1 国联证券筹划重大资产重组,与民生证券的整合取得重要进展

国联证券与民生证券的整合取得重要进展。 停牌筹划重大资产重组,整合正式拉开序幕 国联证...

2 颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定

近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团...

3 杉杉股份2023年报:核心产品获大客户认可,双主业市场份额再创

2024年4月25日晚间,宁波杉杉股份有限公司(600884)发布2023年年度报告,公司2023年实现营业收...

4 三只松鼠向全员派发超2000万奖励 内部信侧重“成果共享”

4月24日,三只松鼠创始人兼CEO章燎原在内网发布《CEO致全员信:超2000万向全员派发年货节超额...

5 好未来发布2024Q4及全年财报:全年净收入14.9亿美元

北京2024年4月25日消息,好未来教育(纽约证券交易所:TAL,下称“好未来”或“公司”)是中国...

6 证监会同意珂玛科技创业板IPO注册

中国经济网北京4月25日讯 据证监会网站消息,证监会收到深交所报送的关于苏州珂玛材料科技...

7 中信博员工持股平台拟减持 谋不超11亿定增IPO超募6亿

中国经济网北京4月25日讯中信博(688408.SH)昨日晚间发布员工持股平台大宗交易减持股份计划公告...

8 清研环境跌4.53% 2022年上市即巅峰募资5.16亿元

中国经济网北京4月25日讯清研环境(301288.SZ今日收报13.06元,跌幅4.53%,总市值14.11亿元。目前该...

9 出门问问港股上市第二日跌8.7% 上市首日跌3.16%

中国经济网北京4月25日讯出门问问(02438.HK)港股今日收报3.36港元,跌幅8.70%,港股市值50.11亿...

10 智能化加速 问界新M5系列上市

人民网北京4月24日电 (焦磊、实习生张泊洋)4月23日,华为举办问界新M5发布会。华为常务董事、...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图