当前位置:主页 > 财经 > 股市 > 颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

2024-04-26 02:47:34来源:中国网科技

文章导读
近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。 这是一款重磅的通用视觉多模态大...

  近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。 

  这是一款重磅的通用视觉多模态大模型,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,解决了困扰大语言模型产业已久的图像/视频模型割裂问题,提供了一个完整统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。 

  Vitron作为一个统一的像素级视觉多模态大语言模型,实现了从低层次到高层次的视觉任务的完整支持,能够处理复杂的视觉任务,并理解和生成图像和视频内容,提供了强大的视觉理解和任务执行能力。同时,Vitron支持与用户的连续操作,实现了灵活的人机互动,展示了通向更统一的视觉多模态通用模型的巨大潜力。 

  Vitron相关的论文、代码和Demo已全部公开,其在综合性、技术创新、人机交互和应用潜力等方面展现出的独特优势和潜力,不仅推动了多模态大模型的发展,还为未来的视觉大模型研究提供了一个新的方向。 

  一直以来,昆仑万维2050全球研究院都致力于打造一家面向未来世界的卓越科学研究机构,与科学社区共同跨越“奇点”,探索未知世界,创造美好未来。此前,昆仑万维2050全球研究院已经发布并开源了数字智能体研发工具包AgentStudio,未来,研究院还将不断推动人工智能技术突破,为中国人工智能生态建设贡献力量。 

  当前视觉大语言模型(LLMs)的发展取得了喜人进展。社区越来越相信,构建更通用、更强大的多模态大模型(MLLMs)将会是通向通用人工智能(AGI)的必经之路。但在向多模态通用大模型(Generalist)的迈进过程中,目前仍存在一些关键挑战。比如很大一部分工作都没有实现细粒度像素级别的视觉理解,或者缺乏对图像和视频的统一支持。抑或对于各种视觉任务的支持不充分,离通用大模型相差甚远。 

  为了填补这个空白,近日,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布开源了Vitron通用像素级视觉多模态大语言模型。Vitron支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,包括静态图像和动态视频内容进行完整的理解、生成、分割和编辑等任务。

  

  上图综合描绘了Vitron在四大视觉相关任务的功能支持,以及其关键优势。Vitron还支持与用户的连续操作,实现灵活的人机互动。该项目展示了面向更统一的视觉多模态通用模型的巨大潜力,为下一代通用视觉大模型的终极形态奠定了基础。 

  Vitron相关论文、代码、Demo目前已全部公开。

  

  01. 大一统的终极多模态大语言模型 

  近年来,大语言模型(LLMs)展现出了前所未有的强大能力,其遭逐渐验证为乃是通向AGI的技术路线。而多模态大语言模型(MLLMs)在多个社区火爆发展且迅速出圈,通过引入能进行视觉感知的模块,扩展纯语言基础LLMs至MLLMs,众多在图像理解方面强大卓越的MLLMs遭研发问世,例如BLIP-2、LLaVA、MiniGPT-4等等。与此同时,专注于视频理解的MLLMs也陆续面世,如VideoChat、Video-LLaMA和Video-LLaVA等等。 

  随后,研究人员主要从两个维度试图进一步扩展MLLMs的能力。一方面,研究人员尝试深化MLLMs对视觉的理解,从粗略的实例级理解过渡到对图像的像素级细粒度理解,从而实现视觉区域定位(Regional Grounding)能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。另一方面,研究人员尝试扩展MLLMs可以支持的视觉功能。部分研究已经开始研究让MLLMs不仅理解输入视觉信号,还能支持生成输出视觉内容。比如,GILL、Emu等MLLMs能够灵活生成图像内容,以及GPT4Video和NExT-GPT实现视频生成。 

  目前人工智能社区已逐渐达成一致,认为视觉MLLMs的未来趋势必然会朝着高度统一、能力更强的方向发展。然而,尽管社区开发了众多的MLLMs,但仍然存在明显的鸿沟。 

  首先,几乎所有现有的视觉LLMs将图像和视频视为不同的实体,要么仅支持图像,要么仅支持视频。研究人员主张,视觉应该同时包含了静态图像和动态视频两个方面的内涵——这两者都是视觉世界的核心组成,在大多数场景中甚至可以互换。所以,需要构建一个统一的MLLM框架能够同时支持图像和视频模态。 


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 国联证券筹划重大资产重组,与民生证券的整合取得重要进展

国联证券与民生证券的整合取得重要进展。 停牌筹划重大资产重组,整合正式拉开序幕 国联证...

2 颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定

近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团...

3 杉杉股份2023年报:核心产品获大客户认可,双主业市场份额再创

2024年4月25日晚间,宁波杉杉股份有限公司(600884)发布2023年年度报告,公司2023年实现营业收...

4 三只松鼠向全员派发超2000万奖励 内部信侧重“成果共享”

4月24日,三只松鼠创始人兼CEO章燎原在内网发布《CEO致全员信:超2000万向全员派发年货节超额...

5 好未来发布2024Q4及全年财报:全年净收入14.9亿美元

北京2024年4月25日消息,好未来教育(纽约证券交易所:TAL,下称“好未来”或“公司”)是中国...

6 证监会同意珂玛科技创业板IPO注册

中国经济网北京4月25日讯 据证监会网站消息,证监会收到深交所报送的关于苏州珂玛材料科技...

7 中信博员工持股平台拟减持 谋不超11亿定增IPO超募6亿

中国经济网北京4月25日讯中信博(688408.SH)昨日晚间发布员工持股平台大宗交易减持股份计划公告...

8 清研环境跌4.53% 2022年上市即巅峰募资5.16亿元

中国经济网北京4月25日讯清研环境(301288.SZ今日收报13.06元,跌幅4.53%,总市值14.11亿元。目前该...

9 出门问问港股上市第二日跌8.7% 上市首日跌3.16%

中国经济网北京4月25日讯出门问问(02438.HK)港股今日收报3.36港元,跌幅8.70%,港股市值50.11亿...

10 智能化加速 问界新M5系列上市

人民网北京4月24日电 (焦磊、实习生张泊洋)4月23日,华为举办问界新M5发布会。华为常务董事、...

1 国联证券筹划重大资产重组,与民生证券的整合取得重要进展

国联证券与民生证券的整合取得重要进展。 停牌筹划重大资产重组,整合正式拉开序幕 国联证...

2 颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定

近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团...

3 杉杉股份2023年报:核心产品获大客户认可,双主业市场份额再创

2024年4月25日晚间,宁波杉杉股份有限公司(600884)发布2023年年度报告,公司2023年实现营业收...

4 三只松鼠向全员派发超2000万奖励 内部信侧重“成果共享”

4月24日,三只松鼠创始人兼CEO章燎原在内网发布《CEO致全员信:超2000万向全员派发年货节超额...

5 好未来发布2024Q4及全年财报:全年净收入14.9亿美元

北京2024年4月25日消息,好未来教育(纽约证券交易所:TAL,下称“好未来”或“公司”)是中国...

6 证监会同意珂玛科技创业板IPO注册

中国经济网北京4月25日讯 据证监会网站消息,证监会收到深交所报送的关于苏州珂玛材料科技...

7 中信博员工持股平台拟减持 谋不超11亿定增IPO超募6亿

中国经济网北京4月25日讯中信博(688408.SH)昨日晚间发布员工持股平台大宗交易减持股份计划公告...

8 清研环境跌4.53% 2022年上市即巅峰募资5.16亿元

中国经济网北京4月25日讯清研环境(301288.SZ今日收报13.06元,跌幅4.53%,总市值14.11亿元。目前该...

9 出门问问港股上市第二日跌8.7% 上市首日跌3.16%

中国经济网北京4月25日讯出门问问(02438.HK)港股今日收报3.36港元,跌幅8.70%,港股市值50.11亿...

10 智能化加速 问界新M5系列上市

人民网北京4月24日电 (焦磊、实习生张泊洋)4月23日,华为举办问界新M5发布会。华为常务董事、...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图