国产大模型,登顶多模态榜单!
昆仑万维最近在大模型圈可谓“风生水起”。
几天前刚遭曝挖来了AI大牛颜水成,出任天工智能联席CEO。
现在,其「天工」大模型Skywork-MM又登顶多模态榜单,在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。
△MME感知榜第一,认知榜第二,总榜第一
腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。
MME数据集是一个最近发布的多模态语言模型测评基准。
它通过大型多模态语言模型在涵盖感知和认知任务的14个子任务上的表现来全面评估模型。
而Skywork-MM只用了不到50M的图文数据——远小于其他大模型(>100M),拿下了第一(榜单地址见文末)。
如何做到?
主要是解决了现有多模态大模型中颇为困扰的两大问题:
幻觉和较弱的跨语言能力。
多模态两大难
所谓幻觉,是指多模态大模型在回答问题时,倾向于肯定的答案,即使我们所给的问题中根本没有相关特征。
例如面对下面这张图像。
如果问它“这个男人的头发是什么颜色?”,即使优秀如LLaVA、MiniGPT-4等多模态大模型,也会“睁着眼说瞎话”:黑色。
再如这张图片:一个玻璃杯、一个茶杯、一个浴缸里面有条小金鱼。
如果问它“图片中的所有物品都是黄色的吗?”,没有谁能答对。
至于跨语言能力问题,主要表现在应对中文场景中的问题回答不尽如人意。
比如辨认下面这张图片是“科罗拉多大峡谷还是苏州园林”时,3个双语多模态语言模型:LLaVA、LLaVA-Chinese、ImageBind-LLm全部回答成前者。
问它们从哪里能观赏到该景色,就更是一言难尽了。
甚至有时,模型还会直接回复纯英文。
这两大问题严重影响着现有多模态大模型的性能。
怎么解决?
三方面入手
昆仑万维天工大模型Skywork-MM从分别从数据、模型和训练流程三方面入手。
其中重点是数据和模型。
先看数据。
首先对于幻觉问题。
从本质出发,该问题主要是整个模型训练过程中使用的数据太偏重正样本。
也就是说,模型描述的都是图片中有什么,而没有学习图片中没有什么。
如果训练过程中再碰上弱相关的图文数据,模型就更加放飞联想、形成较严重的幻觉。
为此,天工大模型多模态团队提出以图像为中心,喂给模型既包含正样本也包含负样本的多模态指令微调数据:
这使得模型既能够学习一张图像中存在的视觉特征,也能学习到不存在的特征。
这样,模型的指令跟随能力便得到增强:问什么答什么,没有的也不胡编。
其次,对于跨语言中的中文问题,一共有两个解决思路:
(1)增强中文的指令追随能力。
由于“微调指令的文化gap很小”,只需将上面解决幻觉问题中构造的英文指令微调数据翻译成中文使用。
(2)增强中文相关场景的识别能力。
需要注意的是,在解决跨语言问题时,我们重点关注的点是文化偏差——
即通用的视觉特征和语言特征可以通过共有的语料进行关联,但是各个语言文化中专有的视觉特征和语言特征的关联需要大量特殊学习。
因此我们需要加入大规模的中文图像-文本对数据。
不过,这样的中文语料并不好收集,一是囿于数据质量,而是困于数量。
怎么办?
引出Skywork-MM在模型架构上的改进。
为了不让低质量的图文数据影响模型效果,天工大模型多模态团队在设计上选择将视觉模型和大语言模型完全冻结。
这样做的目的是保持视觉模型在前置CLIP训练中学习到的视觉特征不损失,以及大语言模型的语言能力不损失。
同时,为了更好的关联不同文化环境中的视觉特征和语言特征,模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。
如下图所示,Skywork-MM一共包含四大模块:
给定一张图像,LVM先提取图像特征,然后将图像特征输入到重采样器中,计算出可为LLM输入的token。
LLM接收token和指令提示(如果有),然后输出图像描述或对问题的回答。
至于训练流程,主要分为两阶段:
第一阶段使用双语的大规模图文对数据进行图像概念和语言概念的关联学习。
第二阶段使用多模态微调数据进行指令微调。
此时,各种类型的指令微调数据(包括正样本和负样本)就组成统一的Chat Prompt形式。
Ps. 上图中的重采样器和LoRA适配器标记了火焰,它们是可训练的。
登顶MME综合榜单
如下表所示,Skywork-MM一共用了大约50M图文数据,这比当前的同类大模型都要少得多。
但经过以上数据、模型和训练流程三方面的改进,Skywork-MM效果拔群。
如下图所示:
它能够准确理解图片中的反常行为;
也能听明白一些特殊的指令(根据选项回答问题,根据风景写诗,写广告词,写获奖感言等等);
对于中文场景问题,表现得也不再像个“歪果仁”了。
可谓拥有了良好的指令跟随和中文场景问答能力。
因此像第一段展示的那些幻觉和跨语言问题,它完全可以信手拈来:
孟非没有头发就没有,不会说成黑色;苏州园林、非诚勿扰节目一眼认出;三个物体没有一个是黄色。
而如开头所示,在与其他模型的横向测试中,Skywork-MM直接荣登MME榜单综合第一,包括感知榜单第一(且与第二名有着43分的差距)、认知榜单第二。
这个榜单大约今年6月上线、目前GitHub 4k标星,是当前多模态大模型最新的测评基准之一。
(原标题:太保服务——服务智筑“防汛堤”) “姑苏城外寒山寺,夜半钟声到客船” 一首《...
2 天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题国产大模型,登顶多模态榜单! 昆仑万维 最近在大模型圈可谓“风生水起”。 几天前刚遭曝...
3 康佳集团:为高质量共建“一带一路”贡献科技力量(原标题:康佳集团:为高质量共建“一带一路”贡献科技力量) “一带一路”倡议十周年,...
4 锐叔论市 底部信号逐步加强!(原标题:锐叔论市 底部信号逐步加强!) 《投资者网》特约国金证券财富领航员 毛锐 周二...
5 慕思股份营收下滑募投项目延期 床垫行业进入整合发展阶段(原标题:慕思股份营收下滑募投项目延期 床垫行业进入整合发展阶段) 《投资者网》丁琬璎...
6 老游征途再焕“第二春”,巨人网络出海仍掉队(原标题:老游征途再焕“第二春”,巨人网络出海仍掉队) 《投资者网》潘思敏 今年第二季...
7 央行:全面推进支付行业规范运行和高质量发展;百亿级私募加(原标题:央行:全面推进支付行业规范运行和高质量发展;百亿级私募加仓,期待AI赛道下半...
8 上市券商中报成绩单:经纪业务承压 7家归母净利润下滑丨中报(原标题:上市券商中报成绩单:经纪业务承压 7家归母净利润下滑丨中报专题) 《投资者网...
9 九毛九业绩回暖,太二之后谁能扛起大旗(原标题:九毛九业绩回暖,太二之后谁能扛起大旗) 《投资者网》侯书青 近日,九毛九(...
10 郑州银行:“稳经济”“促增长” 助力本地经济高质量发展(原标题:郑州银行:“稳经济”“促增长” 助力本地经济高质量发展) 《投资者网》丁琬璎...
(原标题:太保服务——服务智筑“防汛堤”) “姑苏城外寒山寺,夜半钟声到客船” 一首《...
2 天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题国产大模型,登顶多模态榜单! 昆仑万维 最近在大模型圈可谓“风生水起”。 几天前刚遭曝...
3 康佳集团:为高质量共建“一带一路”贡献科技力量(原标题:康佳集团:为高质量共建“一带一路”贡献科技力量) “一带一路”倡议十周年,...
4 锐叔论市 底部信号逐步加强!(原标题:锐叔论市 底部信号逐步加强!) 《投资者网》特约国金证券财富领航员 毛锐 周二...
5 慕思股份营收下滑募投项目延期 床垫行业进入整合发展阶段(原标题:慕思股份营收下滑募投项目延期 床垫行业进入整合发展阶段) 《投资者网》丁琬璎...
6 老游征途再焕“第二春”,巨人网络出海仍掉队(原标题:老游征途再焕“第二春”,巨人网络出海仍掉队) 《投资者网》潘思敏 今年第二季...
7 央行:全面推进支付行业规范运行和高质量发展;百亿级私募加(原标题:央行:全面推进支付行业规范运行和高质量发展;百亿级私募加仓,期待AI赛道下半...
8 上市券商中报成绩单:经纪业务承压 7家归母净利润下滑丨中报(原标题:上市券商中报成绩单:经纪业务承压 7家归母净利润下滑丨中报专题) 《投资者网...
9 九毛九业绩回暖,太二之后谁能扛起大旗(原标题:九毛九业绩回暖,太二之后谁能扛起大旗) 《投资者网》侯书青 近日,九毛九(...
10 郑州银行:“稳经济”“促增长” 助力本地经济高质量发展(原标题:郑州银行:“稳经济”“促增长” 助力本地经济高质量发展) 《投资者网》丁琬璎...
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 融易新媒体