昆仑万维天工一刻 | 一文看懂图文多模态大模型

2024-03-26 18:24:11来源：互联网

文章导读: （原标题：昆仑万维天工一刻 | 一文看懂图文多模态大模型） ▲头图由昆仑万维天工大模型生成▲ 随着大模型技术迎来颠覆性突破，新兴AI应用大量涌现，不断重塑着人类、机器与智能的关系...

（原标题：昆仑万维天工一刻 | 一文看懂图文多模态大模型）

▲头图由昆仑万维天工大模型生成▲

随着大模型技术迎来颠覆性突破，新兴AI应用大量涌现，不断重塑着人类、机器与智能的关系。

为此，昆仑万维集团重磅推出《天工一刻》系列产业观察栏目。在本栏目中，我们将对大模型产业热点、技术创新、应用案例进行深度解读，同时邀请学术专家、行业领袖分享优秀的大模型行业趋势、技术进展，以飨读者。

当前，大模型领域最火的研究方向之一，当属多模态大模型。

自大模型技术兴起以来，海量AI辅助创作的文案、图像、视频却如雨后春笋般涌现；其中最成熟的，正是图文多模态大模型。

自2023年初开始，微软KOSMOS-1、谷歌PaLM-E、OpenAI GPT-4/4V、Mate ImageBind、开源项目MiniGPT-4、开源项目LLaVA……还有Flamingo系列、CLIP系列、BLIP系列、DALL·E系列、Stable Diffusion系列等一大批技术创新涌现，产业风起云涌，好不热闹。

AI画画、AI证件照、AI解释“表情包”、AI发票识别……这些令人惊叹的新兴AI应用背后，都离不开多模态技术的“加持”。可以说，看懂了多模态大模型，才能真正了解大模型的未来。

2023年8月，昆仑万维推出国内第一款AI搜索引擎，成为中国AI搜索鼻祖。当前，基于自研“天工”系列基座大模型，昆仑万维已构建起AI大模型、AI搜索、AI音乐、AI Story、AI游戏等AI业务矩阵。

在天工AI智能助手APP中，用户也可以通过AI画画、AI识图等功能，体验到天工大模型强大的多模态AI功能。

本文将从以下方向介绍多模态技术：

1、什么是图文多模态大模型？

2、图文多模态大模型的三大研究方向

3、图文多模态大模型的主流技术方向

4、前沿创新与天工自研Mental Notes技术

早在2023年9月初，昆仑万维天工大模型团队就推出了自研多模态大模型Skywork-MM v1。

Skywork-MM由一个视觉编码器、一个可学习采样器模块和一个经LoRA调优后的大语言模型组成。

针对目前困扰多模态大模型领域的众多挑战，昆仑万维团队从特定SFT数据集训练、知识定义与诱导、模型结构、训练方式等领域进行创新，并推出自研Mental Notes技术，模拟人类认知过程，显著降低了多模态大模型“幻觉”问题，增强了中文的指令追随能力、中文相关场景的识别能力，降低了文化偏见对于多模态理解造成的限制。

同时，昆仑万维天工大模型团队还公开了名为《Empirical Study Towards Building An Effective Multi-Modal Large Language Model》的技术论文。

▲昆仑万维天工多模态大模型团队论文截图▲

01 当我们谈论多模态时，我们在谈论什么

模态（Modal）在计算机用语中，可以理解为计算机和人之间的单一独立感官输入与输出通道的分类——如文字、图像、声音。

与多模态相对应的是单模态，即单一交互种类。举例而言，ChatGPT就是一种典型的单模态产品，在2022年11月发布之初，它只能用文字与用户进行交流，而GPT-4V则能同时处理文字和图像信息。

对于人类来说，多模态是一种极其自然的交互方式。看一段带字幕的视频、欣赏一朵颜色娇艳的鲜花，我们的眼睛、耳朵、鼻子能同时接收到来自外界的信号，并由大脑统一调控处理。

但对于计算机而言，这种多模态交互却极其不自然。

在计算机领域，一直以来，各类模态的研究都在“单兵作战”。

做图像的专注做图像，做文本的做文本，偶尔有人想做个模态融合，却往往苦于技术局限，难以打破模态壁垒。

比如，上一轮席卷全球的人工智能热潮正是在图像领域（CV，计算机视觉Computer Vision）。

彼时，由于CNN（卷积神经网络）技术取得突破，带动了人脸识别、图像识别、视频检测等一大批图像领域的创新突破，准确率迅速超越人类，达到商用标准。

不幸的是，这项技术在文本理解上的效果相当一般。当时一个AI程序能够在人脸识别的精准度上达到99.99%，却在人类语言理解上不如一个幼儿园的小朋友。

而本轮人工智能热潮则发源于文本领域（NLP，自然语言理解Natural Language Processing）。

2018年，预训练Transformer模型横空出世，在文本领域掀起革命，一夜之间，以GPT为代表的大语言模型（LLM, Large Language Model）席卷全球，大模型火爆全网。

此时，有趣的事情发生了。

但当研究人员将Transformer结构试图用于图像领域，设计出ViT（Vision Transformer）结构时，竟在图像领域取得了极其惊人的良好效果。

ViT将图像划分为固定像素大小的正方形的单元作为token，通过分单元处理与线性映射，使得每个像素方块成为了基于单词设计的Transformer结构可接受的输入，一举打破了CV和NLP之间的壁垒。

2020年10月22日，《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》论文发布。自此，一扇新世界的大门打开了。

02 图文多模态技术三大研究方向

从流程来看，图文多模态大模型可以大致划分为输入、输出两个步骤；从技术上则可以分为：

? 专注输入的多模态理解模型Understanding Models

? 专注输出的多模态生成模型Generation Models

? 统一理解与生成的通用模型General-Purpose Models

其中，理解模型是当前学术与产业界的研究重点。

共3页: 上一页【1】【2】【3】下一页

免责声明: 融易新媒体转载此文目的在于传递更多信息，不代表本网的观点和立场。文章内容仅供参考，不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时修改或删除。

上一篇：让保险惠及更多人群，弘康人寿完整开展“普惠金融推进月”活动 返回首页 返回栏目

下一篇：岁月陈酿，滴滴浓香泸州老窖全新战略品系窖系列产品荣耀上市

头条资讯

岁月陈酿，滴滴浓香泸州老窖全新战略品系窖系列产品荣耀上市: 昆仑万维天工一刻 | 一文看懂图文多模态大模型让保险惠及更多人群，弘康人寿完整开展“普惠金融推进月”活金融消保在身边丨厦门国际银行南平分行：致力于提供“有温度珠江人寿的经营困境，能否靠合生珠江系整合改善？

服装大模型+算力“新”力量！工业互联赋能红豆服装厚植新质: 普聚金融服务，惠及千企万户，浦发银行读懂投资心理学，做自己的财神！｜思维药明康德2023年营收突破400亿元，CXO行业有卫龙美味（9985.HK）加速推进“多品类大单

卫龙美味（9985.HK）加速推进“多品类大单品+全渠道”建设全年: 中国金茂产品进化论：在空间价值和情绪价值之上开启更美生活梦之蓝·手工班战略升级，洋河的创新欲怎么那么强？拼多多式消费升级：更好的生活也可以很划算长期价值创造者：中信银行的“强核”变革之路