当前位置:主页 > 科技 > 自媒体 > OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮

OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮

2024-05-19 00:27:48来源:新媒体

文章导读
ChatGPT以及硅谷AI大战终于升级,长出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后发布重磅AI多模态更新,从基于文字交互的ChatGPT完整升级,实现了“声音,文字和视觉”三者完整结合的...

ChatGPT以及硅谷AI大战终于升级,长出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后发布重磅AI多模态更新,从基于文字交互的ChatGPT完整升级,实现了“声音,文字和视觉”三者完整结合的人工智能新交互功能,而这,也标志着硅谷科技巨头的生成式AI之战正式进入到第二轮。新一轮竞争,只会更加激烈、更加完整。

大家好,欢迎来到硅谷101,这次我们聊聊这次多模态AI之战对科技巨头们的商业版图意味着什么变化,以及生成式AI智能技术的下一步会发生什么。那我们首先来快速复盘一下OpenAI和谷歌发布的多模态重磅更新。

01、OpenAI GPT-4o:低延迟语音交互,《Her》成为现实

OpenAI这次的发布时长很短,全程就26分钟,发了一款产品GPT-4o。

GPT-4o的“o”是拉丁词根“Omni”,意思是“所有的”、“全部的”或“全能”,意味着文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的能力,这样的“完整”多模态能力。

说实话,2024年AI之战会升级到多模态产品,这个预期在2023年已经是行业共识,我们在之前多期视频都提到过,仅仅是文字的prompt很难表达人类的意图,非常低效也非常受限,所以有语音和视觉的加持的多模态AI交互是人类通往AGI道路上的必经之路。但当多模态AI交互真的到来的时候,我觉得还是会遭震撼到。

OpenAI说,GPT-4o可以在232毫秒内响应音频输入,平均为320毫秒,这已经达到人与人之间的响应时间。也就是说,AI语音对话的交互已经能做到非常低延迟、很丝滑的像真人一样对话了。

GPT-4o发布之前,ChatGPT的语音模式功能有着好几秒的延迟,这让整个交互体验非常差,这是因为之前的GPT系列的语音功能是好几个模型的拼合,先把声音转录成文本,再用GPT大模型接受后,输出文本,然后再用text to speech模型生成音频,但这其中会损失非常多的信息,比如说语调,语气中的情绪情感,多个说话人的识别,背景的声音等等,所以语音功能会很慢很迟缓也很基础。

而这次,GPT-4o是OpenAI专门训练的跨文本、语音和视觉的端到端新模型,所有输入和输出都由同一个神经网络处理,这使得GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出,是兼具了“听觉”、“视觉”的多模态模型,同时还支持中途打断和对话插入,且具备上下文记忆能力。

这样的多模态模型是OpenAI首次发布,表示还有很多探索的空间,但目前展现出的功能已经让人惊喜。比如说,在现场demo中,GPT-4o可以理解人们的呼吸急促声音并用轻松的方式安慰人类。

它可以识别人脸表情,以及辨认情绪。

它可以随意变换语气和风格来讲故事。

同时,GPT-4o还可以通过硬件设备通过视觉来分析人们正在从事的工作、看的书,可以引导人们解题,可以切换语言实时翻译,也能通过视觉识别给它的信息并且给出非常拟人化的反馈。

说实话,在直播发布会中直接现场演示这件事情是很需要勇气的,因为一旦出错会引发非常大的公关灾难,但OpenAI有这个勇气去直接现场演示直播,给人的感觉非常自信。除了现场的演示之外,OpenAI还在官网上放出了更多更复杂场景的交互,展现出AI多模态的更多的潜力。

比如说,在官网上OpenAI做了17个案例展示,包括了照片转漫画、3D物体合成、海报创作、角色设计等样本。

此外,OpenAI总裁Greg Brockman的演示视频中,GPT-4o可以识别出他所穿的衣服、身处的环境、可以识别出Brockman的情绪和语气和房间里正出现的新动作,但最让外界关注的一个动作是,让两台运行GPT-4o的设备进行语音或视频交互。


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 酒业,加“数”向前

今年年初,随着“发展新质生产力”遭正式写入2024年政府工作目标,白酒这一传统行业,也开...

2 OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮

ChatGPT以及硅谷AI大战终于升级,长出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后发布重磅...

3 装修40万起,理想前总裁改行做家装

给中产造车,给中产装修,哪个更难干?花30万买理想的车主们,会花40多万装修吗?‍‍‍...

4 五月全球“AI大爆炸”:卷技术、拼落地、比价格

这个五月,全球科技圈异常热闹。 先是OpenAI和谷歌掰手腕,后有微软、苹果的开发者大会即将...

5 云南白药5高管遭一锅端,祸起小小“创可贴”?

云南白药原董事长 王明 辉突然辞去所有职务的谜团,在一年之后逐渐遭揭开。 近日,《经济...

6 视频号“成年”,带领腾讯挣钱

文|伯虎财经 陈平安 在2023年初的年度员工大会上,腾讯创始人马化腾反复提到了两个关键词:...

7 42万家门店,超3000个品牌,新茶饮靠什么拿捏了年轻人?

窄门餐眼截至2024年5月8日的数据,新茶饮3172个品牌开出了418403家门店。中国连锁经营协会新茶...

8 《庆余年2》初评:又“熟”又“新”

“恐怖”如斯,《庆余年2》的首播为内娱带来的震撼不止一点点。 阔别五年,归来仍是“王者...

9 免单1亿杯,霸王茶姬豪赌赴美上市?

连续三天造势,霸王茶姬年度新品「万里木兰」系列,揭开神秘面纱。 新品“万里木兰”“关...

10 网石又行了?

中国老玩家熟悉的Netmarble似乎隐身了相当长的时间,从2020年到2023年,季度收入起起伏伏过山车...

1 酒业,加“数”向前

今年年初,随着“发展新质生产力”遭正式写入2024年政府工作目标,白酒这一传统行业,也开...

2 OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮

ChatGPT以及硅谷AI大战终于升级,长出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后发布重磅...

3 装修40万起,理想前总裁改行做家装

给中产造车,给中产装修,哪个更难干?花30万买理想的车主们,会花40多万装修吗?‍‍‍...

4 五月全球“AI大爆炸”:卷技术、拼落地、比价格

这个五月,全球科技圈异常热闹。 先是OpenAI和谷歌掰手腕,后有微软、苹果的开发者大会即将...

5 云南白药5高管遭一锅端,祸起小小“创可贴”?

云南白药原董事长 王明 辉突然辞去所有职务的谜团,在一年之后逐渐遭揭开。 近日,《经济...

6 视频号“成年”,带领腾讯挣钱

文|伯虎财经 陈平安 在2023年初的年度员工大会上,腾讯创始人马化腾反复提到了两个关键词:...

7 42万家门店,超3000个品牌,新茶饮靠什么拿捏了年轻人?

窄门餐眼截至2024年5月8日的数据,新茶饮3172个品牌开出了418403家门店。中国连锁经营协会新茶...

8 《庆余年2》初评:又“熟”又“新”

“恐怖”如斯,《庆余年2》的首播为内娱带来的震撼不止一点点。 阔别五年,归来仍是“王者...

9 免单1亿杯,霸王茶姬豪赌赴美上市?

连续三天造势,霸王茶姬年度新品「万里木兰」系列,揭开神秘面纱。 新品“万里木兰”“关...

10 网石又行了?

中国老玩家熟悉的Netmarble似乎隐身了相当长的时间,从2020年到2023年,季度收入起起伏伏过山车...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图