当前位置:主页 > 科技 > 自媒体 > OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮(4)

OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮(4)

2024-05-19 00:27:48来源:新媒体

文章导读
ChatGPT以及硅谷AI大战终于升级,长出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后发布重磅AI多模态更新,从基于文字交互的ChatGPT完整升级,实现了“声音,文字和视觉”三者完整结合的...

我们视频之前也说到,它所有的多模态输入和输出都由同一个神经网络处理,这使得GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出,是所谓的“multimodal in(多模态输入), multimodal out(多模态输出)”。

但目前不少业内人士认为,谷歌的Gemini目前并没有做到这个程度,比如说英伟达高级科学家Jim Fan在LinkedIn上发表观点认为,谷歌是多模态作为输入,但并不是多模态作为输出(multimodal in, but not multimodal out)。

这意味着谷歌本次更新的视频、音乐等模型依然是独立于Gemini大模型的存在,只是输出的时候把所有模型给整合起来拥有的多模态输出能力。所以Jim Fan认为,谷歌整合所有的输入输出模态,将是不可避免的未来发展。

但他还有一句评论挺有意思的,Jim Fan说,谷歌在这次发布会中做对的一件事是:“他们终于认真努力将AI集成到搜索框中。谷歌最坚固的护城河是分销,Gemini不一定要成为最好的模型,才能成为世界上遭使用最多的模型。”

也就是说,谷歌在整个生态中只要顺畅的融入AI功能,让用户觉得能解决问题,提高生活和工作效率,因为谷歌在搜索、邮箱、谷歌云上的种种积累和优势,谷歌的分销优势依然能保证谷歌在AI时代中立于不败之地。

所以,按照这个逻辑来看,谷歌在这次发布会上在全生态上完整升级AI功能,其实是做到了。所以,就算OpenAI前一天抢跑发布亮点的GPT4o,谷歌整体来看,这一局也不算输,第二天的股价稳中上涨也应证了市场的看法。

戴雨森

真格基金管理合伙人

OpenAI发布会之后,Google 发布会之前,我跟一位Google的同学聊,然后他提到一个观点还挺有意思。他说一年以前OpenAI发GPT4的时候,他们有很多东西,他们是不知道OpenAI怎么做到的,觉得哇他们好厉害,现在OpenAI发布会发了之后,他们看到是说,这个东西我们也知道怎么做,但我们可能还没有像他那样做得那么好,或者那么ready(准备好)去demo,所以我觉得目前来看的话,他们肯定在这上面是有一些这个经验,所以我感觉就是双方的绝对差距还是在缩小的。

Howie Xu

AI及云服务行业高管、斯坦福大学客座教授

相对来讲,Google注重的是一个solution(解决方案),就是解决方案,那个OpenAI目前注重的,更多的还是一个technology(技术),它在technology(技术)上面非常的惊艳,但你说他怎么去跟我们人的日常,不管是生活、工作去结合起来,他没有那么多的人力,他也没这么多思考,而且这不是他的强项。

Google IO的那个发布,看上去可能从某些角度来讲,好像还没有那个前一天,OpenAI的东西那么惊艳,但实际上我觉得很惊艳,我觉得惊艳不只是说是一个model(模型)的惊艳,model只是一个维度,还有其他维度,怎么跟我的生活、工作能够结合起来,比如说跟我的手机结合起来,它一些的announcement(发布)是这个技术,所以说AI这件技术,我觉得今天落地是一个很大的一个挑战,或者说一件事情。

所以可以预期到,接下来,多模态的继续整合和优化,以及将AI功能整合到谷歌的各个产品中,以及AI agent(人工智能体)的引入,将会是谷歌发力的重点。除此之外,这两场发布会听下来还让我非常感兴趣的一点是,硬件。

OpenAI整个demo用的是苹果手机和苹果电脑,谷歌用的是安卓手机和硬件,同时还在视频demo中提到了一个谷歌内部类似谷歌眼镜一样的prototype原型设配,所以接下来,硬件和AI大模型的整合,也到了加入战场的时刻。而这个赛道的老大,苹果,在干什么呢?

04、移动端AI大战开启,苹果即将入局?

虽然苹果公司在这轮硅谷科技巨头AI大战中迟迟没有发声,但最近有不少的舆论风向稍微给我们勾勒出了苹果潜在的想法和布局。

目前市场都在等待6月10日举行的苹果2024年全球开发者大会WWDC,预计会在届时会宣布一系列在AI和硬件上的产品发布。

包括可能会和OpenAI合作,将ChatGPT整合到 iOS 18 操作系统,此外,外界期待苹果会宣布利用大模型完整升级Siri,给用户提供AI赋能的交互体验,还有苹果如何将大模型塞进手机移动端的“苹果全家桶”,也是马上召开的苹果发布会的最大看点。

今年早前,苹果发布了一系列的论文,包括第一个手机端UI多模态大模型Ferret-UI。

还有今年一月发布的一篇将大模型塞进 iPhone 的关键性论文,“使用有限的内存实现更快的LLM推理”。

还有这篇,苹果Siri团队在论文《利用大型语言模型进行设备指向性语音检测的多模态方法》中讨论了去掉唤醒词的方法。


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 酒业,加“数”向前

今年年初,随着“发展新质生产力”遭正式写入2024年政府工作目标,白酒这一传统行业,也开...

2 OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮

ChatGPT以及硅谷AI大战终于升级,长出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后发布重磅...

3 装修40万起,理想前总裁改行做家装

给中产造车,给中产装修,哪个更难干?花30万买理想的车主们,会花40多万装修吗?‍‍‍...

4 五月全球“AI大爆炸”:卷技术、拼落地、比价格

这个五月,全球科技圈异常热闹。 先是OpenAI和谷歌掰手腕,后有微软、苹果的开发者大会即将...

5 云南白药5高管遭一锅端,祸起小小“创可贴”?

云南白药原董事长 王明 辉突然辞去所有职务的谜团,在一年之后逐渐遭揭开。 近日,《经济...

6 视频号“成年”,带领腾讯挣钱

文|伯虎财经 陈平安 在2023年初的年度员工大会上,腾讯创始人马化腾反复提到了两个关键词:...

7 42万家门店,超3000个品牌,新茶饮靠什么拿捏了年轻人?

窄门餐眼截至2024年5月8日的数据,新茶饮3172个品牌开出了418403家门店。中国连锁经营协会新茶...

8 《庆余年2》初评:又“熟”又“新”

“恐怖”如斯,《庆余年2》的首播为内娱带来的震撼不止一点点。 阔别五年,归来仍是“王者...

9 免单1亿杯,霸王茶姬豪赌赴美上市?

连续三天造势,霸王茶姬年度新品「万里木兰」系列,揭开神秘面纱。 新品“万里木兰”“关...

10 网石又行了?

中国老玩家熟悉的Netmarble似乎隐身了相当长的时间,从2020年到2023年,季度收入起起伏伏过山车...

1 酒业,加“数”向前

今年年初,随着“发展新质生产力”遭正式写入2024年政府工作目标,白酒这一传统行业,也开...

2 OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮

ChatGPT以及硅谷AI大战终于升级,长出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后发布重磅...

3 装修40万起,理想前总裁改行做家装

给中产造车,给中产装修,哪个更难干?花30万买理想的车主们,会花40多万装修吗?‍‍‍...

4 五月全球“AI大爆炸”:卷技术、拼落地、比价格

这个五月,全球科技圈异常热闹。 先是OpenAI和谷歌掰手腕,后有微软、苹果的开发者大会即将...

5 云南白药5高管遭一锅端,祸起小小“创可贴”?

云南白药原董事长 王明 辉突然辞去所有职务的谜团,在一年之后逐渐遭揭开。 近日,《经济...

6 视频号“成年”,带领腾讯挣钱

文|伯虎财经 陈平安 在2023年初的年度员工大会上,腾讯创始人马化腾反复提到了两个关键词:...

7 42万家门店,超3000个品牌,新茶饮靠什么拿捏了年轻人?

窄门餐眼截至2024年5月8日的数据,新茶饮3172个品牌开出了418403家门店。中国连锁经营协会新茶...

8 《庆余年2》初评:又“熟”又“新”

“恐怖”如斯,《庆余年2》的首播为内娱带来的震撼不止一点点。 阔别五年,归来仍是“王者...

9 免单1亿杯,霸王茶姬豪赌赴美上市?

连续三天造势,霸王茶姬年度新品「万里木兰」系列,揭开神秘面纱。 新品“万里木兰”“关...

10 网石又行了?

中国老玩家熟悉的Netmarble似乎隐身了相当长的时间,从2020年到2023年,季度收入起起伏伏过山车...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图