当前位置:主页 > 科技 > IT业界 > 苹果又发大模型论文,Siri未来也许能“看懂”屏幕了

苹果又发大模型论文,Siri未来也许能“看懂”屏幕了

2024-04-03 00:04:08来源:界面新闻

文章导读
苹果近日发布的一篇语言模型相关的论文,预示了未来的Siri可能拥有读懂屏幕的能力,这意味着苹果终端设备更智能的交互能力。 4月2日消息,苹果研究团队发表了一篇名为《 ReALM: Referenc...

苹果近日发布的一篇语言模型相关的论文,预示了未来的Siri可能拥有读懂屏幕的能力,这意味着苹果终端设备更智能的交互能力。

4月2日消息,苹果研究团队发表了一篇名为《ReALM: Reference Resolution As Language Modeling》的论文,主题在于解决非对话实体(non-conversational entities)中的指代消解(Reference resolution)问题。 

文章摘要指出,虽然大语言模型遭证明在许多任务处理中表现强大,但在屏幕实体、后台实体等非对话实体中的指代理解能力,还没有得到充分的开发利用。

其中,“对话实体”指的是在对话过程中出现的究竟对象或概念,可以是任何提及并遭讨论的事物,例如人名、地点、事件、产品、观点等;“屏幕实体”指的是用户在电子设备屏幕上可以看到的各种元素,例如文本、图标、按钮、图片、视频等;“后台实体”通常指的是在电子设备的操作系统或应用程序中运行的、对用户不可见的进程和服务。 

这篇文章主要展示了,如何利用大语言模型建立能够解析各种类型指代(尤其是非对话实体)的高效系统。团队的方法是将其转化为一个纯粹的语言建模问题,究竟而言,ReALM(该模型的名称)通过已经解析的实体及其位置来重建屏幕,生成一个可视觉识别的文本,并通过对屏幕中的实体进行标注,使其具备出现所在位置的上下文,这就使得系统能够理解用户在屏幕上看到的内容。

苹果研究团队在结果中展示了不同模型在各种数据集上的准确性结果,包括ReALM-80M/250M/1B/3B四种参数大小模型,并与GPT-3.5和GPT-4都进行了对比。数据显示,这种针对指代消解进行微调的语言模型,在多数表现上优于GPT-4。

最新发表的这篇论文,表明了苹果的努力方向之一就在于加强Siri以及其他产品对于实体及其上下文的感知和解析能力,这可能让苹果在硬件设备的智能交互水平上相较竞争者占据优势。不过研究人员也明确指出,依靠屏幕的自动解析存在局限性,因为在更复杂的视觉指代解析中,如区分多个图像,可能需要结合计算机视觉和多模态技术。

在AI大模型、生成式AI等AI技术上,苹果虽然入局稍晚,但动作高效且成果颇为明显,在AI上的投入方向也越来越明朗。本月初,苹果已经发表了一篇论文,公布自己研发的MM1多态大语言模型(Multimodal LLM),最大拥有300亿参数(并不算一个很高的数值),但尚未公测或公布上线时间。

公司似乎也正在筹备让Siri接入大模型。据极客公园报道,今年1月,有开发者在iOS 17.4的开发者预览版Beta中发现了与大模型相关的技术代码。这些代码表明,苹果正在开发一个由大模型支持的新版本Siri。

在苹果之前,其全球范围内最大竞争对手三星已经在AI手机上抢跑,在最新旗舰系列中打出Galaxy AI战略,从翻译、拍照、修图、搜索等方面完整加入AI能力,并在中国市场也迅速找到百度、WPS、美图等公司完成本土化落地。

而从去年下半年开始,国内手机厂商的AI布局声量已经渐起。去年8月,华为HarmonyOS 4完整接入盘古大模型;10月,小米自研AI大模型“MiLM-6B”接入澎湃OS;11月,vivo发布自研“蓝心大模型”,OPPO在ColorOS 14引入“安第斯大模型”。今年1月,荣耀也发布自研70亿参数端侧AI大模型“魔法大模型”。 

事实上,现有智能手机的AI功能主要围绕应用层,效果在于提升个别功能的使用效率,但除了实时通话翻译这样的场景属于刚需的一种,融易新媒体消息,其他方向的效果还没有足够惊艳。所以如果是要强大到撬动用户的换机诉求,赛道中还没有出现这样的AI手机选手。

苹果这篇论文留出的想象空间在于,如果Siri对于屏幕实体有了足够强的理解能力,那用户可以发起的智能交互范畴就会明显扩大。例如,也许未来用户可以通过语音让Siri在某个外卖平台上进入某家店铺订一份餐——这个交互步骤的确是基于现状的大幅度简化。

但这会是用户想要的新iPhone吗?或许苹果也没有谜底。市场可以期待的是,在苹果今年的WWDC(全球开发者大会)上,它会给这场挑战起一个什么样的开头,使得观众不会唏嘘它迟到如此之久。


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 端到端模型落地量产,自动驾驶企业争抢上车

3月18日,特斯拉开始在北美地区完整推送FSD(全自动驾驶)V12.3版本,这是去年公布V12以来,其...

2 苹果又发大模型论文,Siri未来也许能“看懂”屏幕了

苹果近日发布的一篇语言模型相关的论文,预示了未来的Siri可能拥有读懂屏幕的能力,这意味...

3 无问芯穹发布大模型开发与服务平台,今日起开放全量注册

3月31日消息,无问芯穹发布基于多芯片算力底座的“无穹Infini-AI“大模型开发与服务平台,宣...

4 杨元庆:首款真正的AIPC将在本月18日发布

4月1日消息,今天在联想新财年誓师大会上,杨元庆表示,本月18日联想将正式发布首款真正的...

5 诺基亚贝尔CEO马博策:中国市场有源源不断的本土创新动力

诺基亚贝尔CEO马博策 表示,中国是非常重要的市场,中国不仅有比较大的市场体量,更重要的...

6 身体逐步恢复健康,王慧文将以部分时间做美团顾问

去年6月,正在创业的王慧文因病住院,其创立的公司光年之外也遭美团收购。 知情人透露,经...

7 抖音:1-2月累计处罚超过16万个欺诈账号

抖音发布的公告显示,2024年1-2月累计处罚涉及兼职、刷单等欺诈行为的账号超过16万个,日均...

8 沐瞳科技与拳头游戏就知识产权纠纷达成和解

据行业人士向界面新闻透露,拳头游戏与沐瞳科技就双方知识产权纠纷在全球范围内达成和解...

9 线控底盘厂商坐标系完成pre-A轮融资

4月1日消息,线控底盘跨域融合系统方案厂商苏州坐标系智能科技有限公司日前完成pre-A轮融资...

10 北京市通信管理局关于问题APP的通报 (2024年第三期)

北京市通信管理局关于问题APP的通报 (2024年第三期) 依据《网络安全法》《数据安全法》《...

1 端到端模型落地量产,自动驾驶企业争抢上车

3月18日,特斯拉开始在北美地区完整推送FSD(全自动驾驶)V12.3版本,这是去年公布V12以来,其...

2 苹果又发大模型论文,Siri未来也许能“看懂”屏幕了

苹果近日发布的一篇语言模型相关的论文,预示了未来的Siri可能拥有读懂屏幕的能力,这意味...

3 无问芯穹发布大模型开发与服务平台,今日起开放全量注册

3月31日消息,无问芯穹发布基于多芯片算力底座的“无穹Infini-AI“大模型开发与服务平台,宣...

4 杨元庆:首款真正的AIPC将在本月18日发布

4月1日消息,今天在联想新财年誓师大会上,杨元庆表示,本月18日联想将正式发布首款真正的...

5 诺基亚贝尔CEO马博策:中国市场有源源不断的本土创新动力

诺基亚贝尔CEO马博策 表示,中国是非常重要的市场,中国不仅有比较大的市场体量,更重要的...

6 身体逐步恢复健康,王慧文将以部分时间做美团顾问

去年6月,正在创业的王慧文因病住院,其创立的公司光年之外也遭美团收购。 知情人透露,经...

7 抖音:1-2月累计处罚超过16万个欺诈账号

抖音发布的公告显示,2024年1-2月累计处罚涉及兼职、刷单等欺诈行为的账号超过16万个,日均...

8 沐瞳科技与拳头游戏就知识产权纠纷达成和解

据行业人士向界面新闻透露,拳头游戏与沐瞳科技就双方知识产权纠纷在全球范围内达成和解...

9 线控底盘厂商坐标系完成pre-A轮融资

4月1日消息,线控底盘跨域融合系统方案厂商苏州坐标系智能科技有限公司日前完成pre-A轮融资...

10 北京市通信管理局关于问题APP的通报 (2024年第三期)

北京市通信管理局关于问题APP的通报 (2024年第三期) 依据《网络安全法》《数据安全法》《...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图