“距AGI(通用人工智能)的问世不会太遥远,不过过程中肯定会出现许多误判。预计在未来五年时间里,AI能够在大多数人类目前从事的工作上表现得比人类更好。”在ChatGPT发布前一个月,OpenAI联合创始人、ChatGPT项目的主要负责人John Schulman在强化学习播客《TalkRL》上说道。
AGI似乎并不遥远,但对于如何通向AGI,目前研究者都还在探索。就在近日,一个新的研究成果发布——用视觉数据来增强语言处理能力。它的表现令人惊喜,展示出了强大的涌现能力(模型有不可预测的表现)。
北京时间3月7日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。
“PaLM-E是迄今为止已知的最大VLM(视觉语言模型)。我们观察到诸如多模态思维链推理(允许模型分析包括语言和视觉信息的一系列输入),只接受单图像提示训练的多图像推理(使用多个图像作为输入来做出推理或预测)等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess说。
论文的第一作者、谷歌AI研究员Danny Driess的推文。
在这个意义上,随着时间推移,深度学习模型变得越来越复杂,PaLM-E似乎延续了“产生惊喜”的这个趋势。
PaLM-E(Pathways Language Model with Embodied )是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合。它被称为“PaLM-E”是因为它基于谷歌现有的 “PaLM”大语言模型 (类似于ChatGPT背后的技术)。谷歌通过添加感官信息和机器人控制,使PaLM“具身化(embodiment,与身体联系紧密的状态)”。由于它基于语言模型,PaLM-E会进行连续观察,例如图像信息或传感器数据,并将它们编码为一系列与语言标记大小相同的向量。这允许模型以与处理语言相同的方式“理解”感官信息。PaLM-E还借鉴了谷歌之前在ViT-22B视觉Transformer模型上的工作,ViT-22B已经接受过各种视觉任务的训练,例如图像分类、对象检测、语义分割和图像字幕。
谷歌并不是唯一一个致力于使用神经网络进行机器人控制的研究小组。这项特殊的工作类似于微软最近的“ChatGPT for Robotics”论文,该论文尝试以类似的方式将视觉数据和大型语言模型结合起来进行机器人控制。
作为一种多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。
根据谷歌的说法,当给出一个高级命令时,比如“把抽屉里的薯片拿给我”,PaLM-E可以为一个有手臂的移动机器人平台(由谷歌机器人开发)生成一个行动计划并执行自己的行动。
PaLM-E通过分析来自机器人相机的数据来实现这一点,而无需对场景进行预处理。这消除了人类预处理或注释数据的需要,并允许更自主的机器人控制。它还具有弹性,融易新媒体,可以对环境做出反应。例如,PaLM-E模型可以引导机器人从厨房取薯片袋,而且,通过将PaLM-E集成到控制回路中,它可以抵抗任务期间可能发生的中断。在一个视频示例中,研究人员从机器人手中抓取薯片并移动它们,但机器人找到薯片并再次抓取它们。
在另一个示例中,相同的PaLM-E模型通过具有复杂序列的任务自主控制机器人,这些任务以前需要人工指导。谷歌的研究论文解释了PaLM-E如何将指令转化为行动:
我们展示了PaLM-E在具有挑战性和多样化的移动操作任务上的性能。机器人需要根据人类的指令规划一系列导航和操纵动作。例如,给出指令“我把饮料弄洒了,你能给我拿点东西来清理吗”,机器人需要规划一个包含“1. 找到海绵,2. 捡起海绵,3. 拿来,4.放下海绵”的序列给用户。受这些任务的启发,我们开发了3个用例来测试PaLM-E的具身推理能力:可供性预测、故障检测和长期规划。
研究人员写道,PaLM-E也是一种“有效的视觉语言模型”。例如,它可以识别图像中的篮球明星科比·布莱恩特,并可以生成关于他的文本信息,比如他赢得了多少次冠军。在另一个例子中,PaLM-E看到一个交通标志并解释与之相关的规则。
全国政协委员、证监会市场二部一级巡视员刘云峰日前在接受中国证券报记者采访时表示,证...
2 5620亿参数!谷歌发布史上最大“通才”AI模型 可让机器人更自主“距AGI(通用人工智能)的问世不会太遥远,不过过程中肯定会出现许多误判。预计在未来五年时...
3 不畏浮云遮望眼,军工长宜放眼量9 今朝,军工板块除了技能面走势精采之外,投资逻辑也很过硬。从自上而下和财富趋势角度看...
4 开门红,拿龙头!老话说,农历二月是龙抬头的月份,要给一年讨个好彩头,咱们投资人,不得赶紧拿下一个开...
5 主力资金围住了中字头,你还不来吗?今天的盘面是真的刺激,大金融和三桶油全涨起来了,好久没有看到这种奇观了。没有经历过...
6 安妮股份涨停 上榜营业部合计净买入9805.89万元安妮股份今天涨停,全天换手率31.93%,成交额15.94亿元,振幅7.95%。龙虎榜数据显示,营业部席...
7 赢合科技:公司关联公司晟合微电子(深圳)有限公司主要从事每经AI快讯,有投资者在投资者互动平台提问:请问公司关联公司深圳晟合微电子有限公司是做...
8 赢合科技:公司目前主营业务为锂电设备与电子烟业务每经AI快讯,有投资者在投资者互动平台提问:贵公司有其他行业如光伏设备技术储备嘛 赢合...
9 新潮能源再度被调入沪股通标的名单本报记者赵彬彬 日前,港交所宣布进一步扩大互联互通股票标的范围,新潮能源将于3月13日起...
10 ST星星:公司下属子公司南京矽创持有清矽微电子9.75%的股权每经AI快讯,有投资者在投资者互动平台提问:公司或者旗下公司南京矽创科技合伙企业(有限...
全国政协委员、证监会市场二部一级巡视员刘云峰日前在接受中国证券报记者采访时表示,证...
2 5620亿参数!谷歌发布史上最大“通才”AI模型 可让机器人更自主“距AGI(通用人工智能)的问世不会太遥远,不过过程中肯定会出现许多误判。预计在未来五年时...
3 不畏浮云遮望眼,军工长宜放眼量9 今朝,军工板块除了技能面走势精采之外,投资逻辑也很过硬。从自上而下和财富趋势角度看...
4 开门红,拿龙头!老话说,农历二月是龙抬头的月份,要给一年讨个好彩头,咱们投资人,不得赶紧拿下一个开...
5 主力资金围住了中字头,你还不来吗?今天的盘面是真的刺激,大金融和三桶油全涨起来了,好久没有看到这种奇观了。没有经历过...
6 安妮股份涨停 上榜营业部合计净买入9805.89万元安妮股份今天涨停,全天换手率31.93%,成交额15.94亿元,振幅7.95%。龙虎榜数据显示,营业部席...
7 赢合科技:公司关联公司晟合微电子(深圳)有限公司主要从事每经AI快讯,有投资者在投资者互动平台提问:请问公司关联公司深圳晟合微电子有限公司是做...
8 赢合科技:公司目前主营业务为锂电设备与电子烟业务每经AI快讯,有投资者在投资者互动平台提问:贵公司有其他行业如光伏设备技术储备嘛 赢合...
9 新潮能源再度被调入沪股通标的名单本报记者赵彬彬 日前,港交所宣布进一步扩大互联互通股票标的范围,新潮能源将于3月13日起...
10 ST星星:公司下属子公司南京矽创持有清矽微电子9.75%的股权每经AI快讯,有投资者在投资者互动平台提问:公司或者旗下公司南京矽创科技合伙企业(有限...
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 融易新媒体