Self-Play RL(自我博弈下的强化学习)虽然可以让模型自动生产数据来学习,但仍然需要人工的参与,并且是高质量的参与,其中就包括人工标注数据来告诉它结果好还是不好。
李江形容,数据标注既吃人力又吃学历,是一份看起来蓝领,但又特别要求白领的工作。“如果你没有模型聪明,你就没有价值,所以你要比模型的谜底还好,而这份工作又特别枯燥,这样的行业专家不好找。”
o1这条路未来可能遇到的最大瓶颈还是来自通用性,也就是模型的泛化能力。例如,o1的数学、编程类能力尤其突出,但弱逻辑类的能力培养还有待解决。
强化学习中有一个关键环节叫做Reward Model(奖励模型),用于评估Agent的行为表现,并指导其学习过程。在特定垂直领域,奖励机制可以写得清楚明晰,但面对更加泛化和开放的场景,Reward Model将变得难以定义,这也是以o1范式在实现通用性过程中要突破的重要关卡。
“这是一个悬而未决的问题。”李江说,这再次回到了各家科研能力的比拼上。即便是在公司内部,这种“灵感”现在也无法随意讨论,“因为这个事情太新了,‘灵感’要真金白银才能烧出来。”
事实上,大模型未来在提升强化学习模型的泛化性上会遇到什么困难,还不得而知,短期内能够复现某个垂直领域的国产o1就是一种胜利。开始习惯这个领域技术波动的李江就是这样想的,“在这个阶段,做长远的Road Map(路线图)毫无意义。”
好学生的“附加题”云启资本合伙人陈昱每半年就要飞一趟美国,定期看看那边发生了什么,这让他对o1有一个更为冷静和理智的看法。
诚然,o1代表了OpenAI在解决复杂问题上的探索,但它仍然有很大的局限:成本约为GPT-4o的6倍,使用次数的限制,较长的等待时间,以及一些简单问题仍然会出错的状况,目前的形态更像是给学有余力的好学生去做的“附加题”。
答好这道“附加题”要投入多少资源?此前据腾讯新闻《潜望》报道,王小川在接受采访时曾预估称,“可能跟做个GPT-4差不多”。而朱啸虎给出的谜底是,做GPT-4的科研至少要砸四五千万美金。
目之所及,国内大模型公司要跟进做o1必须满足两个硬性条件。一是拥有这笔可支配的资源。据另一名受访投资人透露,“六小虎”当中,一些公司账上的钱可能不够。二是基础模型的性能水平门槛。李江的判断是,“至少要接近GPT-4的水平,不然不在牌局里。”
这意味着“六小虎”的下一步,有钱的可以继续跟注,没钱但想跟注的要继续找钱,如果都行不通,就只能找差异化。
不久前已经有行业传闻称,“六小虎”中的两家正在逐步放弃预训练模型,缩减了预训练算法团队人数,业务重心转向AI应用。
一时间,“六小虎放弃大模型”的说法甚嚣尘上。遭外界猜测得最多的零一万物和百川智能,均迅速对外界进行了否认。
前述受访投资人对界面新闻记者表示,还没有看到实质性证据能够表明“六小虎”中有公司放弃了预训练,现阶段它们也没有理由放弃。他推测有一种可能是,有团队暂时性完成了基础模型的预训练,重心转向了后训练阶段。
“要知道‘六小虎’并不是OpenAI,也不可能OpenAI的所有尝试都要去跟。”这名投资人指出,“这当中需要有战略选择。”
这种战略选择的决定性条件,是掌舵者对AGI的理解。例如,有人认为多模态的理解与生成统一是AGI的必经之路,也有人认为,AGI的关键仍然在于语言智能。这会导致不同的路线,大模型公司可能自此分化:视频模型,音频模型,高级推理等等。
除了创业公司,大厂也在积极跟进。有知情人士透露,目前,字节跳动和阿里巴巴都已有意向聚焦o1代表的技术方向,继续推动大模型的推理性能提升。不过,大厂的优势将更不明显。
李江直言,在上一个竞争阶段,文心一言、通义千问、混元、豆包等产品,并没有跟创业公司完全拉开差距。而在o1路线上,这种优势也许会更加微弱,因为它对算力资源的要求不如之前高,也更考验技术团队的灵活性。
大变革,但不一定激发大商机投资人也听到不少所谓行业动荡的风声,但他们的大致体感是,在车上的都没有动摇过,不断动摇的都是没上车的。
“我们没有不看好过。”前述投资人说,“外面所谓的舆论是我们两三年前就知道的事实,不觉得有什么预期上的偏差。”
之所以不动摇,来自于一个长期判断:AGI能实现,绕不开大模型,而o1的出现说明了AGI可以实现,它的确提振了资本的信心。
这也将很大程度上决定大模型公司的融资命运。
和以往的每个购物大促节日一样,10月开始,为备战双十一,杭州滨江区海威中心3号楼挂起红...
2 商业头条No.49 | 大模型抵达“分水岭”“我听说o2在GPQA上获得了105%。”几天前,山姆·奥特曼在X平台上突然发了这么一句话,但马上...
3 协鑫光电完成C1轮近5亿融资12月9日消息,协鑫集团旗下昆山协鑫光电材料有限公司近日宣布完成近5亿元C1 轮融资。本轮融...
4 挚文集团2024年Q3净营收26.747亿元,净利润4.933亿元12月9日,挚文集团(Nasdaq: MOMO)公布了2024年第三季度未经审计的财务业绩。财报显示,2024年第...
5 云鲸智能CEO张峻彬回应裁员传闻12月10日消息,近日有报道称云鲸智能近期正在开启大规模裁员,涉及开发、测试等部门。对此...
6 马云现身蚂蚁20周年现场,分享关于AI的思考12月8日,支付宝和蚂蚁集团二十周年活动现场,马云于当日晚间现身蚂蚁园区。他表示,“今...
7 周畅跳槽字节违反竞业协议,阿里启动起诉索赔12月6日,界面新闻获悉,通义前员工周畅违反竞业协议跳槽字节,已被到阿里起诉索赔。 公开...
8 Kimi杨植麟发文:感恩所有投资人支持创业梦想12月6日晚,Kimi创始人杨植麟发文,还原近期事件始末。杨植麟在文中表示,离开前公司重新创...
9 Uber和文远知行在阿联酋落地中东最大商业运营Robotaxi车队12月6日,自动驾驶科技公司文远知行WeRide与移动出行及配送科技公司优步Uber宣布,双方合作的...
10 传NBA球星麦迪将签约淘宝直播带货12月6日消息,据篮球圈shams爆料称,NBA名人堂球星不日将入淘开播,消息称麦迪已签约淘宝直播...
和以往的每个购物大促节日一样,10月开始,为备战双十一,杭州滨江区海威中心3号楼挂起红...
2 商业头条No.49 | 大模型抵达“分水岭”“我听说o2在GPQA上获得了105%。”几天前,山姆·奥特曼在X平台上突然发了这么一句话,但马上...
3 协鑫光电完成C1轮近5亿融资12月9日消息,协鑫集团旗下昆山协鑫光电材料有限公司近日宣布完成近5亿元C1 轮融资。本轮融...
4 挚文集团2024年Q3净营收26.747亿元,净利润4.933亿元12月9日,挚文集团(Nasdaq: MOMO)公布了2024年第三季度未经审计的财务业绩。财报显示,2024年第...
5 云鲸智能CEO张峻彬回应裁员传闻12月10日消息,近日有报道称云鲸智能近期正在开启大规模裁员,涉及开发、测试等部门。对此...
6 马云现身蚂蚁20周年现场,分享关于AI的思考12月8日,支付宝和蚂蚁集团二十周年活动现场,马云于当日晚间现身蚂蚁园区。他表示,“今...
7 周畅跳槽字节违反竞业协议,阿里启动起诉索赔12月6日,界面新闻获悉,通义前员工周畅违反竞业协议跳槽字节,已被到阿里起诉索赔。 公开...
8 Kimi杨植麟发文:感恩所有投资人支持创业梦想12月6日晚,Kimi创始人杨植麟发文,还原近期事件始末。杨植麟在文中表示,离开前公司重新创...
9 Uber和文远知行在阿联酋落地中东最大商业运营Robotaxi车队12月6日,自动驾驶科技公司文远知行WeRide与移动出行及配送科技公司优步Uber宣布,双方合作的...
10 传NBA球星麦迪将签约淘宝直播带货12月6日消息,据篮球圈shams爆料称,NBA名人堂球星不日将入淘开播,消息称麦迪已签约淘宝直播...
备案号:鄂ICP备2022006215号 Copyright © 2002-2024 关于我们 网站地图