当前位置:主页 > 科技 > IT业界 > 专访阶跃星辰姜大昕:Scaling Law是通往AGI的必要非充分条件(2)

专访阶跃星辰姜大昕:Scaling Law是通往AGI的必要非充分条件(2)

2024-05-05 23:39:43来源:界面新闻

文章导读
中国通用大模型领域如今已跑出了六家独角兽公司——其中只有一家,搜不到任何公开估值,甚至没有融资新闻,就已经遭市场默认列入“独角兽”队伍。这家公司就是阶跃星辰。 喧嚣沸腾...

沿着这两条路,公司发布了万亿参数语言大模型的预览版Step-2,以及多模态大模型Step-1V。这代表了我们在GPT-3.5之后两个很重要的观点,一个是模型要大,二是多模态理解和生成的统一是通往AGI的必经之路。

界面新闻:单从模型的角度,怎么理解你们与GPT-4之间的差距?比如Minimax刚刚发了abab 6.5,也是万亿参数MoE大模型,他们会展示各种开源测试集的结果比对。

姜大昕:这是个很有意思的问题。前段时间在迪拜的世界政府峰会上,OpenAI首席执行官Sam Altman有一个观点很出圈,我觉得很对。

他说GPT-5对比GPT-4,是各个维度都强了一圈。这句话字面意思是“我的通用能力变强了”,但反过来讲还有一个意思是,“我朝着某一个维度方向去打磨也可以很强”。通过牺牲一些维度去增强另一个维度,这个维度可以强过GPT-4。就好像一个大学生和一个学习了焊工、钳工的初中生相比,后者可以在某个维度上超过大学生。所以刷榜并不是特别科学,因为题都是公开的。 

有些说法甚至非常有误导性。比如说“全方位能力达到了GPT-4的90%”,听着很牛,但假设GPT-4在某个能力上是90分,你做到90%就是81分,看上去好像也不错。但反过来想,GPT-4的错误率是10,你的错误率是19,几乎是人家的两倍,在应用的时候体感肯定是不一样的,用户只会觉得你做对是应该的,但会记住你的错误比别人多了近一倍。

界面新闻:和GPT-4的通用能力对比,你们对Step-2下的结论是什么?

姜大昕:GPT-4是动态的,我们现在的模型也还在最后的打磨阶段,希望到今年上半年整个打磨完成以后,能够对标去年GPT-4刚出来的水平。

界面新闻:现在国内的通用大模型是不是还在集体追赶GPT-4刚刚发布的状态?

姜大昕:对。这是一个相对务实的目标,我们不会动不动就说我们超过GPT-4,没有这个必要去吸引眼球。因为你可以有各种办法在一些小维度上超过它,甚至分分钟就可以超过,但这有什么意义?

界面新闻:Step-2采用的MoE架构,现在也很受关注。这种架构响应速度、推理效率都更快更高,但也存在训练稳定性、通信成本等问题。阶跃是什么时候决定以及为什么决定采用这个架构?怎么去克服这个架构本身可能存在的一些问题?

姜大昕:想把模型参数扩大到万亿的话,MoE几乎是一个必选项。就像做科研或者做工程,很多决策就是各个维度之间的最佳平衡,MoE也是在性能、参数量、训练成本、推理成本这些维度权衡下的最佳选择。

至于说它要解决的很多挑战,我觉得这就是OpenAI的核心技术,我们要想继续往上攀登的话,这个问题迟早要解决。

我们自建机房是一个巨大的优势,因为可以有所有硬件的细节。我们是系统组、算法组从硬件开始就做一个联合的优化。  

界面新闻:商业模式上,你们是toB(企业)和toC(消费者)一起做吗?

姜大昕:不算,我们主力还是在toC。toB的话,我们不是一单一单接的典型打法,是只选择一些大行业。比如说和上海报业旗下的界面财联社成立一个合资公司,由这家公司去承接生意,我们提供算法和模型。 

界面新闻:如何看待C端产品的商业前景?很多人认为C端极易打价格战,那它能成立的、有健康现金流的商业形态会是什么样?

姜大昕:这一轮虽然技术上发生了很大的变革,但我觉得技术不是护城河,技术只能给你一个窗口期。在这个窗口期内,你一定要构建公司产品的护城河。


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 高端手机完整回归效果显著,华为一季度净利大增5倍

4月30日,华为投资控股有限公司公布2024年一季度经营业绩。期内公司实现营业收入约1784.5亿元...

2 专访阶跃星辰姜大昕:Scaling Law是通往AGI的必要非充分条件

中国通用大模型领域如今已跑出了六家独角兽公司——其中只有一家,搜不到任何公开估值,...

3 中国移动发布国内领先的大云磐石DPU芯片,速率达400Gbps

4月28日,中国移动在其2024算力网络大会上正式发布大云磐石DPU,该芯片带宽达到400Gbps,为国内...

4 通义千问开源千亿级参数模型

4月28日消息,通义千问开源1100亿参数模型Qwen1.5-110B,成为全系列首个千亿级参数开源模型。...

5 中国移动建成全球运营商最大单体智算中心

中国移动正式对外发布全球运营商最大单体智算中心——中国移动智算中心(呼和浩特),目...

6 爱彼迎发布新特色分类及11个特色房源

根据今年第一个季度的用户搜索数据,今年夏天,爱彼迎中国用户出境游热度同比增长近2倍。...

7 中国移动董事长杨杰:中国移动已初步建成业界领先算力网络

在2024中国移动算力网络大会上,中国移动董事长杨杰在演讲中表示,中国移动已初步建成了基...

8 TikTok与环球音乐达成新授权协议

TikTok 与环球音乐集团共同宣布,双方达成新的版权许可协议。阔别三个月后,环球音乐旗下的...

1 高端手机完整回归效果显著,华为一季度净利大增5倍

4月30日,华为投资控股有限公司公布2024年一季度经营业绩。期内公司实现营业收入约1784.5亿元...

2 专访阶跃星辰姜大昕:Scaling Law是通往AGI的必要非充分条件

中国通用大模型领域如今已跑出了六家独角兽公司——其中只有一家,搜不到任何公开估值,...

3 中国移动发布国内领先的大云磐石DPU芯片,速率达400Gbps

4月28日,中国移动在其2024算力网络大会上正式发布大云磐石DPU,该芯片带宽达到400Gbps,为国内...

4 通义千问开源千亿级参数模型

4月28日消息,通义千问开源1100亿参数模型Qwen1.5-110B,成为全系列首个千亿级参数开源模型。...

5 中国移动建成全球运营商最大单体智算中心

中国移动正式对外发布全球运营商最大单体智算中心——中国移动智算中心(呼和浩特),目...

6 爱彼迎发布新特色分类及11个特色房源

根据今年第一个季度的用户搜索数据,今年夏天,爱彼迎中国用户出境游热度同比增长近2倍。...

7 中国移动董事长杨杰:中国移动已初步建成业界领先算力网络

在2024中国移动算力网络大会上,中国移动董事长杨杰在演讲中表示,中国移动已初步建成了基...

8 TikTok与环球音乐达成新授权协议

TikTok 与环球音乐集团共同宣布,双方达成新的版权许可协议。阔别三个月后,环球音乐旗下的...

9 最新中文大模型测评:百川、智谱、通义领跑国内

4月30日,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告...

10 勾画全场景招聘蓝图,智联招聘助力更多用户高效求职

全场景时代的到来,彻底改变了人类的生活方式、工作方式和社交方式,人力资源行业也打开...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图