当前位置:主页 > 财经 > DeepSeek预示算力需求“打骨折”?业界:别只盯着训练 AI行业进入推理时代

DeepSeek预示算力需求“打骨折”?业界:别只盯着训练 AI行业进入推理时代

2025-01-02 20:45:01来源:新媒体

文章导读
日前,深度求索DeepSeek-V3横空出世,在AI行业内引发巨震,关键原因之一就是预训练成本之低——这个参数量高达671B的大模型, 在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元...

  日前,深度求索DeepSeek-V3横空出世,在AI行业内引发巨震,关键原因之一就是预训练成本之低——这个参数量高达671B的大模型,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。与此同时,DeepSeek-V3相比其他前沿大模型,性能却足以比肩乃至更优。

  在这背后,DeepSeek-V3采用了用于高效推理的多头潜在注意力(MLA)和用于经济训练的DeepSeekMoE。研发团队证明,多Token预测目标(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推测解码。后训练方面,DeepSeek V3引入了一种创新方法,将推理能力从长思维链模型(DeepSeek R1)中,蒸馏到标准模型上。这在显著提高推理性能的同时,保持了DeepSeek V3的输出风格和长度控制。

  有观点认为,DeepSeek-V3极低的训练成本或许预示着AI大模型对算力投入的需求将大幅下降,甚至有观点将27日A股算力概念的下跌与之联系在一起。但也有观点认为,DeepSeek表现固然优秀,但其统计口径只计算了预训练,数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。此外,在训练上做降本增效不代表算力需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。

  “最重要的是,我们正式进入了分布式推理时代。” 谈及DeepSeek-V3时,Lepton AI创始人兼CEO贾扬清针对推理方面指出,“一台单GPU机器(80×8=640G)的显存已经无法容纳所有参数。虽然更新大显存机器确实可以装下模型,但不论如何,都需要分布式推理来保证性能和未来扩展。”

  中信证券研报也指出,近日,DeepSeek-V3的正式发版引起AI业内广泛高度关注,其在保证了模型能力的前提下,训练效率和推理速度大幅提升。DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普惠,助力AI应用广泛落地;同时训练效率大幅提升,亦将助力推理算力需求高增。

  ▌AI行业“下一件大事”?

  “我们已经达到了数据峰值……AI预训练时代无疑将终结。” OpenAI联合创始人兼前首席科学家Ilya Sutskever前不久曾如此断言。

  多位AI投资人、创始人和CEO们在接受采访时都表示,AI的Scaling Law定律的收益正在逐步衰减。

  包括a16z合伙人Anjney Midha、微软CEO Satya Nadella在内,AI行业CEO、研究人员和投资人们,已经发出了新的判断:我们正处于一个新的Scaling Law时代——“测试时间计算时代”,即“推理时代”。这项能力让AI模型在回答问题之前,能有更多时间和算力来“思考”,“这特别有希望成为下一件大事”

  ▌AI应用崛起呼唤推理算力

  为什么推理如此关键?

  除了“旧版Scaling Law”效应衰减之外,还有一个原因就在于AI应用——英伟达竞争对手、AI芯片制造商Cerebras曾如此解释,“快速推理是解锁下一代AI应用的关键。从语音到视频,有了快速推理之后,以前无法实现的响应式智能应用程序将成为可能。”

  以近期风头大盛的豆包为例,不久前豆包大家族完整更新,豆包大模型应用场景不断拓展,民生证券指出,这使得对推理算力的需求不断攀升,主要集中在硬件设备算力需求、数据中心规模扩张需求、通信网络需求三方面。

  究竟而言,融易新媒体消息,豆包大模型将带来多少推理端的算力需求增量?分析师根据目前豆包的月活、日活以及日均token调用量为基础,做出保守、中性、乐观3种假设,预计豆包大模型或将带来759、1139、1898亿元的AI服务器资本开支需求。

  随着AI应用显著带动算力建设,分析师指出,字节算力资本开支持续攀升。

  另外,上周还有报道指出,小米正在着手搭建自己的GPU万卡集群,将对AI大模型大力投入。小米大模型团队在成立时已有6500张GPU资源。

  当然,字节跳动与小米不是个例,海外科技巨头也正在大手笔加大资本开支。据摩根士丹利预估,海外四大科技巨头在2025年的资本开支可能高达3000亿美元,其中亚马逊964亿美元、微软899亿美元、Alphabet 626亿美元、Meta 523亿美元。

  虽说目前暂时无法明确其中有多少资金将用于AI算力建设,但从这些巨头此前的种种表态与近年的资本方向可以想到,AI占比不会太低。


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 一图复盘近10年各类资产回报

站在2024年年末,观察过去10年各大类资产表现,在各自周期中轮动,2024年比特币涨幅位于榜首...

2 DeepSeek预示算力需求“打骨折”?业界:别只盯着训练 AI行业进

日前,深度求索DeepSeek-V3横空出世,在AI行业内引发巨震,关键原因之一就是预训练成本之低—...

3 山东两家金店同日遭抢 案件告破,追回全部涉案财物

山东潍坊寿光、昌邑两地首饰店遭抢,涉案80余万元。警方已破案,抓获嫌疑人,并追回全部涉...

4 全国秋粮收购超1亿吨,进度快于去年

11月29日,国家粮食局发布数据,全国已收购秋粮1.2亿吨,进度快于去年,收购工作顺利进行。...

5 俄央行紧急发表声明,俄卢布暴跌超8.5%

俄罗斯当地27日,卢布与美元的兑换汇率大跌,跌幅一度超过8.5%,上周四以来,卢布兑美元的...

6 谷歌遭美司法部指控三重垄断,美司法部法庭激辩

11月26日,科技媒体The Verge报道了美国司法部对谷歌的严厉指控,指控其在三个广告市场中存在...

7 美国一小镇没有警察,警察局全员辞职,因预算削减与骚扰致离

据报道,南卡罗来纳州麦科尔镇警察局因预算削减等原因全员辞职,现无警察在岗。镇长乔治...

8 万达地产寻求4亿美元债展期:万达地产大动作!

今日,大连万达商业发布了最新公告,公告显示,他们正在为名为“万达商业地产11%N20250120”...

9 外资机构看好中国经济:外资金融机构齐唱多

在近日最新公布的10月国民经济运行情况中,各大经济指标均得到了显著回升,尤其是消费,服...

10 菲一地突发大火上千所房屋遭烧毁,一级警报飙升至五级

11月24日,菲律宾马尼拉汤都区普廷巴托岛突发大火,上千房屋遭毁,导致2000余户家庭紧急撤离...

1 一图复盘近10年各类资产回报

站在2024年年末,观察过去10年各大类资产表现,在各自周期中轮动,2024年比特币涨幅位于榜首...

2 DeepSeek预示算力需求“打骨折”?业界:别只盯着训练 AI行业进

日前,深度求索DeepSeek-V3横空出世,在AI行业内引发巨震,关键原因之一就是预训练成本之低—...

3 山东两家金店同日遭抢 案件告破,追回全部涉案财物

山东潍坊寿光、昌邑两地首饰店遭抢,涉案80余万元。警方已破案,抓获嫌疑人,并追回全部涉...

4 全国秋粮收购超1亿吨,进度快于去年

11月29日,国家粮食局发布数据,全国已收购秋粮1.2亿吨,进度快于去年,收购工作顺利进行。...

5 俄央行紧急发表声明,俄卢布暴跌超8.5%

俄罗斯当地27日,卢布与美元的兑换汇率大跌,跌幅一度超过8.5%,上周四以来,卢布兑美元的...

6 谷歌遭美司法部指控三重垄断,美司法部法庭激辩

11月26日,科技媒体The Verge报道了美国司法部对谷歌的严厉指控,指控其在三个广告市场中存在...

7 美国一小镇没有警察,警察局全员辞职,因预算削减与骚扰致离

据报道,南卡罗来纳州麦科尔镇警察局因预算削减等原因全员辞职,现无警察在岗。镇长乔治...

8 万达地产寻求4亿美元债展期:万达地产大动作!

今日,大连万达商业发布了最新公告,公告显示,他们正在为名为“万达商业地产11%N20250120”...

9 外资机构看好中国经济:外资金融机构齐唱多

在近日最新公布的10月国民经济运行情况中,各大经济指标均得到了显著回升,尤其是消费,服...

10 菲一地突发大火上千所房屋遭烧毁,一级警报飙升至五级

11月24日,菲律宾马尼拉汤都区普廷巴托岛突发大火,上千房屋遭毁,导致2000余户家庭紧急撤离...

备案号:鄂ICP备2022006215号 Copyright © 2002-2024 关于我们 网站地图