当前位置:主页 > 科技 > 互联网 > Kimi掀起大模型长文本之战

Kimi掀起大模型长文本之战

2024-04-02 17:37:55来源:界面新闻

文章导读
凭借“长文本”标签,月之暗面从国内一众AI大模型公司中脱颖而出,打破了这个行业在产品上大同小异、技术上难分伯仲的刻板印象。 去年10月,由杨植麟创办的月之暗面发布首款大模型产...

凭借“长文本”标签,月之暗面从国内一众AI大模型公司中脱颖而出,打破了这个行业在产品上大同小异、技术上难分伯仲的刻板印象。

去年10月,由杨植麟创办的月之暗面发布首款大模型产品智能助手Kimi Chat,将上下文窗口长度扩展至20万字。彼时,Anthropic的Claude2-100k和OpenAI的GPT4-32k支持的最长文本分别为100K(约8万汉字)和32K(约2.5万汉字),Kimi是这两者的2.5倍和8倍。 

这一步踩对了C端(用户端)需求的节奏,大模型技术规模化应用的可能性遭刻画出更清晰路径。用户蜂拥而至,Kimi日活用户从10万规模直逼百万量级。

一把火扔进了迷雾中的行业,此前喧嚣沸腾但迟迟找不到亮光的竞争者纷纷卷入“长文本”浪潮,百川智能的Baichuan2-192K(约35万汉字)、零一万物的Yi-34B(约40万汉字)等大模型先后打破Kimi的记录。

但不等半年时间,Kimi重新夺回主动权,并将风浪掀得更高。

3月18日,Kimi将上下文输入限制突破至200万汉字。这轮热度一度致其小程序宕机,甚至于在二级市场形成Kimi概念股板块,一家创业公司左右资本情绪的戏码罕见上演。互联网大厂亦开始明牌上桌,阿里通义千问开放1000万字长文档处理功能,百度文心一言也即将释放200万至500万长度处理能力。 

长文本战场的火药味渐浓,但长文本是否有极限?它对实现AGI(通用人工智能)和大模型技术的应用层繁荣有什么意义?在这场行动陷入无意义漩涡之前,行业理应对此抱有谜底。

直面技术矛盾

由上下文窗口长度所决定的长文本能力是指,语言模型在进行预测或生成文本时,所考虑的前一个词元(Token)或文本片段的大小范围。

上下文窗口越大,大模型可以获得的语义信息也越丰富,有助于消除歧义、生成更加准确的文本。云从科技技术管理部负责人在接受界面新闻采访时表示,以长上下文为重点突破更加贴近人类记忆的特点,相当于扩展了AI的记忆库,让AI可以参考更多历史记忆信息,给出更准确的输出。

对于多轮对话、长文档处理等场景中,一定长度的上下文窗口是大模型能否高质量完成交流的必要条件。在基础大模型频繁迭代的2023年,长文本能力也一直是主流大模型厂商关注的焦点。 

但是上下文窗口、模型智能水平、算力成本之间始终存在着矛盾。 

Transformer架构中的注意力机制,需要消耗算力来计算Token与Token之间的相对注意力权重。当上下文窗口显著增大时,模型每次可以处理的文本范围变得更广,但这也意味着每次处理所需的计算资源会大幅增加。因此,尽管每次处理的文本量更大,但由于算力资源限制,模型在整个生命周期内能够处理的总Token数量会减少,导致模型的理解能力下降。 

针对这一点,学界自2019年起便开始针对“efficient Transformer”(高效Transformer)为目标进行研究,也出现了诸如稀疏注意力机制等解决方案。核心思路在于通过限制模型必须计算的关系数量,减少计算负担和存储需求,从而提高处理长序列时的效率。

未来真正要追求无损长文本以及高效推理的话,那改进Transformer架构使其更高效还是很必要的。”波形智能CTO周王春澍表示。 

即便是在模型本身的上下文窗口受限的前提下,业内也存在着RAG(Retrieval-Augmented Generation,检索增强生成)等技术路线来实现与超长文本能力类似的效果。即,使用检索系统从一个大型的文档集合中检索出与输入序列相关的文档,然后将这些文档作为上下文信息输入到生成模型中,以辅助生成过程。

在通义千问打出1000万字的长文档处理功能、360预告500万字的长文档处理能力后,一个业内普遍存在的推测就是,这类功能是通过RAG辅助之后,基于基座模型本身的上下文窗口实现的;如果由大模型完成千万汉字长文本的处理,那所耗费的算力资源会相当惊人,不具备商用价值。 


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 抖音治理“厚黑学”等波及知识付费圈,有店铺遭扣12分

抖音的一纸公告引发了知识付费IP圈“地震”。 3月27日,抖音发布《关于不当利用AI生成虚拟人...

2 Kimi掀起大模型长文本之战

凭借“长文本”标签,月之暗面从国内一众AI大模型公司中脱颖而出,打破了这个行业在产品上...

3 扫地机行业越来越卷,石头科技新品创新能力承压

3月29日,石头科技举行旗舰新品发布会,推出 自清洁扫拖机器人V20以及G20S。 V20搭载了扫拖 双...

4 大批量招揽第三方商家,京东能站稳“时尚圈”吗?

电商行业日益进入存量竞争时代, 作为 零售业中 的高溢价高利润品类 , 时尚赛道 更是各大...

5 林小海卸任高鑫零售CEO,阿里系零售品牌持续震荡

继盒马之后,阿里系另一实体零售品牌的高层变动再次引发外界关注。 3月26日晚间,高鑫零售...

6 2023年斗鱼营收同比下降22.3%,用户规模的核心问题仍待解决

3月26日,斗鱼(NASDAQ:DOYU)发布了2023年四季度及全年财报。 财报数据来看,2023年第四季度斗鱼...

7 和治友德倡议支持2024地球一小时活动

【直报网北京3月25日讯】(和治友德) 2024年3月23日(星期六)晚20:30至21:30,地球一小时活动再次席...

8 和治友德|张大宁:睡眠是养肾保肾的重要内容

【直报网北京3月21日讯】(和治友德) 今天是3月21日世界睡眠日。为唤起全民对睡眠重要性的认...

9 举报长沙大悦城店

1、长沙奈尔宝大悦城店店员服务态度极其恶劣,消费者没有享受对应服务。 2、长沙奈尔宝大...

10 长沙国大驾校老板跑路,学员维权艰难

到目前为止只考了科目一,现在负责的教练称驾校倒闭了,无法正常支付工资,让我选择私教...

1 抖音治理“厚黑学”等波及知识付费圈,有店铺遭扣12分

抖音的一纸公告引发了知识付费IP圈“地震”。 3月27日,抖音发布《关于不当利用AI生成虚拟人...

2 Kimi掀起大模型长文本之战

凭借“长文本”标签,月之暗面从国内一众AI大模型公司中脱颖而出,打破了这个行业在产品上...

3 扫地机行业越来越卷,石头科技新品创新能力承压

3月29日,石头科技举行旗舰新品发布会,推出 自清洁扫拖机器人V20以及G20S。 V20搭载了扫拖 双...

4 大批量招揽第三方商家,京东能站稳“时尚圈”吗?

电商行业日益进入存量竞争时代, 作为 零售业中 的高溢价高利润品类 , 时尚赛道 更是各大...

5 林小海卸任高鑫零售CEO,阿里系零售品牌持续震荡

继盒马之后,阿里系另一实体零售品牌的高层变动再次引发外界关注。 3月26日晚间,高鑫零售...

6 2023年斗鱼营收同比下降22.3%,用户规模的核心问题仍待解决

3月26日,斗鱼(NASDAQ:DOYU)发布了2023年四季度及全年财报。 财报数据来看,2023年第四季度斗鱼...

7 和治友德倡议支持2024地球一小时活动

【直报网北京3月25日讯】(和治友德) 2024年3月23日(星期六)晚20:30至21:30,地球一小时活动再次席...

8 和治友德|张大宁:睡眠是养肾保肾的重要内容

【直报网北京3月21日讯】(和治友德) 今天是3月21日世界睡眠日。为唤起全民对睡眠重要性的认...

9 举报长沙大悦城店

1、长沙奈尔宝大悦城店店员服务态度极其恶劣,消费者没有享受对应服务。 2、长沙奈尔宝大...

10 长沙国大驾校老板跑路,学员维权艰难

到目前为止只考了科目一,现在负责的教练称驾校倒闭了,无法正常支付工资,让我选择私教...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图