别跟马斯克扯头花了，“叛徒”Anthropic解决了困扰OpenAI的难题

2024-03-07 21:28:19来源：互联网

文章导读: 2024年LLM竞赛正式拉开，遭称为OpenAI“最强竞争对手”的大模型公司Anthropic带着Claude 3系列闪亮登场。而它的对手们，一个正和马斯克“扯头花”；另一个因为Gemini政治过分正确而焦头烂额。一时间，“完整碾压GPT-4”“全球最强模型易主”等字眼铺满屏幕，似乎一年前由OpenAI开辟的盛世终于转交给了Anthropic。别忘了，GPT-4已经是一年前的产物，GPT-5还在路上；谷歌也不是Anthropic的“对手”，是其背后第二大“金主爸爸”。有消息称，去年12月，谷歌对...

2024年LLM竞赛正式拉开，遭称为OpenAI“最强竞争对手”的大模型公司Anthropic带着Claude 3系列闪亮登场。而它的对手们，一个正和马斯克“扯头花”；另一个因为Gemini政治过分正确而焦头烂额。

一时间，“完整碾压GPT-4”“全球最强模型易主”等字眼铺满屏幕，似乎一年前由OpenAI开辟的盛世终于转交给了Anthropic。

别忘了，GPT-4已经是一年前的产物，GPT-5还在路上；谷歌也不是Anthropic的“对手”，是其背后第二大“金主爸爸”。有消息称，去年12月，谷歌对Anthropic的投资扩大到了20亿美元。

而在这场“你追我赶”的游戏中，还有微软“小儿子”Mistral AI已经发布的Mistral Large，以及遭Meta列为2024年重点任务的Llama 3等等。只不过，无论是Mistral AI还是Meta目前都是遭GPT-4压着打，只有“脱胎”于OpenAI的Anthropic拿出了可以与之一战的“杀器”。

这也表明了，暂时的排名只是先来后到，今年的LLMs将完整开花，。因此，铺天盖地的“Open AI遭追平比分”仅仅是Anthropic新品发布的一个噱头，重点应该放在人工智能公司选择的商业化路径上——当Inflection、Character.AI，甚至OpenAI等公司进一步探向to C消费者用例时，Anthropic却一头扎向了to B。这条思路在其刚刚发布的Claude 3系列的突出性能、定价策略上均有所体现。

一、“田忌赛马”式定价，瞄准to B领域

Claude 3系列包含三个模型——Opus、Sonnet、Haiku，性能从高到低。

别跟马斯克扯头花了，“叛徒”Anthropic解决了困扰OpenAI的难题

根据Anthropic公布的技术报告，Opus在知识测试MMLU、推理测试 GPQA、基础数学测试 GSM8K 等一系列基准测试中，均优于GPT-4。Sonnet的性能与GPT-4不相上下；Haiku则略逊于GPT-4。不过，这项测试中没有包含刚刚更新的GPT-4 Turbo和Gemini 1.5 Pro。

别跟马斯克扯头花了，“叛徒”Anthropic解决了困扰OpenAI的难题

值得注意的是，MMLU（本科常识）/ GSM8K （小学数学）/ HumanEval （计算机代码）等指标上已严重饱和，几乎所有的模型都表现相同。真正有区分度的为MATH（数学问题解答能力）和GPQA（领域专家能力），后者可以体现模型在企业服务方面的能力。

据悉，Claude3 选择了金融、法律、医学和哲学作为专家领域。其中，Opus的GPQA准确率达到了60%，这意味着其能力接近于同一领域且能够上网的人类博士准确率（65%—75%）。Sonnet达40.4%；Haiku达33.3%。而GPT-4仅为35.7%。

对此，英伟达资深AI科学家JimFan指出：我建议所有LLM的模型卡都应该效仿这种做法，这样不同的下游应用就能知道可以期待什么。

同时，考虑到企业客户需要处理很多PDF、PPT、流程图，Claude3 系列在视觉能力、准确性、长文本输入和安全方面，均有所进步。

例如，在准确性方面，Anthropic 使用了大量复杂的事实问题来针对当前模型中已知的弱点，将谜底分为正确谜底、错误谜底（幻觉）、承认“不知道”。相应地，Claude3 可以表示自己不知道谜底，而不是提供不正确的信息。除了更准确的回复，Claude 3甚至还能“引用”，指向参考材料中的精确句子来验证他们的谜底。

在定价策略上，以GPT-4 Turbo的40美元/1M tokens；GPT-3.5 Turbo的2美元/1M tokens为对比。

最强能力Opus——90美元/1M tokens，适合最尖端的企业和机构。其接近人类的理解能力，适用于需要高度智能和复杂任务处理的场景，如企业自动化、市场分析和制定策略、复杂的数据分析和金融预测、生物医学研究和开发等。

最高性价比Sonnet——18美元/1M tokens，适合大多数企业客户规模化使用，消费者客户也可以负担。其纯文本任务表现与Opus相当，更适用于数据处理、代码生成、个性化营销，图文解析等中等复杂度的工作。

最快速度Haiku——1.5美元/1M tokens，适合消费者客户使用。其具备近乎即时的响应能力，在大多数纯文本任务上表现仍然相当出色，且包含多模态能力（比如视觉），适用于与用户实时互动、内容管理、物流库存管理、文本翻译等工作任务。

综合来看，Claude 3的高端线Opus比OpenAI（GPT-4 Turbo）更贵，低端线Haiku比OpenAI（GPT-3.5 Turbo）更便宜。

如此一来，成败似乎集中在了中端线Sonnet上。如果“更少的幻觉”“更专业的领域行家”“更高的性价比” 更吸引企业客户。那么，GPT-4 Turbo的地位将会变得不尴不尬，直到局势遭GPT-5打破。

目前，用户可以免费体验中等性能的Sonnet，最强版Opus仅供Claude Pro付费用户使用（20美金/月），性能稍弱的Haiku即将推出。

共3页: 上一页【1】【2】【3】下一页

免责声明: 融易新媒体转载此文目的在于传递更多信息，不代表本网的观点和立场。文章内容仅供参考，不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时修改或删除。

上一篇：腾讯音乐失去版权顶梁柱 返回首页 返回栏目

下一篇：低价商家，玩不转TikTok

头条资讯

低价商家，玩不转TikTok: 别跟马斯克扯头花了，“叛徒”Anthropic解决了困扰OpenAI的难题腾讯音乐失去版权顶梁柱东北“粮食大亨”李志华，没能拯救贵人鸟对话演员王柠：一个文艺女青年决定演“老三”

想成为中国版“诺和诺德”，华东医药还差什么？: 电厂 | 京东低价不回头，那股价呢？ 2024短剧出海，“一夜暴富”还有可能吗？当电影营销开始“打小人” 频打“涨价牌”，剑南春、牛栏山凭什么

频打“涨价牌”，剑南春、牛栏山凭什么？: 京东补贴这一年：收入没涨，钱没少赚江西小炒，批量攻占江浙沪京东物流延误拒绝赔付京东快递保价10000元摔坏了电冰箱不理赔

近期热点

热门文章

日榜周榜: 1 低价商家，玩不转TikTok
文|一财商学院杨越欣 2023年，TikTok成为全球下载量最高的移动应用程序，在App Store和Google Pl...
2 别跟马斯克扯头花了，“叛徒”Anthropic解决了困扰OpenAI的难题
2024年LLM竞赛正式拉开，遭称为OpenAI“最强竞争对手”的大模型公司Anthropic带着Claude 3系列闪亮...
3 腾讯音乐失去版权顶梁柱
文丨牛刀商业评论于学林版权是腾讯音乐的护城河，也是支撑腾讯音乐多年来屹立国内音乐市...
4 东北“粮食大亨”李志华，没能拯救贵人鸟
贵人鸟，终究没能等来“贵人”。3月7日，贵人鸟继续大跌。这意味着，公司已锁定退市。回...
5 对话演员王柠：一个文艺女青年决定演“老三”
一个“老三”角色的走红，让不少人认识了演员王柠。年初热播剧《如果奔跑是我的人生》中...
6 想成为中国版“诺和诺德”，华东医药还差什么？
2023年司美格鲁肽总销售额达到约212亿美元，同比猛增88.78%，市场已经在期待中国的“诺和诺德...
7 电厂 | 京东低价不回头，那股价呢？
3月6日，京东集团发布了2023年第四季度及全年业绩。第四季度，京东集团收入为 3061亿元，同比...
8 2024短剧出海，“一夜暴富”还有可能吗？
短剧爆火快进到2024年，行业生态分化更加明显。从国内短剧行业来看，今年刚开年咪蒙团队打...
9 当电影营销开始“打小人”
质疑春节档的电影“是不是电影”的观众们，终于在年后迎来了久违的“影迷时刻”。获得金...
10 频打“涨价牌”，剑南春、牛栏山凭什么？
龙年伊始，酒圈儿又开始酝酿新一轮涨价。 2月27日，剑南春核心大单品水晶剑出厂价提高15元...; 1 低价商家，玩不转TikTok
文|一财商学院杨越欣 2023年，TikTok成为全球下载量最高的移动应用程序，在App Store和Google Pl...
2 别跟马斯克扯头花了，“叛徒”Anthropic解决了困扰OpenAI的难题
2024年LLM竞赛正式拉开，遭称为OpenAI“最强竞争对手”的大模型公司Anthropic带着Claude 3系列闪亮...
3 腾讯音乐失去版权顶梁柱
文丨牛刀商业评论于学林版权是腾讯音乐的护城河，也是支撑腾讯音乐多年来屹立国内音乐市...
4 东北“粮食大亨”李志华，没能拯救贵人鸟
贵人鸟，终究没能等来“贵人”。3月7日，贵人鸟继续大跌。这意味着，公司已锁定退市。回...
5 对话演员王柠：一个文艺女青年决定演“老三”
一个“老三”角色的走红，让不少人认识了演员王柠。年初热播剧《如果奔跑是我的人生》中...
6 想成为中国版“诺和诺德”，华东医药还差什么？
2023年司美格鲁肽总销售额达到约212亿美元，同比猛增88.78%，市场已经在期待中国的“诺和诺德...
7 电厂 | 京东低价不回头，那股价呢？
3月6日，京东集团发布了2023年第四季度及全年业绩。第四季度，京东集团收入为 3061亿元，同比...
8 2024短剧出海，“一夜暴富”还有可能吗？
短剧爆火快进到2024年，行业生态分化更加明显。从国内短剧行业来看，今年刚开年咪蒙团队打...
9 当电影营销开始“打小人”
质疑春节档的电影“是不是电影”的观众们，终于在年后迎来了久违的“影迷时刻”。获得金...
10 频打“涨价牌”，剑南春、牛栏山凭什么？
龙年伊始，酒圈儿又开始酝酿新一轮涨价。 2月27日，剑南春核心大单品水晶剑出厂价提高15元...

热门资讯