【深度】谁在评价大模型？AI大模型评测榜单乱象侦查

2023-09-19 15:53:18来源：界面新闻

文章导读: “大模型”无疑仍是当下科技互联网界最大的热点。2022年末，OpenAI发布ChatGPT3.5，像一粒投入池塘的石子，迅速在国内人工智能赛道引发涟漪。据中国科学技术信息研究所于今年5月发布的不完全统计数据，国内10亿参数规模以上的模型产品数已达79个，堪称“百模大战”。百度、腾讯、阿里、科大讯飞、商汤、百川智能等大厂或明星创业者带领的科技企业，纷纷跑步入场。与“百模大战”一样让人眼花缭乱的是，针对大模型产品发布的评测榜单也层出...

“大模型”无疑仍是当下科技互联网界最大的热点。2022年末，OpenAI发布ChatGPT3.5，像一粒投入池塘的石子，迅速在国内人工智能赛道引发涟漪。

据中国科学技术信息研究所于今年5月发布的不完全统计数据，国内10亿参数规模以上的模型产品数已达79个，堪称“百模大战”。百度、腾讯、阿里、科大讯飞、商汤、百川智能等大厂或明星创业者带领的科技企业，纷纷跑步入场。

与“百模大战”一样让人眼花缭乱的是，针对大模型产品发布的评测榜单也层出不穷。理论上讲，能力相近的大模型在不同排行榜上的结果差距不该很大。但实际上，他们在不同榜单的排名结果可能是天壤之别。

8月15日，新华社研究院发布了《人工智能大模型体验报告2.0》，对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型，最终讯飞星火排名第一，百度文心一言排名第二，阿里通义千问排在倒数第二。

8月28日，SuperCLUE发布了中文大模型8月榜单，融易新媒体消息，这是百模大战时代出镜率最高的榜单。总榜之上，GPT-4排名第一，百川智能的Baichuan-13B-Chat排在中文榜单首位。

【深度】谁在评价大模型？AI大模型评测榜单乱象调查

9月，学术界当红开源评测榜单C-Eval最新一期排行榜中，云天励飞的大模型“云天书”排在第一，而GPT-4仅名列第十。

这三个榜单分别来自权威媒体、业界、学术界，已经是各自领域较为流行的榜单，结果差异尚且如此巨大，遑论其他。

据界面新闻记者了解，现在国内外各种叫得上名的大模型评测榜单不下50个，而他们的排名结果，鲜有一致。

有趣的是，一些榜单甚至使用了相同的评测集，但排名结果依然差异很大。就像是同一批运动员们换了个场地跑步，成绩排名却迥然不同。那么问题到底是出在运动员，还是在发令枪？

两个维度评价大模型

自ChatGPT问世到百模大战，8个月以来，评价一款大模型有两个公认的显化标准：一是参数量，二是评测集。

参数量指模型中可学习的参数数量，包括模型的权重和偏置。参数量的大小决定了模型的复杂程度，更多的参数和层数，是大模型区别于小模型的标志性特点。2022年，美国一批大模型亮相，从Stability AI发布由文字到图像的生成式模型Diffusion，再到OpenAI推出的ChatGPT，模型参数规模开始进入百亿、千亿级别时代。

从表面指标看，千亿参数的模型普遍比百亿级表现更好。不过也有少量例外，而且同样参数级别的模型应该如何分辨优劣？这就需要引入大模型的第二个评测维度：评测集。

所谓评测集，是为有效评估基础模型及其微调算法在不同场景、不同任务上的综合效果，所构建的单任务或多任务的统一基准数据集，有公开和封闭两种形态。

这些评测集就像针对不同领域的考卷，通过测试大模型在这些“考卷”中的得分，人们可以更直观地比较大模型的性能高低。

在小模型时代，大多数模型机构都会使用学术类评测集效果来作为评判模型好坏的依据。现在，大模型厂商也开始更加主动地参与到学术界基准测试框架中来，视其为权威背书与营销依据。

比如Meta发布开源大模型LIama2之际，就在相关技术论文里明确介绍了其于多个学术评测集之上的表现，并公开了在GSM8K和MMLU两款评测集上与闭源GPT-3.5的对比结果。

目前，国际上用的较多的大模型评测集是MMLU。它源自伯克利大学，考虑了57个学科，容纳了从人文到社科到理工多个大类的综合知识能力，遭直接用于GPT-3.5、GPT-4和PaLM系列大模型的研发过程，国内科技大厂大多数情况也都基于这个框架进行评测。

商汤在发布最新财报时，专门介绍了新模型InternLM-123B在将近30个学术评测集上的表现，也将MMLU的评测成绩放在首位，并跟Meta的llama2做了横向得分比较。

免责声明: 融易新媒体转载此文目的在于传递更多信息，不代表本网的观点和立场。文章内容仅供参考，不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时修改或删除。

上一篇：长沙德财网络科技有限公司虚假宣传诱导我下单 返回首页 返回栏目

下一篇：真“车内无人”！百度Apollo、小马智行将试运营没有安全员的Robotaxi

头条资讯

真“车内无人”！百度Apollo、小马智行将试运营没有安全员的: 【深度】谁在评价大模型？AI大模型评测榜单乱象侦查长沙德财网络科技有限公司虚假宣传诱导我下单瓦力科技扣款35元

中经评论：展示共建“一带一路”的信心: 为患者兜起生命保障网花式改名的利与弊个人养老金开户乱象亟待整治

筑牢矿山安全生产屏障: 货币政策接续发力稳增长 iPhone15上线，你的钱包捂紧了吗？ “联名热”对茅台是好是坏？

近期热点

热门文章

日榜周榜: 1 真“车内无人”！百度Apollo、小马智行将试运营没有安全员的
界面新闻记者 | 伍洋宇 9月19日消息，百度Apollo旗下自动驾驶出行平台萝卜快跑及小马智行方...
2 【深度】谁在评价大模型？AI大模型评测榜单乱象侦查
“大模型”无疑仍是当下科技互联网界最大的热点。2022年末，OpenAI发布ChatGPT3.5，像一粒投入池...
3 长沙德财网络科技有限公司虚假宣传诱导我下单
长沙德财网络科技有限公司该公司涉嫌网络电信诈骗:2023年通过该公司员工微信名（五点整）...
4 瓦力科技扣款35元
瓦力科技不提告诉我。直接扣款...
5 中经评论：展示共建“一带一路”的信心
香港特区政府及贸发局共同主办的第八届“一带一路”高峰论坛盛况空前，来自60多个国家和地...
6 彰显中国式现代化的人民立场
“现代化的最终目标是实现人自由而全面的发展。现代化道路最终能否走得通、行得稳，关键...
7 为患者兜起生命保障网
国家医保局近日发布消息，通过医保目录准入谈判，已累计将26种罕见病用药纳入医保药品目录...
8 花式改名的利与弊
推特是广为人知的社交网络，但自从改名X后，人气大幅下滑。根据应用性能追踪机构Apptopia的...
9 个人养老金开户乱象亟待整治
近期，个人养老金开户乱象引发社会关注。不少人反映个人养老金账户莫名“遭开通”，本人...
10 筑牢矿山安全生产屏障
矿山安全是安全生产工作的重要组成部分，社会各界一直关心关切。日前，中共中央办公厅、...; 1 真“车内无人”！百度Apollo、小马智行将试运营没有安全员的
界面新闻记者 | 伍洋宇 9月19日消息，百度Apollo旗下自动驾驶出行平台萝卜快跑及小马智行方...
2 【深度】谁在评价大模型？AI大模型评测榜单乱象侦查
“大模型”无疑仍是当下科技互联网界最大的热点。2022年末，OpenAI发布ChatGPT3.5，像一粒投入池...
3 长沙德财网络科技有限公司虚假宣传诱导我下单
长沙德财网络科技有限公司该公司涉嫌网络电信诈骗:2023年通过该公司员工微信名（五点整）...
4 瓦力科技扣款35元
瓦力科技不提告诉我。直接扣款...
5 中经评论：展示共建“一带一路”的信心
香港特区政府及贸发局共同主办的第八届“一带一路”高峰论坛盛况空前，来自60多个国家和地...
6 彰显中国式现代化的人民立场
“现代化的最终目标是实现人自由而全面的发展。现代化道路最终能否走得通、行得稳，关键...
7 为患者兜起生命保障网
国家医保局近日发布消息，通过医保目录准入谈判，已累计将26种罕见病用药纳入医保药品目录...
8 花式改名的利与弊
推特是广为人知的社交网络，但自从改名X后，人气大幅下滑。根据应用性能追踪机构Apptopia的...
9 个人养老金开户乱象亟待整治
近期，个人养老金开户乱象引发社会关注。不少人反映个人养老金账户莫名“遭开通”，本人...
10 筑牢矿山安全生产屏障
矿山安全是安全生产工作的重要组成部分，社会各界一直关心关切。日前，中共中央办公厅、...

热门资讯