当前位置:主页 > 财经 > 经济 > 刷榜跑分?AI评测不应走偏路线

刷榜跑分?AI评测不应走偏路线

2024-03-26 16:34:00来源:中国经济网

文章导读
“百模大战”以来,AI大模型的部分榜单上出现了一个奇怪现象:长期盘踞在榜单前列的,经常是一些名不见经传的国产大模型,它们竟然以接近满分的优势碾压了ChatGPT、Gemini和其他知名的...

  “百模大战”以来,AI大模型的部分榜单上出现了一个奇怪现象:长期盘踞在榜单前列的,经常是一些名不见经传的国产大模型,它们竟然以接近满分的优势碾压了ChatGPT、Gemini和其他知名的AI大模型。

  之所以令人大跌眼镜,融易新媒体消息,是因为这与大众的实际体验严重不符。不少AI大模型分数名列前茅,实力却不及格。如果说“听不懂答不对、动不动就崩溃”司空见惯,那么更讽刺的是,有的大模型根本没对业界开放,就算大家想感受一下“第一名”的风采都找不到门路。

  有人可能会好奇:一些AI大模型“高分低能”是怎么做到的?原因其实很简单,那就是评测中出现了数据污染和泄露。简单来说,榜单排名类似于有第三方“考官”出了一个题库,题库中大量考题针对性测评大模型各个方面的能力,而有的“考生”提前拿到题库,并把谜底逐一背了下来。

  “考高分”的目的也很明确,那就是投机取巧、炒作包装。业内人士告诉记者,在国内众多大模型激烈竞争、良莠不齐的当下,许多大模型还未在用户之间形成过硬的口碑,离产生世界级影响还有较远的一段路。而评测是直观体现大模型能力的关键方式之一,学术化榜单和市场化榜单都得到了广泛重视,刷榜跑分因此成为一些企业快速吸引眼球的手段。

  当然,榜单失真的背后,不只有作弊的“考生”,也可能有徇私的“考官”。业界需要客观、公正、高水准的优质榜单帮助大家慧眼识珠、去伪存真,“考官”如果协助“考生”作弊,无疑会扰乱AI大模型的评测环境。所幸我们看到,部分榜单在遇到刷榜跑分问题后,及时推出补救措施,例如将公开大模型和非公开大模型区分为两张榜单,成功挤出大量非公开大模型的水分。

  是金非金焰烈而晓,部分大模型企业一心扑在刷榜跑分上显然走偏了路线。说到底AI大模型的发展还是那句老话,关键核心技术要不来、买不来、讨不来,更包装不来,唯有一步一个脚印,扎扎实实地向前走。


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 多部门要求加强预制菜食品安全监管

记者今天从市场监管总局获悉,市场监管总局联合教育部、工业和信息化部等印发《关于加强...

2 刷榜跑分?AI评测不应走偏路线

“百模大战”以来,AI大模型的部分榜单上出现了一个奇怪现象:长期盘踞在榜单前列的,经常...

3 规定预制菜“不添加防腐剂” 推广餐饮环节使用预制菜明示

市场监管总局等六部门21日联合发布《关于加强预制菜食品安全监管 促进产业高质量发展的通...

4 【中国制造新观察】5G用户过半意味着什么

今年《政府工作报告》提到,我国5G用户普及率超过50%。工业和信息化部数据显示,2024年春节...

5 AIGC已完整介入,未来的创作由谁定义?

Sora让“一句话生成视频”成为可能,却也让不少内容创作者感到担忧——未来,AIGC(生成式人...

6 全球首列氢能源市域列车完成满载运行试验

21日上午,全球首列氢能源市域列车在中车长客股份公司(以下简称“中车长客”)试验线上进行...

7 “假保障 真诱饵” 谨防“养老套路”背后的花样骗局

一盒“免费”鸡蛋、一款新型“理财产品”、一次“低价旅游”……面对五花八门、琳琅满目...

8 清明假期将至,“花”“茶”“食”唱响文旅消费前奏

清明小长假临近,多家旅游平台发布的数据显示,由于只放3天假,清明小长假游客出游以短途...

9 中国10亿参数规模以上大模型数量已超100个

中国国家数据局局长刘烈宏25日在中国发展高层论坛2024年年会上透露,中国10亿参数规模以上的...

10 注意!这20批次食品抽检不合格 涉农药残留超标等问题

记者今天从市场监管总局了解到,近期,市场监管总局组织食品安全监督抽检1376批次样品,检...

1 多部门要求加强预制菜食品安全监管

记者今天从市场监管总局获悉,市场监管总局联合教育部、工业和信息化部等印发《关于加强...

2 刷榜跑分?AI评测不应走偏路线

“百模大战”以来,AI大模型的部分榜单上出现了一个奇怪现象:长期盘踞在榜单前列的,经常...

3 规定预制菜“不添加防腐剂” 推广餐饮环节使用预制菜明示

市场监管总局等六部门21日联合发布《关于加强预制菜食品安全监管 促进产业高质量发展的通...

4 【中国制造新观察】5G用户过半意味着什么

今年《政府工作报告》提到,我国5G用户普及率超过50%。工业和信息化部数据显示,2024年春节...

5 AIGC已完整介入,未来的创作由谁定义?

Sora让“一句话生成视频”成为可能,却也让不少内容创作者感到担忧——未来,AIGC(生成式人...

6 全球首列氢能源市域列车完成满载运行试验

21日上午,全球首列氢能源市域列车在中车长客股份公司(以下简称“中车长客”)试验线上进行...

7 “假保障 真诱饵” 谨防“养老套路”背后的花样骗局

一盒“免费”鸡蛋、一款新型“理财产品”、一次“低价旅游”……面对五花八门、琳琅满目...

8 清明假期将至,“花”“茶”“食”唱响文旅消费前奏

清明小长假临近,多家旅游平台发布的数据显示,由于只放3天假,清明小长假游客出游以短途...

9 中国10亿参数规模以上大模型数量已超100个

中国国家数据局局长刘烈宏25日在中国发展高层论坛2024年年会上透露,中国10亿参数规模以上的...

10 注意!这20批次食品抽检不合格 涉农药残留超标等问题

记者今天从市场监管总局了解到,近期,市场监管总局组织食品安全监督抽检1376批次样品,检...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图