4月30日,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告选取国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告显示,Baichuan 3在国内大模型中排名第一,智谱GLM-4、通义千问2.1、文心一言4.0、Moonshot(Kimi)等大模型位列其后。从全球范围来看,国外同行的GPT-4、Claude3得分更胜一筹。
SuperCLUE是国内权威的通用大模型综合性测评基准,融易新媒体消息,其前身是第三方中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)。不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过多维度、多视角、多层次的评测体系以及对话的形式,模拟大模型应用场景,真实有效的考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。
为更真实反映大模型通用能力,SuperCLUE本次测评由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等,题目为多轮开放式简答题。评测集共2194题。
测试结果显示,Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo,在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以68.60的成绩超越Claude3-Opus,力压一众国内大模型拔得头筹。此外,在计算、代码、工具使用能力上Baichuan 3表现同样不俗,均排名国内前三。
在评测国内外模型通用能力和专项能力的基础上,SuperCLUE还对国内模型发展现状及竞争格局进行了分析和研判。SuperCLUE认为,Baichuan 3可应用的场景相对广泛,尤其在专业技能类的任务上表现优异,重点推荐数学推理、数据分析、信息处理、智能客服/语音助手以及任务拆解规划等场景。另外,其还可以在相对复杂的行业场景中落地,可应用于教育、医疗、金融等垂直行业。
TikTok 与环球音乐集团共同宣布,双方达成新的版权许可协议。阔别三个月后,环球音乐旗下的...
TikTok 与环球音乐集团共同宣布,双方达成新的版权许可协议。阔别三个月后,环球音乐旗下的...
2 最新中文大模型测评:百川、智谱、通义领跑国内4月30日,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告...
3 勾画全场景招聘蓝图,智联招聘助力更多用户高效求职全场景时代的到来,彻底改变了人类的生活方式、工作方式和社交方式,人力资源行业也打开...
4 中央网信办定点帮扶县佛坪县与轻松集团战略合作,共促医、康4月28日,中央网信办定点帮扶县佛坪县政府文旅局等相关部门与轻松集团签署战略合作协议。...
5 京东物流发布2023ESG报告:完整发展新质生产力,全年研发投入达4月26日,京东物流正式发布了《2023年环境、社会及治理报告》(简称ESG报告)。《报告》显示,...
6 九号公司一季度营收增长54%,微电影上线1.7亿播放量等同近62亿近日,在携手全球品牌代言人易烊千玺发布品牌微电影《记忆奇旅》引爆年轻圈层后,4月24日...
7 聚焦民航四链深度融合,国产自研模拟机与视景系统多项新成果4月26日,由中国航空运输协会和中国南方航空集团有限公司主办,腾讯科技(深圳)有限公司和珠...
8 周鸿祎直播北京车展 深度探馆5小时为国产新能源车助威“加电4月25日,360集团创始人周鸿祎深度探馆2024北京车展,并同步直播近5小时,现场为观众“云体验...
9 淘宝酒水直播再添“猛将”,拉飞哥首秀达成“1个小目标”“大家好,虽然已经播了2000多场,但今天来淘宝是第一次,我是拉飞哥。” 4月24日,“酒水一...
10 社科院副研究员汤俏:网络文学有助于优秀文化的传承和发展近日,中国新闻出版研究院国民阅读研究中心发布《2023-2024年网络文学平台价值研究报告》并...
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图