一直以来,昆仑万维完全自研的天工大模型(以下简称“天工”)作为通用基座大模型,始终追求技术创新,致力于突破基座技术壁垒。9月16日,在权威推理榜单Benchmark GSM8K 测试中,天工以80%的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),这标志着天工的推理能力达到全球领先,接近GPT-4。
天工大模型不仅在推理性能上有着强大的竞争力,在MMLU、C-EVAL、HumanEval等三项数据集测试中也同样表现出色。在MMLU数据集测试中,天工以65%准确率超越了LLaMA-65B的63.4%;在C-EVAL数据集测试中,天工以65%准确率超越了GPT3.5的54.4%。在HumanEval数据集测试中,天工以37.2%的准确率超过了PaLM-540B(26.2%)、LLaMA-65B(23.7%)、LLaMa2 -70B(30.5%)。
根据公开测试数据搜集整理
推理能力对于判断一个基座大模型是否“聪明”至关重要。在GSM8K、MMLU、C-EVAL、HumanEval四项数据集测试中,天工大模型均获得较高的正确率,表明天工大模型的通用能力很强,核心性能均达到了国际领先水准。
01 天工多项数据集测试均表现优秀
在上述几个数据集里,GSM8K英文数据集测试是目前全球公认的评判基座大模型推理能力的权威标准。
GSM8K包含8500个高质量的数学问题。这些问题遭分为7500个训练问题和1000个测试问题,一般需要2到8个步骤来解决。这些问题的解决主要涉及算术运算。GSM8K数据集的目的是用来测试推理多步数学问题的能力。研究人员通常使用GSM8K来评估大型语言模型在解决英文数学问题时的性能表现。
目前国内外多个大模型都进行了GSM8K的测试。例如,微软与中国科学院在2023年8月联合发布了一项关于WizardMath的研究结果,该研究主要在 GSM8K和MATH这两个常见的数学基准上测试了多个模型的性能,涵盖了大量主流模型,参与测试的模型包括:
闭源模型:OpenAI 的 GPT-3、GPT-3.5、ChatGPT、GPT-4,谷歌的 PaLM 2、PaLM、 Minerva,Anthropic 的 Claude Instant、Claude 1.3、Claude 2, DeepMind 的 Chinchilla;
开源模型:Llama 1、Llama 2、GAL、GPT-J、GPT-Neo、Vicuna、MPT、Falcon、Baichuan、ChatGLM、Qwen 和 RFT
在这项研究中,最后这些模型的得分如下:
据论文,Google PaLM 的正确率不超过56.5%,LLaMA2不同参数规模的正确率最高不超过56.8%,GPT-3.5 的正确率为57.1%,GPT-4的正确率为92%。
而天工的GSM8K测试正确率为80%,这代表天工大模型整个基座的推理能力在同等规模大模型中出类拔萃,大幅超过GPT-3.5和LLaMA2-70B,达到全球领先水平。在上述研究中,WizardMath作为目前数学垂域最好的开源模型,GSM8K正确率仅比天工高1.6%。
除了GSM8K外,天工参与评测的其他几个数据集在业内也相当权威。
MMLU由加州大学伯克利分校等知名高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的57个科目,主要目标是对模型的英文跨学科专业能力进行深入测试;C-EVAL评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建,是一个面向中文语言模型的综合考试评测集,覆盖了52个来自不同行业领域的学科;HumanEval是OpenAI为了评估Codex模型的有效性而创建的数据集,融易新媒体消息,通过HumanEval研究人员可以对Codex模型进行评估,并了解其在代码生成方面的准确性和效果。
这几个都是业界公认的用来评估模型在语言理解、推理、算法和数学等方面核心性能的重要数据集,天工的得分都相对较高。
除了英文数据集,天工大模型在小米的中文开源数据集CMATH测试中也表现良好。
CMATH数据集包括1700个小学水平的数学应用题和详细的注释,旨在提供一个基准工具,评估当前流行的大模型的数学能力对应小学数学哪一年级的水平,在这份测试集中天工大模型的平均准确率为76.4%高于ChatGPT的平均准确率74.8%,并全面领先其他主流大模型,这充分表明天工大模型在中文场景的数理能力表现也十分优秀。
天工大模型之所以表现如此优秀,除了积累了大量的高质量语料外,对多数据源的高效融合策略,不同语言间的能力迁移以及如何更好的激发基座逻辑推理能力有着深刻的见解。
02
天工的推理能力超过GPT-3.5
天工的推理能力取得全球领先的水平,超过了GPT-3.5和LLaMA2,那让我们来看看天工和GPT-3.5在GSM8K测试中的究竟表现。
[19198079221]尊敬的客户,为配合公安部门打击治理网络新型违法犯罪,您的号码因使用异常而保...
2 昆仑万维天工通用大模型推理能力大幅超过GPT-3.5和LLaMA2,达到全一直以来,昆仑万维完全自研的天工大模型(以下简称“天工”)作为通用基座大模型,始终追求...
3 美团公布今年1至8月黑灰产打击治理成果 涉案金额5000余万元9月11日至17日,为期一周的第十个国家网络安全宣传周闭幕,围绕“网络安全为人民,网络安全...
4 完美世界萧泓出席2023北京文化论坛 共话数字文化消费升级9月15日,2023北京文化论坛“科技赋能:发展机遇与风险应对”平行论坛举办。此次论坛分为两...
5 2023阿里巴巴全球数学竞赛落幕 5届吸引25万人次参赛9月16日傍晚,2023阿里巴巴全球数学竞赛落下帷幕,颁奖典礼在北京大学百周年纪念讲堂举行。...
6 天猫苹果旗舰店连夜补货9次货源充足 粉色iPhone15最受欢迎“有人抢到iPhone 15 Pro或Max吗?”9月15日晚8点,iPhone15 系列新品开启预售,不少人定好闹钟还是...
7 “天猫精灵”拟更名?独家确认:属实 并将千万终端升级接入“9月15日,有消息称阿里巴巴旗下“天猫精灵”将更名,已有XGENIE品牌字样的新品在部分渠道露...
8 智联招聘出席国家网络安全宣传周 联合发布《2023网络安全产业近日,在福州举行的国家网络安全宣传周上,《2023网络安全产业人才发展报告》(以下简称《报...
9 从“双子星”到中小城市 京东云立体化服务“数字福建”建设早在2000年世纪之交,“数字地球”和“数字社会”还停留在概念阶段,“数字福建”就遭郑重...
10 京东到家亮相2023食餐会:即时零售为老字号创新发展“加速度”9月15日,2023(第八届)中国国际食品餐饮博览会(以下简称“食餐会”)在长沙举办。本届食餐会由...
[19198079221]尊敬的客户,为配合公安部门打击治理网络新型违法犯罪,您的号码因使用异常而保...
2 昆仑万维天工通用大模型推理能力大幅超过GPT-3.5和LLaMA2,达到全一直以来,昆仑万维完全自研的天工大模型(以下简称“天工”)作为通用基座大模型,始终追求...
3 美团公布今年1至8月黑灰产打击治理成果 涉案金额5000余万元9月11日至17日,为期一周的第十个国家网络安全宣传周闭幕,围绕“网络安全为人民,网络安全...
4 完美世界萧泓出席2023北京文化论坛 共话数字文化消费升级9月15日,2023北京文化论坛“科技赋能:发展机遇与风险应对”平行论坛举办。此次论坛分为两...
5 2023阿里巴巴全球数学竞赛落幕 5届吸引25万人次参赛9月16日傍晚,2023阿里巴巴全球数学竞赛落下帷幕,颁奖典礼在北京大学百周年纪念讲堂举行。...
6 天猫苹果旗舰店连夜补货9次货源充足 粉色iPhone15最受欢迎“有人抢到iPhone 15 Pro或Max吗?”9月15日晚8点,iPhone15 系列新品开启预售,不少人定好闹钟还是...
7 “天猫精灵”拟更名?独家确认:属实 并将千万终端升级接入“9月15日,有消息称阿里巴巴旗下“天猫精灵”将更名,已有XGENIE品牌字样的新品在部分渠道露...
8 智联招聘出席国家网络安全宣传周 联合发布《2023网络安全产业近日,在福州举行的国家网络安全宣传周上,《2023网络安全产业人才发展报告》(以下简称《报...
9 从“双子星”到中小城市 京东云立体化服务“数字福建”建设早在2000年世纪之交,“数字地球”和“数字社会”还停留在概念阶段,“数字福建”就遭郑重...
10 京东到家亮相2023食餐会:即时零售为老字号创新发展“加速度”9月15日,2023(第八届)中国国际食品餐饮博览会(以下简称“食餐会”)在长沙举办。本届食餐会由...
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 融易新媒体