当前位置:主页 > 科技 > IT业界 > 万千气象看上海 | 上海人工智能实验室要做大模型技术的“度量衡” | 寻找中国经济新动能

万千气象看上海 | 上海人工智能实验室要做大模型技术的“度量衡” | 寻找中国经济新动能

2024-04-26 10:08:04来源:界面新闻

文章导读
通常来看,AI大模型在国内市场燃起的这把火,主要来自互联网大厂和科技创业公司两股力量,但实际上,还有一股力量来自能够连接产学研三界的研发机构,他们在这场前沿科技全球竞赛中...

通常来看,AI大模型在国内市场燃起的这把火,主要来自互联网大厂和科技创业公司两股力量,但实际上,还有一股力量来自能够连接产学研三界的研发机构,他们在这场前沿科技全球竞赛中的角色同样重要。

上海人工智能实验室正处于该行列中。该实验室是上海人工智能创新中心发起设立的新型研发机构,在2020年的世界人工智能大会上正式揭牌成立。

上海人工智能实验室的研究方向包含AI基础理论、AI开放平台、AI基础软件和基础硬件系统、AI应用、AI核心技术、AI伦理与政策等。除学术成果外,实验室已联合业界、学界发布多项技术产品,涉及大语言、多模态、城市实景三维等基础模型。

据界面新闻了解,目前该实验室已在大模型领域有了诸多技术进展。今年以来,融易新媒体消息,上海人工智能实验室已发布书生·浦语2.0、新一代书生·视觉大模型、书生·天际2.0,其书生通用大模型体系完整迈向2.0时代。此外,由基础大模型衍生出的书生·浦语灵笔2.0和书生·浦语数学开始拓宽该领域技术的应用路径。

除了技术成果,上海人工智能实验室在大模型领域的另一突出价值,在于建立了大模型开源开放评测体系“司南”(OpenCompass2.0),包含评测榜单CompassRank、评测基准社区CompassHub、评测工具链体系CompassKit三个板块。

在大模型的混战中,行业曾出现大模型大肆刷榜、不同来源大模型评测榜单四起的乱象,外界一时对各大榜单的公信力产生质疑,陷入无从分辨大模型真实水平的困境。

界面新闻此前曾报道,有多位行业人士表示,未来更看好OpenCompass、FlagEval等具有一定学术背景的评测机构模式,并有头部大模型公司创业者以OpenCompass为准,评判各个大模型的性能表现。

对于如何看待大模型刷榜乱象,又如何有策略地构建评测榜单的技术公信力一事,该实验室相关负责人表示,评测是大模型技术进步的“度量衡”。如果一些大模型沉迷于刷榜、跑分,通过“题海战术”提高大模型评测成绩,对于模型性能的反映可能失真,影响模型研发团队的改进方向,“高分低能”伤害的是机构本身。

在究竟做法上,OpenCompass的评测维度包括基础能力和综合能力两个层级,涵盖了语言、知识、理解、数学、代码、长文本、智能体等12个一级能力维度,综合设计了50余个二级能力维度。其能力维度设计具备可扩展性和增长性,同时可根据未来的大模型应用场景进行动态更新和迭代。

为了能向参与评测的机构提供更真实的大模型性能表现,OpenCompass借鉴了高考提前公布“考试大纲”而不公布考题的策略,在每一期榜单发布前,公开上一期的评测题目,既让参与评测的机构有方向可循,也避免了直接刷题情况的产生。

与此同时,OpenCompass在题目构建上也进行了前沿探索。研究人员在评测题目构建中投入了巨大的研发力度,使评测题集保持创新状态,尽量无法在互联网中搜索到原题。创新构造题目的策略和整套的系统,同样为大模型评测技术的核心环节之一。

此外,上海人工智能实验室相关负责人强调,CompassRank作为榜单的承载平台,将不受任何商业利益干扰,保持中立性。

为继续提升大模型评测榜单的公信力和扩大可评测范畴,目前,OpenCompass已与多家产业机构共同推出了多个垂直领域的评测基准和数据集,涉及法律、金融、医疗、网络安全等领域。OpenCompass还将通过司南大模型评测伙伴计划,与各行业头部企业机构一起,构建各类高质量的行业评测基准。


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 波士顿咨询发布AI调研报告:中国消费者AI认知度超过80%

4月24日,波士顿咨询公司发布AI调研报告称,全球消费者正在以各种方式尝试使用AI以满足需求...

2 万千气象看上海 | 上海人工智能实验室要做大模型技术的“度量

通常来看,AI大模型在国内市场燃起的这把火,主要来自互联网大厂和科技创业公司两股力量,...

3 关于拟注销厦门茶殿网电子商务有限公司等两家企业《福建省增

关于拟注销厦门茶殿网电子商务有限公司等两家企业《福建省增值电信业务经营许可证》的公...

4 江苏省通信管理局​关于注销12家企业增值电信业务经营许可证

关于注销12家企业增值电信业务经营许可证的通告 根据《中华人民共和国行政许可法》第七十...

5 天津市通信管理局关于拟注销《中华人民共和国增值电信业务经

关于拟注销《中华人民共和国增值电信业务经营许可证》的公示 近期,鸿宇金柯(天津)科技...

6 山西省通信管理局关于注销山西趣牛科技有限公司等4家企业增

山西省通信管理局关于注销山西趣牛科技有限公司等4家企业增值电信业务经营许可的通告 根据...

7 山西省通信管理局关于拟注销山西数漫社科技有限公司等2家企

山西省通信管理局关于拟注销山西数漫社科技有限公司等2家企业增值电信业务经营许可证的公...

8 江苏省通信管理局关于2024年第一季度全省电信服务质量的通告

江苏省通信管理局关于2024年第一季度全省电信服务质量的通告 根据《中华人民共和国电信条例...

9 辽宁省通信管理局关于注销11家企业省内增值电信业务经营许可

关于注销11家企业省内增值电信业务经营许可证的通告 根据《中华人民共和国行政许可法 》第...

10 关于云南云蚁信息科技有限公司终止经营增值电信业务的公示

关于云南云蚁信息科技有限公司终止经营增值电信业务的公示 云南云蚁信息科技有限公司向我...

1 波士顿咨询发布AI调研报告:中国消费者AI认知度超过80%

4月24日,波士顿咨询公司发布AI调研报告称,全球消费者正在以各种方式尝试使用AI以满足需求...

2 万千气象看上海 | 上海人工智能实验室要做大模型技术的“度量

通常来看,AI大模型在国内市场燃起的这把火,主要来自互联网大厂和科技创业公司两股力量,...

3 关于拟注销厦门茶殿网电子商务有限公司等两家企业《福建省增

关于拟注销厦门茶殿网电子商务有限公司等两家企业《福建省增值电信业务经营许可证》的公...

4 江苏省通信管理局​关于注销12家企业增值电信业务经营许可证

关于注销12家企业增值电信业务经营许可证的通告 根据《中华人民共和国行政许可法》第七十...

5 天津市通信管理局关于拟注销《中华人民共和国增值电信业务经

关于拟注销《中华人民共和国增值电信业务经营许可证》的公示 近期,鸿宇金柯(天津)科技...

6 山西省通信管理局关于注销山西趣牛科技有限公司等4家企业增

山西省通信管理局关于注销山西趣牛科技有限公司等4家企业增值电信业务经营许可的通告 根据...

7 山西省通信管理局关于拟注销山西数漫社科技有限公司等2家企

山西省通信管理局关于拟注销山西数漫社科技有限公司等2家企业增值电信业务经营许可证的公...

8 江苏省通信管理局关于2024年第一季度全省电信服务质量的通告

江苏省通信管理局关于2024年第一季度全省电信服务质量的通告 根据《中华人民共和国电信条例...

9 辽宁省通信管理局关于注销11家企业省内增值电信业务经营许可

关于注销11家企业省内增值电信业务经营许可证的通告 根据《中华人民共和国行政许可法 》第...

10 关于云南云蚁信息科技有限公司终止经营增值电信业务的公示

关于云南云蚁信息科技有限公司终止经营增值电信业务的公示 云南云蚁信息科技有限公司向我...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图