当前位置:主页 > 科技 > IT业界 > 斯坦福Llama3-V抄袭事件始末:套壳面壁智能“小钢炮”,作者团队公开致歉

斯坦福Llama3-V抄袭事件始末:套壳面壁智能“小钢炮”,作者团队公开致歉

2024-06-05 00:23:52来源:界面新闻

文章导读
一场斯坦福AI团队抄袭 清华系开源大模型的闹剧在海外社交平台上吵得沸沸扬扬,6月3日,此事最终以作者团队向后者公开道歉收场。 5月末,一款名为“ Llama3-V ”的 斯坦福团队多模态大模型...

一场斯坦福AI团队抄袭清华系开源大模型的闹剧在海外社交平台上吵得沸沸扬扬,6月3日,此事最终以作者团队向后者公开道歉收场。

5月末,一款名为“Llama3-V”的斯坦福团队多模态大模型在开源社区上火了起来,融易新媒体消息,因为创始团队声称其仅用500美元成本,就能基于Llama3训练出一个SOTA开源多模态模型,不仅尺寸小(比GPT-4v小100倍),还在性能上比肩GPT-4v、Gemini Ultra、Claude Opus。

在这一宣传基调下,顶级名校背景外加模型本身的效果,很快就将Llama3-V推至聚光灯下,并使其拿下“HuggingFace Trending”(一个开源模型社区的榜单)Top 5的成绩。 

就在社区还沉浸于这场小小狂欢时,陆续有网友提出质疑,指出Llama3-V的架构和代码,与一款来自中国团队的大模型几乎一模一样,即清华系和面壁智能团队联合开发的MiniCPM-Llama3-V 2.5。

一开始,Llama-3V团队表示他们只是使用了MiniCPM-Llama3-V 2.5的tokenizer(分词器),并且宣称在后者发布前就开始了这项工作,但这个解释在时间线上难以成立。同时,作者声称“引用了LLaVA-UHD作为架构”,但相较于此,该项目的究竟实现与MiniCPM-Llama3-V 2.5更为相似。

随后,大量网友发布详细对比,发现两款模型几乎“共享”同一套模型结构和代码,Llama-3V只是对MiniCPM-Llama3-V 2.5进行了一些重新格式化并把一些变量重新做了命名,比如图像切片、分词器、重采样器、数据加载等变量。此外,前者还使用了与后者完全相同的分词器,包括MiniCPM-Llama3-V 2.5新定义的特殊符号。

还有网友指出,当运行Llama3-V时,作者提供的代码无法HuggingFace上的checkpoint(包含模型参数的快照或保存点)配合使用,但如果把Llama3-V模型权重中的变量名更改为MiniCPM-Llama3-V 2.5的名称后,模型就可以成功运行MiniCPM-V的代码。 

并且,如果在MiniCPM-Llama3-V 2.5的checkpoint上添加一个简单的高斯噪声,就会得到一个与Llama3-V极为相似的模型。

更关键的是,MiniCPM-Llama3-V 2.5具备一个实验性功能是识别清华简,这是一种特殊且罕见的战国时期古文字。据悉,相关训练数据的采集和标注均由清华NLP实验室和面壁智能团队完成,相关数据尚未对外公开,然而Llama3-V却具有相同能力。

结合种种网友爆料,以及作者团队声称“仅用500美元成本”等信息,Llama-3V抄袭MiniCPM-Llama3-V 2.5一事几乎成为一个定论。

对此,面壁智能首席科学家刘知远在知乎上发声,表示“已经比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5套壳”。同时,他指出,开源的MiniCPM-Llama3-V 2.5是以最新的Llama3作为语言模型基座,而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。

面壁智能CEO李大海也在微信朋友圈发文称,“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式,另一方面也呼吁大家共建开放、合作、有信任的社区环境。” 

事实上,在种种证据陆续析出后,Llama3-V作者团队首先是删评论和删库,予以非正面回应。但在舆情发酵严重之后,终于在昨日,其中的两名作者Aksh Garg和Siddharth Sharma在X平台联合署名发表正式回应,向MiniCPM原作者道歉,并表示会将Llama3-V模型悉数撤下。

随后,斯坦福人工智能实验室主任Christopher David Manning发文批判了这一抄袭行为,谷歌DeepMind研究员Lucas Beyer则表示,有趣的是,有同样表现的MiniCPM-Llama3-V 2.5得到了太少的关注,而这似乎仅仅因为这个模型不是来自一所藤校,“我们都显得太难堪了。”他写道。


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 AMD、英特尔再战英伟达

6月4日至7日,2024年台北国际电脑展(Computex)在中国台湾的台北南港展览馆举行。在这场历来...

2 斯坦福Llama3-V抄袭事件始末:套壳面壁智能“小钢炮”,作者团

一场斯坦福AI团队抄袭 清华系开源大模型的闹剧在海外社交平台上吵得沸沸扬扬,6月3日,此事...

3 科技早报|OpenAI奥特曼投资了400多家公司;马斯克称将购买30万

俞敏洪称东方甄选乱七八糟, 准备远离生意场 6月3日,据每日经济新闻报道,近日俞敏洪现身...

4 XR行业迎新一轮创新周期,XREAL用Beam Pro定义空间计算的现在

界面新闻记者 | 肖芳 XR独角兽公司XREAL发布了一款“非主流”新产品XREAL Beam Pro,这是一台像手...

5 微观纪元完成数千万元Pre-A轮融资

国内量子计算应用企业微观纪元宣布完成数千万元Pre-A轮融资,本轮融资由合肥高投和昆仑资本...

6 《庆余年第二季》荧屏收官 剧集热播带动IP相关产业增长

6月3日,热播剧《庆余年第二季》迎来央视收官,该剧改编自阅文集团旗下起点读书作家猫腻的...

7 长沙移动通信资费乱收

一直对移动通信对消费者产生不合事实的费用 现在一直末解决 工作人员也不联系本人 里面的...

8 湖南电信喜马拉雅诱导消费

本人在杭州一地,自动贩卖机购物,扫码开门时候出现手机号认证,误以为是个人信息认证,...

1 AMD、英特尔再战英伟达

6月4日至7日,2024年台北国际电脑展(Computex)在中国台湾的台北南港展览馆举行。在这场历来...

2 斯坦福Llama3-V抄袭事件始末:套壳面壁智能“小钢炮”,作者团

一场斯坦福AI团队抄袭 清华系开源大模型的闹剧在海外社交平台上吵得沸沸扬扬,6月3日,此事...

3 科技早报|OpenAI奥特曼投资了400多家公司;马斯克称将购买30万

俞敏洪称东方甄选乱七八糟, 准备远离生意场 6月3日,据每日经济新闻报道,近日俞敏洪现身...

4 XR行业迎新一轮创新周期,XREAL用Beam Pro定义空间计算的现在

界面新闻记者 | 肖芳 XR独角兽公司XREAL发布了一款“非主流”新产品XREAL Beam Pro,这是一台像手...

5 微观纪元完成数千万元Pre-A轮融资

国内量子计算应用企业微观纪元宣布完成数千万元Pre-A轮融资,本轮融资由合肥高投和昆仑资本...

6 《庆余年第二季》荧屏收官 剧集热播带动IP相关产业增长

6月3日,热播剧《庆余年第二季》迎来央视收官,该剧改编自阅文集团旗下起点读书作家猫腻的...

7 长沙移动通信资费乱收

一直对移动通信对消费者产生不合事实的费用 现在一直末解决 工作人员也不联系本人 里面的...

8 湖南电信喜马拉雅诱导消费

本人在杭州一地,自动贩卖机购物,扫码开门时候出现手机号认证,误以为是个人信息认证,...

9 商业头条No.26|大模型大甩卖

每当工作遇到困难的时候,梁文峰总会想起量化投资先驱西蒙斯的话:“一定有办法对价格建...

10 Xreal发布新产品Xreal Beam Pro

Xreal新产品Xreal Beam Pro,售价1299元。Xreal创始人、CEO徐驰表示,其定位是AR空间计算终端,核心...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图