切换到宽版
  • 11阅读
  • 2回复

[数码讨论]Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
202448
金币
538783
道行
2004
原创
2433
奖券
3100
斑龄
39
道券
1137
获奖
0
座驾
设备
摄影级
在线时间: 44826(小时)
注册时间: 2008-10-01
最后登录: 2025-11-14
只看楼主 正序阅读 使用道具 楼主  发表于: 4小时前

新智元报道

编辑:艾伦 定慧

【新智元导读】 Llama4性能造假丑闻,OpenAI烧钱的速度远超过了盈利能力;另外一方面:国产模型凭借足够强大的性能与超高性价比,迅速占领了国际开源模型市场。是时候再次为国产AI鼓掌了!

今年,全球AI界见证了两座「灯塔」的同时动摇。

首先是开源世界的灯塔轰然倒塌。

Meta的Llama 4被曝出评测性能造假,这场令人大跌眼镜的丑闻,让其耗费巨资打造的开源领导者形象蒙上了一层难以洗刷的阴影。

Llama 3.1成为Meta引领开源模型的最后荣光,Llama 4的模型排名甚至不如Llama 3.1。

LMArena排行榜最新数据

丑闻爆出后,小扎如坐针毡,颜面尽失,立即着手开启了大刀阔斧的改革,发起了一系列声势浩大的挖角大行动,用上亿美元的高薪不断从OpenAI等竞争对手挖来顶尖AI人才,试图用钱来砸出一个能让Meta一雪前耻的最强大的Llama 5。

紧接着,闭源世界的灯塔也开始摇晃。

OpenAI的CFO竟公开寻求美国政府为其高达1.4万亿美元的算力计划「兜底」,此言一出,市场恐慌。美国科技股一夜应声蒸发5000亿美元,华尔街用脚投票,表达了对这个万亿估值泡沫的深切忧虑。

一个严峻的现实摆在了全世界面前:全球AI的发展,正陷入一个巨大的「真空地带」。

海外开源的模型被证明不可靠,而顶尖的闭源模型又昂贵得像一场看不到尽头的豪赌。

市场需要一股新的力量——既要性能强大,又要价格实惠,更要商业上可持续。

中国的AI力量,恰如其分地在国际舞台迅速爆发,满足全世界的刚需。

这些强大的国产开源模型甚至得到了国外AI圈的盛赞:「是中国拯救了开源模型!」China saved open-source LLMs

当全球开发者们在Llama 4的废墟上失望地寻找下一个「救星」时,他们看到了DeepSeek、MiniMax、Kimi、智谱这些冉冉升起的中国旗帜。

这并非偶然的后来居上,而是一场更务实的、用中国效率来填补全球需求真空的行动。

中国AI的全球渗透

面对全球市场的真空,中国AI的答案并非单一维度的猛攻,而是全方位、多模态的围剿。

首先,DeepSeek的爆火,让全球看到了AI原来可以成为如水电般的「基础设施」。

DeepSeek专注于「推理优先」的文本核心能力,通过极致的开源和极低的价格,让全球开发者都能「随处可得」——借助Azure、GitHub等全球分发渠道,与企业主流工作流无缝对接,迅速成为开发者社区中一个绕不开的「标准」。

DeepSeek的目标,后来也成功做到了,就是让AI的准入门槛降低。

DeepSeek研究成果登上《Nature》封面

如DeepSeek拓宽了AI应用的广度,MiniMax的技术积累和商业布局同样亮眼。

相比于DeepSeek、Kimi和智谱,MiniMax代表了另一条路径——多模态同时发力。

在多模态模型研发方面,MiniMax自主研发了语音、视频和音乐模型,并在今年六月与十月的技术发布周中展示了相关成果。

其视频生成模型被海外创作者用于制作「猫跳水」等短视频,在全球社交平台上获得了超过3亿次观看,催生了以动物角色为主角的「动物奥运会」等AI视频创作趋势。

10月底发布的M2,在OpenRouter这个全球最大的模型聚合平台上的成绩,则证明了其在文本模态上的实力。

从日调用量的增速来看,自发布以来增长迅速。

免费期间,Token日调用量达到50B,开通Coding Plan付费之后,付费日调用量也很快增至50B。

足够强大的性能,加上极致的性价比。

M2将价格压至海外同级别模型的10%以下,也成为了全球企业和开发者工具箱中的首选的「工程刀」。

以DeepSeek和MiniMax为代表的中国AI,形成了一股强大的合力。

前者负责把使用门槛降到地板,而后者进一步把优势范围扩大,让中国模型在全球范围内,从「备选项」强势崛起为「必选项」。

拒绝「烧钱」的极致效率

成为「必选项」的前提,需要建立在两个坚实的基础之上:极致的效率和健康的商业闭环。

这正是中国模式与硅谷「烧钱」模式的根本区别。

与DeepSeek专注技术研发的另一个不同之处在于,MiniMax在技术布局的同时,也在进行产品布局。

建立在极具性价比的技术之上,产品能够进一步放大这种优势。

「花小钱,办大事」是中国AI效率的代名词。

在算力客观受限的环境下,中国工程师们爆发出了惊人的算法创新潜力。

DeepSeek以低成本高性能闻名,其研究成果登上《Nature》封面,为中国开源模型的「低成本传说」赢得了国际权威的认可。

而MiniMax的效率同样令人难以置信:6月发布的MiniMax M1模型,强化学习阶段仅用512块H800训练三周,租赁成本仅54万美元,训练成本不足OpenAI同类模型的1%。

这种极致的成本控制,直接转化为价格优势;体现在产业侧的,就是「单位智能成本」。

MiniMax M2仅有230B总参数和10B激活量,仅用海外模型三分之一的参数量,实现了更好的智能效果和更高的性价比,在最复杂的编程场景可用,好用。

当M2的价格仅为性能相近的Claude Sonnet 4.5的8%,这种极致的性价比本身,就是一种足以颠覆全球市场格局的、最强大的「武器」。

海外科技媒体《The Information》报道

能持续留在牌桌上,还需要健康的「自我造血」能力。

在这方面,中国AI走出了更为清晰的路径。

DeepSeek实现了从技术打入社区,以及企业部署服务的基础设施路线,通过免费和极低价的开源模式,为全球企业提供API,助力项目落地实现商业化。

MiniMax在B端和C端构建了「模型—产品—收入」的闭环。

MiniMax自研的多模型均做到了全球领先,且可以以产品化的形式来直接服务用户,通过To C应用Talkie、海螺AI、MiniMax Agent等,将模型能力高效转化为现金流,再反哺更大规模的模型训练。

OpenAI与MiniMax类似,在商业模式上同样选择「模型+产品」的打法,但在模型迭代上极度依赖外部巨额输血,可持续性需要打一个问号,而能否自我输血,才是AI企业的下一个决胜点。

AI本身不是泡沫

但AI不能造神

科技的浪潮,终将冲刷掉泡沫,留下真正的价值。

当信仰Scaling Law的硅谷巨头们遭遇万亿资本支出的现实困境时,世界开始重新思考通往AGI的更优路径。

被低估的中国AI用「极致效率」和「商业闭环」,给出了一个全新的答案:通往未来的路,不只有一条烧钱的独木桥,还有一条精打细算、步步为营的阳关道。

正如谷歌曾用开源定义了软件工程的黄金时代,今天的中国力量正在用一种更务实、更普惠的方式,以海外AI企业的「百倍ROI」定义着AI应用的全新纪元。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
163558
金币
450779
道行
20030
原创
766
奖券
341
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 19766(小时)
注册时间: 2012-06-21
最后登录: 2025-11-14
只看该作者 板凳  发表于: 3小时前
Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」

一、Llama 4的「翻车」与造假疑云
Meta推出的Llama 4系列模型(包括Scout、Maverick、Behemoth)本应是其在多模态AI领域的重要突破,官方宣称其在逻辑推理、编程任务上可与DeepSeek V3匹敌,甚至超过GPT-4o和Gemini 2.0 Flash。但实测结果却暴露了严重的性能问题:

编码能力垫底:Llama 4 Maverick(402B参数)在多语言编程基准测试(覆盖C++、Java、Python等6种语言)中仅得16%,远低于GPT-4o、DeepSeek V3等模型;
长上下文理解差:尽管官方强调支持10M上下文,但在长文本深度理解基准(如Fiction.LiveBench)中,其表现不及Gemini 2.0 Flash,甚至无法正确回答《哈利·波特》中的基础情节(如哈利的居住环境);
物理模拟违背规律:生成的旋转多边形动画中,小球运动不符合重力和摩擦力规则,直接穿过多边形,远不如GPT-4o的效果。
更关键的是,内部员工爆料称,Llama 4的“优秀”指标是通过将测试集混入训练流程实现的——为了赶在4月底的截止日期前交差,团队将benchmark测试集加入后训练,导致模型“应试”能力提升,但真实泛化能力极差。这一行为引发了开发者社区的信任危机,有员工因无法接受这种“刷分造榜”的做法选择辞职。

二、小扎的143亿豪赌:押注Scale AI的“数据洞察力”
面对Llama系列的衰落(年初已被DeepSeek V3击败),Meta CEO扎克伯格急于寻找“救星”。他将目光投向了Scale AI——这家为OpenAI、谷歌等顶尖实验室提供数据标注服务的初创公司,其创始人Alexandr Wang因“掌握全城食材流向”(洞察各实验室的数据需求与模型改进方向)被小扎视为“稀缺资源”。

为了拿下Scale AI,小扎豪掷143亿美元,收购其49%股权,将其估值抬至290亿美元(成为Meta历史第二大投资案)。小扎希望借助Scale AI的数据标注能力和行业洞察力,提升Meta AI模型的性能,解决Llama系列的“数据依赖”问题。然而,这一赌局从一开始就充满争议:

Meta内部对Scale AI的数据质量抱怨不断(AI负责人称其标注数据常不尽如人意);

Alexandr Wang虽有“数据间谍”的优势,但Scale AI的核心业务仍是“苦活累活”的 data labeling,并未掌握模型训练的核心技术;
收购后,Meta的AI困境未得到明显缓解,Llama 4的“翻车”仍在继续。
三、中国AI的“嫁衣”:开源领域的崛起
小扎的豪赌与Llama 4的造假,反而为中国AI在开源领域的崛起提供了机会。

DeepSeek系列的逆袭:年初,DeepSeek V3以更小的参数(约200B)击败Llama 3.1,成为开源大模型的“天花板”;Llama 4发布后,DeepSeek V3再次在编程、逻辑推理等任务中超过Llama 4,巩固了其在开源领域的领先地位;
中国AI的“替代效应”:Llama 4的“翻车”让开发者对Meta的开源模型失去信心,转而关注中国的开源模型(如DeepSeek、Qwen)。这些模型不仅性能更优(如DeepSeek V3的编码能力远超Llama 4),而且更注重真实场景的泛化能力,成为开发者的“新选择”;
开源生态的重构:Meta的“刷分造榜”行为引发了对开源模型“真实性”的质疑,而中国AI企业(如DeepSeek)通过公开训练日志、接受第三方验证等方式,重建了开发者对开源模型的信任,进一步扩大了市场份额。
结语
Llama 4的造假丑闻与小扎的143亿豪赌,本质上是Meta在AI竞赛中的“急病乱投医”。其试图通过“数据+人才”的组合解决模型性能问题,但忽视了数据质量与模型核心技术的重要性。而中国AI企业则抓住了这一机会,通过技术创新与真实性能的提升,在开源领域实现了“逆袭”,成为Meta失误的“最大受益者”。小扎的“豪赌”最终未能拯救Llama系列,反而为中国AI的崛起“做了嫁衣”。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
202448
金币
538783
道行
2004
原创
2433
奖券
3100
斑龄
39
道券
1137
获奖
0
座驾
设备
摄影级
在线时间: 44826(小时)
注册时间: 2008-10-01
最后登录: 2025-11-14
只看该作者 沙发  发表于: 4小时前
Llama4造假丑闻与中国AI的全球崛起:一场AI格局的深刻变革

引言:全球AI“灯塔”的动摇与真空地带

2025年,全球AI产业正经历一场前所未有的动荡。Meta的Llama4性能造假丑闻和OpenAI算力计划寻求政府兜底的危机,共同导致了开源与闭源两大阵营“灯塔”的动摇,形成了巨大的市场真空。在此背景下,中国AI力量凭借强大的性能、超高性价比和可持续的商业路径,迅速崛起为全球开源模型市场的主导力量,赢得了“中国拯救了开源模型”(China saved open-source LLMs)的国际赞誉。

开源灯塔倒塌:Llama4造假丑闻与Meta的困局

Llama4的“荣光不再”与性能质疑
Meta曾凭借Llama系列模型树立了开源AI的标杆,但Llama4的发布却成为其开源领导者形象的重大污点。评测数据显示,Llama4的实际性能排名甚至不如其前代Llama3.1,引发了业界对其“评测性能造假”的广泛质疑。LMArena排行榜的重新评估进一步证实了这一点,Llama4的真实排名从TOP3暴跌至30名开外,彻底打破了Meta的技术神话。

小扎的“豪赌”与改革之路
面对丑闻,Meta CEO马克·扎克伯格(小扎)如坐针毡,启动了大刀阔斧的改革。他豪掷143亿美元用于挖角顶尖AI人才,试图通过金钱堆砌出更强大的Llama5。Meta收购了语音AI公司PlayAI和WaveFormsAI,并与Midjourney达成合作,甚至斥资500亿美元建造名为“Hyperion”的超大数据中心。然而,这种“病急乱投医”的做法并未根本解决问题,反而加剧了内部人才流失——Llama1初始团队14人中已有11人离职,80%的核心元老集体辞职的消息更是雪上加霜。

闭源灯塔摇晃:OpenAI的万亿算力计划与市场恐慌

OpenAI的盈利困境与政府求助
在闭源领域,OpenAI同样面临巨大挑战。其CFO公开寻求美国政府为其高达1.4万亿美元的算力计划“兜底”,这一举动引发了市场对OpenAI商业模式可持续性的严重担忧。美国科技股一夜蒸发5000亿美元,华尔街用脚投票表达了对这一万亿估值泡沫的深切忧虑。OpenAI烧钱的速度远超盈利能力,GPT-5的发布一再延迟,最新版本仍停留在GPT-4.5,且其算力需求已远超现有基础设施承载能力。

全球AI发展的“真空地带”
海外开源模型因可靠性问题失去信任,闭源模型则因高昂成本和盈利难题难以普及。全球AI发展陷入了“性能不可靠、价格不可及、商业不可持续”的真空地带。市场迫切需要一种既能提供强大性能,又能保持合理价格,并具备健康商业闭环的新力量。

中国AI的全球突围:“极致效率”与“商业闭环”的双轮驱动

DeepSeek:将AI变为“水电般基础设施”
DeepSeek以“推理优先”的文本核心能力著称,通过极致开源和极低价格,大幅降低了AI的准入门槛。其研究成果登上《Nature》封面,为中国开源模型的“低成本传说”赢得了国际权威认可。DeepSeek借助Azure、GitHub等全球分发渠道,与企业主流工作流无缝对接,迅速成为开发者社区的标准配置。其API服务价格远低于海外同级别模型,真正实现了AI“随处可得”。

MiniMax:多模态围剿与性价比革命
MiniMax代表了中国AI多模态发展的另一条路径。其视频生成模型被海外创作者用于制作“猫跳水”等短视频,在全球社交平台获得超3亿次观看,催生了“动物奥运会”等AI视频创作趋势。10月底发布的M2模型在OpenRouter平台表现惊艳:免费期间Token日调用量达50B,付费后迅速增至50B。M2将价格压至海外同级别模型的10%以下,在编程场景中可用性极强。

极致成本控制:中国工程师的“花小钱办大事”
中国AI企业在成本控制上展现了惊人效率。MiniMax M1模型强化学习阶段仅用512块H800 GPU训练三周,租赁成本仅54万美元,训练成本不足OpenAI同类模型的1%。DeepSeek R1大模型训练成本也控制在500万至600万美元级别。这种效率直接转化为价格优势,“单位智能成本”远低于海外竞品。MiniMax M2仅用海外模型三分之一的参数量实现更好效果,性能接近Google Gemini 2.5 Pro,而价格仅为Claude Sonnet 4.5的8%。

商业闭环:从技术到产品的可持续发展

DeepSeek:基础设施路线与企业服务
DeepSeek通过免费和极低价开源模式打入开发者社区,同时为企业提供API部署服务,实现技术到商业化的转化。其目标是成为全球企业AI基础设施的标准组件,在降低使用门槛的同时构建稳定的收入来源。

MiniMax:“模型-产品-收入”闭环
MiniMax在B端和C端构建了完整闭环。其自研多模态模型通过To C应用如Talkie、海螺AI、MiniMax Agent直接服务用户,将模型能力高效转化为现金流。这些收入反哺更大规模的模型训练,形成良性循环。相比之下,OpenAI虽采用类似“模型+产品”模式,但过度依赖外部融资,在可持续性上存在隐患。

国际认可与市场渗透:中国AI成为“必选项”

海外开发者的选择:高性价比与实用性
中国开源模型在国际市场上迅速获得认可。智谱GLM-4.6编程模型在海外爆火,被开发者称为“最具性价比的编程助手”,价格仅为Claude Code的1/7。DeepSeek和MiniMax在OpenRouter等平台的日调用量持续攀升,证明其已成为全球企业和开发者工具箱中的首选。

行业专家评价:务实路径重塑AI标准
系统架构师Daniel Jeffries指出,在高昂研发成本下,基于中国开源模型进行微调是国际团队的理性选择。Yann LeCun等权威学者也认可通过强化学习优化现有模型的发展路径。英伟达GTC大会数据显示,阿里Qwen已占据开源市场最大份额,衍生模型数量全球首位,印证了中国通过开源战略重塑全球AI技术标准的努力。

结论:中国AI定义AI应用新纪元

Llama4造假丑闻和OpenAI的财务危机暴露了硅谷“烧钱”模式的局限性。中国AI则以“极致效率”和“商业闭环”为双轮驱动,在全球市场中异军突起。DeepSeek和MiniMax等企业通过降低门槛、拓展多模态应用、严控成本并构建可持续商业模式,将中国AI从“备选项”推向“必选项”。正如谷歌曾用开源定义软件工程黄金时代,中国正以百倍ROI的务实路径,开启AI应用的新纪元。这场变革不仅是中国技术实力的体现,更标志着全球AI发展进入更加普惠、可持续的新阶段。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个