切换到宽版
  • 6阅读
  • 1回复

[数码讨论]17万白领岗消失!Scale AI最新研究:AI仅动用了3%实力 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
200494
金币
524614
道行
2004
原创
2433
奖券
3100
斑龄
39
道券
1134
获奖
0
座驾
设备
摄影级
在线时间: 44479(小时)
注册时间: 2008-10-01
最后登录: 2025-11-07
只看楼主 倒序阅读 使用道具 楼主  发表于: 7小时前

新智元报道

编辑:桃子

【新智元导读】AI卷走饭碗,17万大军一夜失业。别慌,Scale AI新作一锤定音:全球六大顶尖AI,现在能自动处理的事情连3%都不到。

12万大学毕业生,挤破头竞逐17000个岗位。

七分之一的机会,竟是AI堵死了就业出路。不仅如此,白领也成为了重灾区。

作为美国第二大雇主,亚马逊周二的一份内部邮件,让14000岗位一夜消失,然而更大的血腥裁员还在路上。

整个行业,正经历着前所未有的震荡。近期,多家巨头相继公布裁员计划,被削减的岗位总数高达17万。

这场「失业海啸」的背后,AI成为了罪魁祸首。

全世界看到的是:Z世代毕业没出路,办公室白领纷纷被替代,唯有「水管工」一类技能岗位相安无事。

但这些担忧,到底是杞人忧天,还只是假象?

来自Scale AI和Center for AI Safety最新研究,一句话戳破了真相:

虽然AI很聪明,但还不够实用。目前,AI自动化率还不到3%。

值得一提的是,论文参与者中,还有Alexandr Wang本尊,曾在Scale AI期间完成的研究。

论文地址:https://www.remotelabor.ai/paper.pdf

6000小时,14万美金真实工作

最新研究中,提出了一个全新基准——远程劳动指数(RLI),重点评估AI在真实世界中端到端的性能。

过去几年,顶尖实验室的AI在各种基准上「开挂」。

这一亮眼成绩让人们一度误以为,当前AI离AGI只有一步之遥。但现实呢?

这些基准大多是短任务、明确规则的学术题,与真实工作还相差着十万八千里。GPT-5距离AGI终点,也仅实现了58%。

真正有经济价值的远程工作,往往具备跨领域、长周期、高标准等特点。

远程劳动指数(RLI),就是为了填补这一空白而生。

它收录了来自远程劳动力市场的真实项目,覆盖了游戏开发、产品设计、建筑、数据分析、视频动画等领域。

下图左,展示了TOP 7工作领域。

这些项目难度跨度大,有的成本高达1万美元,完成时间超100个小时。

RLI全部数据,都来自真实自由职业者的历史订单。总计超6000小时的真实工作量,总价值超14万美元。

如下是,RLI数据的收集过程,经过了严格的筛选和清洗。一开始,研究人员选取了64大领域。

经过初筛,他们确定了43个符合条件的领域,分两个阶段来获取项目:

1 从自由职业平台获取

2 从长尾项目获取

然后,研究团队又招募了358名自由职业者,拥有经过认证Upwork账户,并且是目标领域的专家。

平均而言,他们在Upwork平台上已工作 2,341 小时,完成过89个项目,总收入达23,364美元。

为此,团队从这些自由职业者中,收集了550个初始项目,最终筛选出包含240个项目的RLI数据集。

相较于先前同类基准,RLI复杂性和多样性,更贴近真实自由职业市场的工作形态。

如下图左显示,人类完成RLI项目平均耗时,与Upwork平台真实数据分布高度吻合;

右图说明了,既有基准主要集中在软件工程、网络调研写作类任务,而真实远程劳动力市场工种,远超这一范畴。

数据集建好了,接下来就是顶尖AI真枪实战了。不过,在此之前,又该用什么指标去衡量其性能?

主要包括以下四大指标:自动化率、Elo评分、项目收益、自动化通缩。

在评估流程中,针对每个RLI项目,研究团队都会对AI交付成果进行检验——

既要与人类黄金标准交付成果进行比对,也要根据项目简报中的要求核查缺陷,最终判定该AI成果在真实自由职业场景中,是否会被采纳为合格工作产物。

那么,每个顶尖大模型的真实战绩如何?

你的饭碗,暂时保住了!

实验中,研究团队拉来了,全球六大顶尖大模型和智能体参战,分别进行了定量和定性分析。

自动化率3%,已是极限

在定量分析中,主要采用了「绝对指标」和「相对指标」进行了评估。

相较于人类基准,评估的核心结论是——

当前AI智能体在执行RLI中,具有经济价值的项目方面,能力十分有限。

所有受评估的模型中,绝对性能普遍不佳,其中最高的自动化率,Manus也仅为2.5%。

为了衡量不同模型间相对性能,研究人员采用配对比较法来计算Elo评分。

结果发现,各模型间的相对性能正在稳步提升,且排名总体上反映出新一代的前沿模型比旧模型表现更好。

世界知识不够,无法校验错误

在定性分析中,团队主要探究了当前AI系统的局限性,以及自动化率低的原因。

通过对约400份评估进行分析后,AI交付成果被拒的原因,主要归结为以下几类:

1. 技术与文件完整性问题:许多失败源于基础技术问题,比如生成了损坏或空文件,或交付的文件格式不正确、无法使用。

2. 交付成果不完整或存在缺陷:AI频繁提交不完整的作品,比如缺少关键组件、视频内容被截断或未提供源素材。

3. 质量问题:即便AI生成了完整的交付成果,其质量也往往很差,达不到专业标准。

4. 不一致性:当使用AI生成工具时,AI完成的交付成果在不同文件之间时,常表现出不一致性。

如下表2所示,是各类问题在交付成果中,出现的比例。

不过,在一小部分项目中,AI的交付成果可以媲美甚至超越人类的成果。

这类项目,主要集中在创意领域,特别是音频、图像相关的任务,此外还包括写作和数据检索/网络爬虫。

此前,「AGI定义」一文中,曾指出了AI在世界知识、记忆力、视听能力等能力上有所缺陷。

AI智能体所表现出的许多失败,恰恰都源于这些能力的不足。

比如,由于AI无法核验并修正自身工作中的错误,尤其是,在建筑、游戏开发和网页开发这类需要复杂交互和视听效果验证的项目中。

与之相对,AI模型的成功案例大多也集中在,当前其技能发展更为成熟的领域。

比如,Claude 4.5 Sonnet在简单web视觉化任务中,做的要比人类交付成果更好。

再比如,AI还可以利用图像生成工具,解决了RLI中的部分营销项目。

RLI最新研究,告诉所有人一个事实:AI离取代人类复杂劳动,还差得很远。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
200494
金币
524614
道行
2004
原创
2433
奖券
3100
斑龄
39
道券
1134
获奖
0
座驾
设备
摄影级
在线时间: 44479(小时)
注册时间: 2008-10-01
最后登录: 2025-11-07
只看该作者 沙发  发表于: 7小时前
AI自动化率仅3%:失业海啸还是过度恐慌?Scale AI最新研究揭示真相

引言:AI引发的“失业焦虑”与现实差距
近期,“AI卷走饭碗”的担忧在全球范围内蔓延。多家科技巨头宣布裁员计划,累计岗位削减达17万个,亚马逊一次性裁撤14000个岗位的消息更让“失业海啸”的论调甚嚣尘上。Z世代毕业生面临激烈的就业竞争,白领岗位也被视为AI替代的重灾区。然而,Scale AI与Center for AI Safety的最新研究为我们提供了冷静的视角:当前全球顶尖AI的自动化率尚不足3%。这意味着AI虽在某些领域展现出强大能力,但在真实世界的复杂工作中,其替代人类的能力仍处于初级阶段。

核心研究:远程劳动指数(RLI)揭示AI真实能力
为客观评估AI在实际工作场景中的表现,研究团队提出了远程劳动指数(Remote Labor Index, RLI)——一个专门衡量AI能否完成真实远程工作任务的基准。该基准基于真实自由职业者的订单数据,覆盖游戏开发、产品设计、建筑、数据分析、视频动画等多个领域,总工作量相当于人类6000小时,价值14.4万美元。

RLI数据集的构建
1. 严格筛选与清洗:初始选取64个领域,经初筛保留43个符合条件的领域。项目来源分为两部分:
   - 从自由职业平台(如Upwork)获取;
   - 从长尾项目中挖掘。
2. 专家参与:招募358名Upwork认证专家,平均拥有2341小时工作经验、完成89个项目,总收入达23364美元。最终筛选出240个高质量项目作为RLI数据集。

关键评估指标
RLI采用四大核心指标衡量AI性能:
- 自动化率:AI能独立完成并交付合格成果的任务占比。
- Elo评分:通过配对比较法评估不同模型的相对性能。
- 项目收益:AI完成任务所能创造的实际经济价值。
- 自动化通缩:AI对劳动力市场价格的影响。

顶尖AI模型的真实战绩:自动化率最高仅2.5%
研究团队让全球六大顶尖大模型和智能体参与测试,结果令人意外:

- 整体自动化率极低:所有模型中表现最佳的Manus,自动化率仅为2.5%,即240个任务中仅完成6个。其他模型表现更差:Grok4和Claude Sonnet 4.5为2.1%,GPT-5为1.7%,ChatGPT Agent为1.3%,Gemini 2.5 Pro最低,仅0.8%。
- 经济价值微乎其微:表现最好的Manus通过6个任务赚取1720美元,而人类完成所有任务可获得14.4万美元,AI报酬仅为人类均值的2%。

AI失败的主要原因
通过对约400份交付成果的分析,研究发现AI失败集中于以下四类问题:
1. 技术与文件完整性问题(17.6%):生成损坏文件、格式错误或无法使用的成果。
2. 交付成果不完整或存在缺陷(35.7%):缺少关键组件、视频截断、未提供源素材等。
3. 质量问题(45.6%):成果质量低劣,达不到专业标准。
4. 不一致性(未明确比例):不同文件间成果风格或内容不一致。

AI的优势领域与局限性
尽管整体表现不佳,AI在特定任务上仍展现出潜力:
- 创意领域:音频生成、图像处理等任务中,AI成果可媲美甚至超越人类。例如Claude 4.5 Sonnet在简单Web可视化任务中表现更优。
- 写作与数据检索:基础文案撰写、网络爬虫等L1-L2级简单任务,AI通过率可达25%-30%。

但其局限性同样明显:
- 跨工具协作能力薄弱:面对多步骤、多工具的工作流(如建筑、游戏开发),AI极易“手忙脚乱”。
- 缺乏专业标准认知:“世界知识不够”导致AI无法校验错误,尤其在需要复杂交互和视听效果验证的项目中表现糟糕。
- 长周期任务处理困难:RLI中L4-L5级高难度任务(如跨领域创意策划),AI通过率低于5%。

结论:人机协作是短期到中期的必然路径
Scale AI的研究清晰表明,当前AI虽在学术基准测试中“开挂”,但在真实世界的经济价值转化上仍处于初级阶段。自动化率不足3%的事实告诉我们:
1. “饭碗危机”尚未来临:白领岗位短期内不会被大规模替代,尤其是需要复杂判断、创造力和人际协作的工作。
2. 技能岗位相对安全:“水管工”等依赖实际操作和经验的技能岗位暂不受AI冲击。
3. 人机协作是主流趋势:AI更可能作为辅助工具提升人类 productivity,而非完全替代。例如,在数据分析、文案撰写等领域,人类可借助AI提高效率。

未来展望
研究团队指出,AI的各项指标正在快速进步。按照“智能体摩尔定律”,预计到明年年底,最强AI智能体有望完成一半的远程工作任务。RLI基准也将持续更新,加入多模态、长记忆、工具调用等新维度,推动模型能力向经济价值转化。

对于个体而言,与其恐慌失业,不如积极拥抱变化,提升与AI协作的能力。对于企业和社会,则需思考如何构建人机协同的新工作模式,在AI浪潮中实现平稳过渡。

这场关于AI与就业的讨论远未结束,但至少目前看来,“饭碗暂时保住了”。我们正站在人机协作新时代的门槛上,而真正的变革才刚刚开始。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个