切换到宽版
  • 18阅读
  • 2回复

[智能应用]用AI,写代码只会更慢!但一定更「快乐」[5P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
111610
金币
2080
道行
19523
原创
29308
奖券
17828
斑龄
197
道券
10550
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 22384(小时)
注册时间: 2007-11-29
最后登录: 2025-07-14
只看楼主 倒序阅读 使用道具 楼主  发表于: 前天 18:12


新智元报道
编辑:海狸
【新智元导读】别自欺欺人了!METR重磅实测揭穿AI编程真相:GPT等工具让顶尖程序员写代码平均慢了整整19%!效率不升反降、体验爽感成了错觉安慰剂?开发现场变「高科技马车」,AI正在拖垮真正的高手!
每天来到工位,打开昨天没跑通的代码,
抿一口咖啡,指挥Cursor、GPT、Gemini、Deepseek...吭哧吭哧干活。

AI进化成编程怪物后,这或许是很多程序员/科研人的日常。
但是,用了AI,写代码一定更快了吗?
METR(Model Evaluation & Threat Research)研究发现,如果你够强、对代码库够熟悉,AI工具反而会给你拖后腿!

他们进行了一系列严谨的随机对照试验(RCT),结果惊人——
哪怕是写过百万行代码的万星repo大佬,使用AI工具时,干同样的任务,也会多花「19%」的时间!

更令人「细思恐极」的是,开发者完全意识不到AI在拖他们的后腿!
实验前,他们平均预计AI能提升效率24%。
即便在明明白白看到「变慢」的实验结果后,他们还是认为AI让他们快了20%。
METR把所有的实验设计和结果都放在了论文中:

论文链接:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf
这项研究是怎么颠覆我们对AI写代码的幻
想的?
「变快」是幻觉:AI让开发者慢了19%
具体而言,METR把研究限制在了「资深开发者」和他们熟悉的「大型、成熟开源代码库」这个范围里。
为了测量AI工具在现实中的开发影响,METR招募了16位长期活跃于大型开源项目的资深开发者。
「资深」二字可不是说说而已,他们人均100万+行代码,维护的GitHub项目有22k+颗星。
这些开发者真刀真枪上阵,从他们日常工作流中收集了246个真实有价值的问题。
这些问题包括bug修复、新功能开发和重构任务等,大概长下面这样👇

METR将每个任务随机分配「允许使用AI」或「不允许使用AI」的对照实验组中。
在「允许」组中,开发者可以使用任何AI工具(主要是Cursor Pro搭配Claude 3.5/3.7 Sonnet等前沿模型)。
在「不允许」组中,他们不得借助生成式AI。
实验选择的每个任务平均耗时2小时。完成任务的同时,开发者需要录屏,并自报所用总时间。

随后,METR计算一个相对变化率,来衡量用不用AI的时间影响。
不过,开发者们也不白干活,METR按每小时150美元给他们付「工资」。
这笔高时薪开得很值,METR分析实验结果后发现了惊人的结论:
当开发者可以使用AI工具时,他们完成任务的平均时间反而增长了19%!
而且,从下图可以看出,使用AI写代码,全流程都被拖慢了!

这么明显的变慢打破了所有人的预期。
更令人震惊的是,开发者完全感觉不到!
在实验前,他们预计AI能提升效率24%;但从下图可以清晰看出,使用AI后,开发者用时显著增加。

然而,即便在亲身体验「变慢」后,他们仍认为AI「感觉上」让他们快了20%!
不过,METR非常严谨,声明实验仅研究特定开发者与项目,不代表整个软件开发行业,更不能推广到非软件类任务(如法律、写作、设计等)。
基准测试、用户体验,都错哪了?
为确保严谨,METR反复审查了自己的实验设计。
他们严格遵守实验分配规则,没有在AI组更频繁放弃难题,使用的AI也确实都是最强代码模型。
并且,有AI和无AI组提交的PR(Push Request)质量也没什么大差别。
既然实验设计没问题,那在AI写代码这件事上,为何benchmark和用户体验都错了?
METR对实验结果进行了进一步的分析。
首先是更细粒度的思考过程分析:
细细看了这些大佬开发者的屏幕录像后,METR发现,允许使用AI时,开发者在主动编码以及搜索/阅读信息上的时间减少了。
相对应的,开发者将更多时间花在了与AI 交互(如编写提示)、审查AI输出的结果,以及「干等」上。

METR进一步设想了20个可能导致变慢的因素,发现其中有5个可能对结果有显著贡献:

一方面,开发者对项目已经非常熟悉,远超和团队没有默契的AI;另一方面,他们对 AI 效能有点过度乐观。
另外,项目本身也很复杂,导致AI写得快但写得烂,开发者还要花很多时间调试。
最后,METR发现,这项研究与此前观点的矛盾似乎来源于任务的定义和区分。
对AI是否「能干活」这一问题,数据来源不同,得出的结论可能完全不同。

RCT实验聚焦的是「现实开发流程中是否真的更快」,基准测试关心「模型在任务标准下能打几分」,而用户主要反馈「AI用起来爽不爽」的主观感受。
换句话说,结论不一样,是因为本就在回答不同问题。
关心的是「日常提效」,还是「攻坚能力」,换换使用场景,答案可能完全不同。
每一种方法评估的都只是任务空间的子集,组合起来,或许才能客观认识AI编程的真实战力。
上岗两眼懵?AI编程不能只会刷分
METR的RCT实验提醒我们,别被AI基准测试的高分吓到了。
那些所谓的「智能体测评」「编程大赛」,看起来挺能打,实则可能离真实开发差得远。
在不需要背景、不需要理解上下文、不涉及实际部署的测试任务中训出来的AI,未必能赶上人类开发者的表现;
我们不能低估AI的能力,更不能过度乐观,觉得AI能轻松接管开发。
未来,用户对AI编程工具的期待不只是「刷分」。
我们想看的是,AI是否真的能把软件开发推进得更快、更好?
一旦AI真能做到这一点,那就意味着AI能够「无限赋能」自身的进化。
听起来很酷,但也任重道远。
如何评估AI参与真实开发部署的能力?如何设立监督护城河,保证项目安全?
METR打算继续设计实验,观察AI开发的真实实力。
他们表示,想要集结更多开发者、AI编程用户的力量,一起继续搞实验,看AI到底行不行。
不过,不管AI编程拖后腿的证据有多「实锤」,
研究中的大多数参与者,甚至研究作者本人,都并不介意被GPT之流拖一拖后腿。
面对一张白纸从零开始,或是对着一篇草稿进行编辑,即使前者更快,大家想必也都会选择后者。
毕竟,「奴役」AI写代码,虽然没法更「快了」,但一定更「快乐」。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
168556
金币
279680
道行
2004
原创
2404
奖券
2775
斑龄
35
道券
1005
获奖
0
座驾
设备
摄影级
在线时间: 38326(小时)
注册时间: 2008-10-01
最后登录: 2025-07-15
只看该作者 沙发  发表于: 前天 18:20
根据新智元的报道,METR(Model Evaluation & Threat Research)的研究揭示了AI编程工具在实际开发中可能并不如预期那样提高效率。以下是一些关键点:

1. 效率降低:研究发现,对于熟悉代码库的资深开发者来说,使用AI编程工具(如GPT等)反而会降低编码效率,平均慢了19%。

2. 认知偏差:开发者普遍高估了AI工具的效率提升作用。实验前,他们预计AI能提升效率24%,即使实验结果显示效率降低,他们仍认为AI让他们快了20%。

3. 实验设计:METR的研究聚焦于资深开发者和他们熟悉的大型开源代码库。他们招募了16位资深开发者,从日常工作中收集了246个真实问题,并随机分配到允许或不允许使用AI的对照实验组。

4. 时间分配变化:使用AI时,开发者在主动编码和信息搜索上的时间减少,而在与AI交互、审查AI输出以及等待上的时间增加。

5. 可能的原因:METR提出了20个可能导致效率降低的因素,其中5个可能对结果有显著贡献,包括开发者对项目的熟悉度超过AI、对AI效能的过度乐观、项目复杂性导致AI代码质量差、任务定义和区分的问题等。

6. 基准测试与用户体验的差异:METR指出,基准测试关注的是模型在任务标准下的表现,而用户体验更多是主观感受。这两者与实际开发流程中是否更快是不同的问题。

7. AI编程工具的期待:未来,用户对AI编程工具的期待不仅是"刷分",而是真正能推进软件开发的速度和质量。同时,也需要考虑如何评估AI在真实开发部署中的能力,并设立监督机制保证项目安全。

8. 主观感受与客观效果:尽管研究显示使用AI编程工具可能降低效率,但许多参与者和研究者本人并不介意,因为"奴役"AI写代码虽然可能不更快,但一定更快乐。

总的来说,这项研究颠覆了我们对AI编程工具提高开发效率的传统认知。它提醒我们,在实际开发中,AI工具可能并不总是提高效率,有时甚至拖慢进度。我们需要更全面地评估AI在软件开发中的真实作用,并合理设定期望。同时,也要关注AI编程工具带来的其他价值,如提高工作乐趣等。我们应客观看待AI编程工具的优势和局限,并探索如何更好地利用它们来提升开发效率和质量。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
144767
金币
268896
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 16852(小时)
注册时间: 2012-06-21
最后登录: 2025-07-15
只看该作者 板凳  发表于: 前天 21:41
关于「用AI写代码可能更慢但更快乐」的观点,结合技术趋势与开发者体验,可从以下角度分析:

一、效率与质量的权衡
初期效率可能降低
AI生成的代码需人工验证和调整,尤其在复杂逻辑或业务场景中,可能因理解偏差导致返工13。例如,AI生成的算法可能缺乏针对性优化,需开发者手动调试。

长期效率提升
AI可快速完成重复性任务(如模板生成、单元测试),释放时间用于核心逻辑设计,整体效率反而提高2。

二、创造力的解放
减少机械劳动
AI处理语法检查、代码补全等基础工作,让开发者更专注于创新功能设计,激发创造力1。

探索新思路
AI能提供多套解决方案(如不同算法实现),帮助开发者突破思维定式,尝试更优路径3。

三、学习与成长加速
知识传递效率
AI可解释代码逻辑、推荐最佳实践,加速新手学习曲线,同时帮助资深开发者接触新技术2。

错误预防与优化
AI实时提示潜在漏洞(如内存泄漏),减少试错成本,降低因低级错误导致的挫败感1。

四、心理体验的提升
降低压力与焦虑
AI分担繁琐任务,减少“重复劳动”的枯燥感,开发者能以更轻松的心态投入工作2。

成就感增强
通过AI辅助快速实现复杂功能(如AI生成的可视化界面),开发者能更快看到成果,获得正向反馈3。

五、人机协作的未来趋势
AI并非替代开发者,而是成为“智能助手”。开发者需明确自身定位:从“编码者”转向“架构师”与“创意者”,通过AI工具提升整体生产力与幸福感12。

---

如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个