18阅读
2回复

[智能应用]用AI，写代码只会更慢！但一定更「快乐」[5P] [复制链接]

上一主题下一主题查看指定楼层

在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君

发帖: 111610

金币: 2080

道行: 19523

原创: 29308

奖券: 17828

斑龄: 197

道券: 10550

获奖: 0

座驾

设备: EOS—7D

摄影级: 专家级认证

在线时间: 22384(小时)
注册时间: 2007-11-29
最后登录: 2025-07-14

只看楼主倒序阅读使用道具楼主发表于: 前天 18:12

新智元报道
编辑：海狸
【新智元导读】别自欺欺人了！METR重磅实测揭穿AI编程真相：GPT等工具让顶尖程序员写代码平均慢了整整19%！效率不升反降、体验爽感成了错觉安慰剂？开发现场变「高科技马车」，AI正在拖垮真正的高手！
每天来到工位，打开昨天没跑通的代码，
抿一口咖啡，指挥Cursor、GPT、Gemini、Deepseek...吭哧吭哧干活。

AI进化成编程怪物后，这或许是很多程序员/科研人的日常。
但是，用了AI，写代码一定更快了吗？
METR（Model Evaluation & Threat Research）研究发现，如果你够强、对代码库够熟悉，AI工具反而会给你拖后腿！

他们进行了一系列严谨的随机对照试验（RCT），结果惊人——
哪怕是写过百万行代码的万星repo大佬，使用AI工具时，干同样的任务，也会多花「19%」的时间！

更令人「细思恐极」的是，开发者完全意识不到AI在拖他们的后腿！
实验前，他们平均预计AI能提升效率24%。
即便在明明白白看到「变慢」的实验结果后，他们还是认为AI让他们快了20%。
METR把所有的实验设计和结果都放在了论文中：

论文链接：https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf
这项研究是怎么颠覆我们对AI写代码的幻
想的？
「变快」是幻觉：AI让开发者慢了19%
具体而言，METR把研究限制在了「资深开发者」和他们熟悉的「大型、成熟开源代码库」这个范围里。
为了测量AI工具在现实中的开发影响，METR招募了16位长期活跃于大型开源项目的资深开发者。
「资深」二字可不是说说而已，他们人均100万+行代码，维护的GitHub项目有22k+颗星。
这些开发者真刀真枪上阵，从他们日常工作流中收集了246个真实有价值的问题。
这些问题包括bug修复、新功能开发和重构任务等，大概长下面这样👇

METR将每个任务随机分配「允许使用AI」或「不允许使用AI」的对照实验组中。
在「允许」组中，开发者可以使用任何AI工具（主要是Cursor Pro搭配Claude 3.5/3.7 Sonnet等前沿模型）。
在「不允许」组中，他们不得借助生成式AI。
实验选择的每个任务平均耗时2小时。完成任务的同时，开发者需要录屏，并自报所用总时间。

随后，METR计算一个相对变化率，来衡量用不用AI的时间影响。
不过，开发者们也不白干活，METR按每小时150美元给他们付「工资」。
这笔高时薪开得很值，METR分析实验结果后发现了惊人的结论：
当开发者可以使用AI工具时，他们完成任务的平均时间反而增长了19%！
而且，从下图可以看出，使用AI写代码，全流程都被拖慢了！

这么明显的变慢打破了所有人的预期。
更令人震惊的是，开发者完全感觉不到！
在实验前，他们预计AI能提升效率24%；但从下图可以清晰看出，使用AI后，开发者用时显著增加。

然而，即便在亲身体验「变慢」后，他们仍认为AI「感觉上」让他们快了20%！
不过，METR非常严谨，声明实验仅研究特定开发者与项目，不代表整个软件开发行业，更不能推广到非软件类任务（如法律、写作、设计等）。
基准测试、用户体验，都错哪了？
为确保严谨，METR反复审查了自己的实验设计。
他们严格遵守实验分配规则，没有在AI组更频繁放弃难题，使用的AI也确实都是最强代码模型。
并且，有AI和无AI组提交的PR（Push Request）质量也没什么大差别。
既然实验设计没问题，那在AI写代码这件事上，为何benchmark和用户体验都错了？
METR对实验结果进行了进一步的分析。
首先是更细粒度的思考过程分析：
细细看了这些大佬开发者的屏幕录像后，METR发现，允许使用AI时，开发者在主动编码以及搜索/阅读信息上的时间减少了。
相对应的，开发者将更多时间花在了与AI 交互（如编写提示）、审查AI输出的结果，以及「干等」上。

METR进一步设想了20个可能导致变慢的因素，发现其中有5个可能对结果有显著贡献：

一方面，开发者对项目已经非常熟悉，远超和团队没有默契的AI；另一方面，他们对 AI 效能有点过度乐观。
另外，项目本身也很复杂，导致AI写得快但写得烂，开发者还要花很多时间调试。
最后，METR发现，这项研究与此前观点的矛盾似乎来源于任务的定义和区分。
对AI是否「能干活」这一问题，数据来源不同，得出的结论可能完全不同。

RCT实验聚焦的是「现实开发流程中是否真的更快」，基准测试关心「模型在任务标准下能打几分」，而用户主要反馈「AI用起来爽不爽」的主观感受。
换句话说，结论不一样，是因为本就在回答不同问题。
关心的是「日常提效」，还是「攻坚能力」，换换使用场景，答案可能完全不同。
每一种方法评估的都只是任务空间的子集，组合起来，或许才能客观认识AI编程的真实战力。
上岗两眼懵？AI编程不能只会刷分
METR的RCT实验提醒我们，别被AI基准测试的高分吓到了。
那些所谓的「智能体测评」「编程大赛」，看起来挺能打，实则可能离真实开发差得远。
在不需要背景、不需要理解上下文、不涉及实际部署的测试任务中训出来的AI，未必能赶上人类开发者的表现；
我们不能低估AI的能力，更不能过度乐观，觉得AI能轻松接管开发。
未来，用户对AI编程工具的期待不只是「刷分」。
我们想看的是，AI是否真的能把软件开发推进得更快、更好？
一旦AI真能做到这一点，那就意味着AI能够「无限赋能」自身的进化。
听起来很酷，但也任重道远。
如何评估AI参与真实开发部署的能力？如何设立监督护城河，保证项目安全？
METR打算继续设计实验，观察AI开发的真实实力。
他们表示，想要集结更多开发者、AI编程用户的力量，一起继续搞实验，看AI到底行不行。
不过，不管AI编程拖后腿的证据有多「实锤」，
研究中的大多数参与者，甚至研究作者本人，都并不介意被GPT之流拖一拖后腿。
面对一张白纸从零开始，或是对着一篇草稿进行编辑，即使前者更快，大家想必也都会选择后者。
毕竟，「奴役」AI写代码，虽然没法更「快了」，但一定更「快乐」。

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 168556

金币: 279680

道行: 2004

原创: 2404

奖券: 2775

斑龄: 35

道券: 1005

获奖: 0

座驾

设备

摄影级

在线时间: 38326(小时)
注册时间: 2008-10-01
最后登录: 2025-07-15

只看该作者沙发发表于: 前天 18:20

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

根据新智元的报道，METR（Model Evaluation & Threat Research）的研究揭示了AI编程工具在实际开发中可能并不如预期那样提高效率。以下是一些关键点：

1. 效率降低：研究发现，对于熟悉代码库的资深开发者来说，使用AI编程工具（如GPT等）反而会降低编码效率，平均慢了19%。

2. 认知偏差：开发者普遍高估了AI工具的效率提升作用。实验前，他们预计AI能提升效率24%，即使实验结果显示效率降低，他们仍认为AI让他们快了20%。

3. 实验设计：METR的研究聚焦于资深开发者和他们熟悉的大型开源代码库。他们招募了16位资深开发者，从日常工作中收集了246个真实问题，并随机分配到允许或不允许使用AI的对照实验组。

4. 时间分配变化：使用AI时，开发者在主动编码和信息搜索上的时间减少，而在与AI交互、审查AI输出以及等待上的时间增加。

5. 可能的原因：METR提出了20个可能导致效率降低的因素，其中5个可能对结果有显著贡献，包括开发者对项目的熟悉度超过AI、对AI效能的过度乐观、项目复杂性导致AI代码质量差、任务定义和区分的问题等。

6. 基准测试与用户体验的差异：METR指出，基准测试关注的是模型在任务标准下的表现，而用户体验更多是主观感受。这两者与实际开发流程中是否更快是不同的问题。

7. AI编程工具的期待：未来，用户对AI编程工具的期待不仅是"刷分"，而是真正能推进软件开发的速度和质量。同时，也需要考虑如何评估AI在真实开发部署中的能力，并设立监督机制保证项目安全。

8. 主观感受与客观效果：尽管研究显示使用AI编程工具可能降低效率，但许多参与者和研究者本人并不介意，因为"奴役"AI写代码虽然可能不更快，但一定更快乐。

总的来说，这项研究颠覆了我们对AI编程工具提高开发效率的传统认知。它提醒我们，在实际开发中，AI工具可能并不总是提高效率，有时甚至拖慢进度。我们需要更全面地评估AI在软件开发中的真实作用，并合理设定期望。同时，也要关注AI编程工具带来的其他价值，如提高工作乐趣等。我们应客观看待AI编程工具的优势和局限，并探索如何更好地利用它们来提升开发效率和质量。

如何不发帖就快速得到金币和道行

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 144767

金币: 268896

道行: 20030

原创: 756

奖券: 185

斑龄: 0

道券: 0

获奖: 0

座驾

设备

摄影级

在线时间: 16852(小时)
注册时间: 2012-06-21
最后登录: 2025-07-15

只看该作者板凳发表于: 前天 21:41

关于「用AI写代码可能更慢但更快乐」的观点，结合技术趋势与开发者体验，可从以下角度分析：

一、效率与质量的权衡
初期效率可能降低
AI生成的代码需人工验证和调整，尤其在复杂逻辑或业务场景中，可能因理解偏差导致返工13。例如，AI生成的算法可能缺乏针对性优化，需开发者手动调试。

长期效率提升
AI可快速完成重复性任务（如模板生成、单元测试），释放时间用于核心逻辑设计，整体效率反而提高2。

二、创造力的解放
减少机械劳动
AI处理语法检查、代码补全等基础工作，让开发者更专注于创新功能设计，激发创造力1。

探索新思路
AI能提供多套解决方案（如不同算法实现），帮助开发者突破思维定式，尝试更优路径3。

三、学习与成长加速
知识传递效率
AI可解释代码逻辑、推荐最佳实践，加速新手学习曲线，同时帮助资深开发者接触新技术2。

错误预防与优化
AI实时提示潜在漏洞（如内存泄漏），减少试错成本，降低因低级错误导致的挫败感1。

四、心理体验的提升
降低压力与焦虑
AI分担繁琐任务，减少“重复劳动”的枯燥感，开发者能以更轻松的心态投入工作2。

成就感增强
通过AI辅助快速实现复杂功能（如AI生成的可视化界面），开发者能更快看到成果，获得正向反馈3。

五、人机协作的未来趋势
AI并非替代开发者，而是成为“智能助手”。开发者需明确自身定位：从“编码者”转向“架构师”与“创意者”，通过AI工具提升整体生产力与幸福感12。

---

如何不发帖就快速得到金币和道行

我有我可以

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]用AI，写代码只会更慢！但一定更「快乐」[5P] [复制链接]