桓楠百科网

编程知识、经典语录与百科知识分享平台

人工智能编码工具减慢了经验丰富的开发人员19%的速度!

  根据一项全面的新研究,经验丰富的开发人员在使用Cursor Pro和Claude等流行的人工智能助手时,可以延长19%的时间来完成任务,这挑战了科技行业关于人工智能编码工具的主流叙述。

  这项研究由模型评估和威胁研究(METR)进行,跟踪了16名经验丰富的开源开发人员,他们在成熟存储库上完成了246个现实世界的编码任务,平均超过100万行代码。

  该研究称:“我们进行了随机对照试验(RCT),以了解2025年初的人工智能工具如何影响经验丰富的开源开发人员在自己的存储库上工作的生产力。”“令人惊讶的是,我们发现,当开发人员使用人工智能工具时,他们比不使用时要长19%——人工智能使他们变慢。”

  感知差距很深

  也许最引人注目的是感知和现实之间的脱节。在开始研究之前,开发人员预测人工智能工具将缩短24%的完成时间。即使在经历了实际放缓之后,参与者估计人工智能的生产力提高了20%。

  研究人员在对感知差距的分析中补充说:“当人们报告人工智能加速了他们的工作时,他们可能错了。”

  这种误解超出了个人开发人员的范围,经济学专家预测人工智能将提高39%的生产力,机器学习专家预测将提高38%的生产力,所有这些都大大高估了实际影响。

  Greyhound Research的首席分析师兼首席执行官Sanchit Vir Gogia警告说,组织有“将开发人员满意度误认为是开发人员生产力”的风险,并指出,大多数人工智能工具通过降低认知负荷来改善编码体验,但并不总是转化为更快的输出,特别是对于经验丰富的专业人士来说。

  受控的现实世界测试

  该研究采用了随机对照试验方法,这在人工智能生产力研究中很少见。研究人员解释说:“为了直接衡量人工智能工具对软件开发的现实世界影响,我们从大型开源存储库(平均2.2万颗星和100万多万行代码行)中招募了16名经验丰富的开发人员,他们多年来一直为这些存储库做出了贡献。”

  任务被随机分配到允许或禁止使用人工智能工具,在2025年2月至6月的研究期间,开发人员主要使用带有Claude 3.5和3.7 Sonnet的Cursor Pro。研究论文补充说,所有参与者都录制了他们的屏幕,提供了对实际使用模式的见解,任务平均需要两个小时才能完成。

  Gogia认为,这代表了“对人工智能辅助编码自动提高开发人员生产力的过度简单化假设的重要纠正”,建议企业必须“提高其评估框架的严谨性”,并开发“超越供应商主导的基准的结构化测试和学习模型”。

  了解生产力悖论

  研究确定了导致观察到的放缓的几个相互关联的因素。尽管指示只有在有帮助时才使用人工智能工具,但一些开发人员报告说,实验超出了生产力。研究参与者平均在他们的存储库上有五年的经验和1500个提交,研究人员发现开发人员之前经验丰富的任务速度更快。

  最能说明的是,开发人员接受了不到44%的人工智能生成的代码建议,其中75%的人报告他们阅读了人工智能输出的每一行,56%的人进行了重大修改来清理人工智能生成的代码。事实证明,在具有复杂依赖性和编码标准的大型成熟代码库上工作,对于缺乏深刻上下文理解的人工智能工具来说尤其具有挑战性。

  Gogia解释说:“在经验丰富的开发人员中观察到的19%的放缓并不是对人工智能整体的指控,而是反映了将概率建议整合到确定性工作流程中的现实世界的摩擦。”他强调测量应该包括“下游返工、代码流失和同行评审周期——而不仅仅是代码时间。”

  更广泛的行业证据

  根据超过39,000名专业人士的回复,METR的发现与谷歌2024年DevOps研究和评估(DORA)报告中确定的相关趋势一致。虽然75%的开发人员表示,使用人工智能工具感觉工作效率更高,但数据却说明了不同的情况:人工智能采用率每增加25%,交付速度下降1.5%,系统稳定性下降7.2%。此外,39%的受访者表示对人工智能生成的代码几乎没有信任或没有信任。

  这些结果与早期的乐观研究相矛盾。麻省理工学院、普林斯顿大学和宾夕法尼亚大学的研究分析了微软、埃森哲和另一家财富100强公司4800多名开发人员的数据,发现使用GitHub Copilot的开发人员平均多完成26%的任务。一项单独的受控实验发现,开发人员使用GitHub Copilot以55.8%的速度完成编码任务。然而,与METR研究中检查的复杂、现实世界场景相比,这些研究通常使用更简单、更孤立的任务。

  这些发现是在企业向人工智能编码工具投入数十亿美元时得出的,METR研究指出,GitHub报告称,现在41%的新代码是由人工智能生成的。然而,这项研究揭示了一个根本的信任赤字,这可能会破坏有效性。

  根据DORA报告,一位参与者将评估人工智能代码描述为“就像StackOverflow的早期,[当]你总是认为StackOverflow上的人真的很有经验......然后,你只需复制和粘贴东西,东西就会爆炸。”

  前进的战略道路

  尽管生产力受到挫折,但69%的研究参与者在实验结束后继续使用光标,这表明开发人员重视超越纯速度的方面。METR研究指出,“结果不一定意味着人工智能编码工具的厄运”,因为特定于其研究环境的几个因素可能并不广泛适用。

  Gogia建议企业采用“投资组合思维:部署人工智能副驾驶,增强认知(文档、样板、测试),同时在专业知识和代码库熟悉程度超过自动化的领域保持控制。”他主张将人工智能工具“不是作为通用加速器,而是作为上下文副驾驶”,这需要治理和测量。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言