GitHub 的声明因 Copilot 的代码质量指标有问题而受到审查

微信扫一扫,分享到朋友圈

GitHub 的声明因 Copilot 的代码质量指标有问题而受到审查

GitHub 声称其 Copilot 人工智能能生成高质量的代码,这一说法受到了严格的审查,罗马尼亚软件开发人员 Dan Cîmpianu 带头对其统计有效性提出了质疑

这家科技巨头最近发布了一份研究报告,称使用 Copilot 的开发人员通过所有单元测试的可能性提高了 56%,编写的无差错代码行数增加了 13.6%,生成的代码可读性、可靠性、可维护性和简洁性提高了 1-3%。此外,研究报告还显示,Copilot 用户的代码获得批准的可能性提高了 5%。

这项研究涉及 243 名至少有五年经验的 Python 开发人员。参与者被分为两组:一组使用 Copilot,另一组不使用。分配的任务是创建一个管理餐厅评论的基本网络服务器。提交的代码由参与者自己通过同行评审进行评估。然而,审查数量的不一致性(1293 次而非预期的 2020 次)引起了人们对这一过程的质疑。

Cîmpianu 从多个方面批评了这项研究。他认为,所选择的任务(一个简单的 CRUD 应用程序)在在线教程中被广泛记录,而且很可能包含在 Copilot 的培训数据中,这可能会使结果产生偏差。他还强调了关键指标报告中的不一致之处,如 60.8% 的 Copilot 用户通过了所有测试,而非用户只有 39.2% 通过了所有测试,但提供的数据并未明确支持这一说法。此外,GitHub 声称 Copilot 用户编写的无差错代码行数增加了 13.6%,这也被批评为误导,因为这相当于每个错误只增加了两行代码,而且不包括功能性问题,而是侧重于文体问题或行文警告。

Cîmpianu 还对 GitHub 声称代码可读性和可维护性提高了 1-3% 的说法表示质疑,指出这种评估非常主观,没有透明的评估标准作为支撑。他还对使用参与研究的开发人员作为审查员的决定提出质疑,认为独立的审查过程会更可靠。

Cîmpianu 的批评与其他研究结果如出一辙。GitClear 2023 年的一份报告指出,GitHub Copilot 降低了代码的整体质量,而比尔肯特大学的研究发现:Copilot、ChatGPT 和亚马逊 Q Developer 等人工智能工具生成的代码往往存在文体缺陷。这些工具需要大量的人工修正,其中 Copilot 平均需要 9.1 分钟来解决生成代码中的问题。

GitHub 的研究揭示了一个重要趋势:软件开发越来越依赖人工智能。虽然 Copilot 和类似工具可以提供有价值的帮助,但它们目前的局限性凸显了开发人员监督的重要性。不过,对 Cîmpianu 来说,风险更大:

如果没有人工智能就写不出好代码,那么首先就不应该使用人工智能。

这场辩论凸显了人们对人工智能在创意和技术领域的作用的广泛关注。像 Copilot 这样的工具正在重塑我们的创作方式,但也并非没有争议。

来源:The Register

上一篇

传三星的三折手机可能要等到 2026 年才能问世

下一篇

腾讯发布最先进的开源视频生成模型:混元文生视频

你也可能喜欢

评论已经被关闭。

插入图片

公众号

公众号
关注我们

排行榜

返回顶部

欢度春节

烟火起,照人间,举杯敬此年,
烟花落,四季平,举杯贺新岁。
所得皆所愿,所行亦无憾,
岁岁常喜乐,万事皆顺意!