GitHub 的声明因 Copilot 的代码质量指标有问题而受到审查-电脑志

GitHub 声称其 Copilot 人工智能能生成高质量的代码，这一说法受到了严格的审查，罗马尼亚软件开发人员 Dan Cîmpianu 带头对其统计有效性提出了质疑。

这家科技巨头最近发布了一份研究报告，称使用 Copilot 的开发人员通过所有单元测试的可能性提高了 56%，编写的无差错代码行数增加了 13.6%，生成的代码可读性、可靠性、可维护性和简洁性提高了 1-3%。此外，研究报告还显示，Copilot 用户的代码获得批准的可能性提高了 5%。

这项研究涉及 243 名至少有五年经验的 Python 开发人员。参与者被分为两组：一组使用 Copilot，另一组不使用。分配的任务是创建一个管理餐厅评论的基本网络服务器。提交的代码由参与者自己通过同行评审进行评估。然而，审查数量的不一致性（1293 次而非预期的 2020 次）引起了人们对这一过程的质疑。

Cîmpianu 从多个方面批评了这项研究。他认为，所选择的任务（一个简单的 CRUD 应用程序）在在线教程中被广泛记录，而且很可能包含在 Copilot 的培训数据中，这可能会使结果产生偏差。他还强调了关键指标报告中的不一致之处，如 60.8% 的 Copilot 用户通过了所有测试，而非用户只有 39.2% 通过了所有测试，但提供的数据并未明确支持这一说法。此外，GitHub 声称 Copilot 用户编写的无差错代码行数增加了 13.6%，这也被批评为误导，因为这相当于每个错误只增加了两行代码，而且不包括功能性问题，而是侧重于文体问题或行文警告。

Cîmpianu 还对 GitHub 声称代码可读性和可维护性提高了 1-3% 的说法表示质疑，指出这种评估非常主观，没有透明的评估标准作为支撑。他还对使用参与研究的开发人员作为审查员的决定提出质疑，认为独立的审查过程会更可靠。

微软终止对 Windows 11 22H2 和 21H2 的支持

Cîmpianu 的批评与其他研究结果如出一辙。GitClear 2023 年的一份报告指出，GitHub Copilot 降低了代码的整体质量，而比尔肯特大学的研究发现：Copilot、ChatGPT 和亚马逊 Q Developer 等人工智能工具生成的代码往往存在文体缺陷。这些工具需要大量的人工修正，其中 Copilot 平均需要 9.1 分钟来解决生成代码中的问题。

GitHub 的研究揭示了一个重要趋势：软件开发越来越依赖人工智能。虽然 Copilot 和类似工具可以提供有价值的帮助，但它们目前的局限性凸显了开发人员监督的重要性。不过，对 Cîmpianu 来说，风险更大：