OpenAI开发出像人类一样使用思维链的LLM-电脑志

OpenAI发布了一篇新的论文，概述了它在消除人工智能只是编造东西的幻觉这一常见问题方面取得的一些进展。该论文概述了两种被称为结果监督和过程监督的模型，以剔除幻觉和它们的表现。

OpenAI不再使用API客户数据来训练其LLMs

通过结果监督，OpenAI训练奖励模型，为人工智能给出的最终结果提供反馈。有了过程监督，奖励模型在每一步都提供反馈，形成一个类似人类的思维链。

在其研究论文中，OpenAI在一个数学数据集上测试了这两种模型，发现过程监督方法导致了 "明显更好的性能"。值得注意的是，到目前为止，过程监督方法只在数学领域进行了测试，还需要更多的工作来观察它在更普遍的情况下的表现。

在解释过程监督方法的可能结果时，OpenAI说：

"如果这些结果具有普遍性，我们可能会发现，过程监督给了我们两全其美的方法--一种比结果监督更有表现力、更有一致性的方法。"

现在说这种逐步验证对解决幻觉有多大帮助还为时过早，但希望它能做到，因为幻觉可能是目前法律硕士的头号问题。就在本周，一位曾使用ChatGPT工作的律师，提交了虚假信息，详细介绍了人工智能梦寐以求的假案件。

OpenAI没有给出一个时间表，说明在ChatGPT中实施流程监督需要多长时间，而ChatGPT是向公众开放的。它仍处于研究阶段，需要对一般信息进行测试。

虽然最初的结果是好的，但OpenAI确实提到，更安全的方法会产生降低的性能，称为对齐税。到目前为止，结果显示，在处理数学问题时，过程监督不会产生这种税，但我们不知道在更一般的信息上会发生什么。

来源：OpenAI

本文由 King 发布在电脑志，转载此文请保持文章完整性，并请附上文章来源（电脑志）及本页链接。
原文链接：https://www.pcsofter.com/news/72145.html

OpenAI开发出像人类一样使用思维链的LLM