OpenAI 让 LLM 更安全：无需像以前那样进行大量的人工输入-电脑志

OpenAI 表示，它已开发出一种新方法，可确保 GPT-4o mini 等大型语言模型的安全，而无需像以前那样需要大量的人工数据收集。该公司表示，这种新的基于规则的奖励（RBRs）方法大大提高了其人工智能系统的安全性。

这家 ChatGPT 制造商透露，自推出 GPT-4 （包括其最新型号 GPT-4o mini）以来，它一直在使用 RBRs 作为其安全堆栈的一部分，并计划将来在更新型号中使用。RBR 使用简单明了的步骤规则来检查输出是否符合安全标准，避免了 “重复人工输入的低效率”--这有助于加快未来机型的开发时间。

RBR 不仅使用简单的规则来训练 LLM，使其能够安全地回答问题，而且还能减少错误拒绝的数量。向语言模型提出一个它认为是危险的问题，可能是因为一个词的双重含义，这会让用户感到沮丧。使用 RBR 训练的 LLM 仍然可以保持较高的安全性，而不会出错。

OpenAI 宣布领导层变动：Altman 将加深对产品的参与

虽然这是一大进步，但 RBR 也有一些局限性。OpenAI 表示，它们最适合用于规则清晰明了的任务。当涉及到主观性较强的任务时，比如写一篇高质量的文章，RBR 就会陷入困境。OpenAI 在解释如何解决这一问题时说：

RBR 可以与人类反馈相结合，以平衡这些挑战。例如，RBR 可以执行特定的指导原则（如 “不要使用俚语” 或模型规范中的规则），而人工反馈可以帮助解决更细微的问题（如整体一致性）。对 RBR 的强度进行了优化，以正确执行安全偏好，但不会对最终奖励得分产生超出需要的影响--这样，RLHF 奖励模型仍能在写作风格等方面提供强烈的信号。

虽然 OpenAI 强调了 RBR 在提高 LLM 安全性方面的应用，但该公司也指出，RBR 并不局限于安全培训。该公司表示，只要明确的规则可以定义所需的行为，例如为特定应用构建模型响应的个性或格式，它们就可以被使用。

AMD Ryzen AI CPU 和 Radeon 7000 支持 LLM 运行本地化聊天机器人

本文由 King 发布在电脑志，转载此文请保持文章完整性，并请附上文章来源（电脑志）及本页链接。
原文链接：https://www.pcsofter.com/news/99964.html