OpenAI 表示,它已开发出一种新方法,可确保 GPT-4o mini 等大型语言模型的安全,而无需像以前那样需要大量的人工数据收集。该公司表示,这种新的基于规则的奖励(RBRs)方法大大提高了其人工智能系统的安全性。
这家 ChatGPT 制造商透露,自推出 GPT-4 (包括其最新型号 GPT-4o mini)以来,它一直在使用 RBRs 作为其安全堆栈的一部分,并计划将来在更新型号中使用。RBR 使用简单明了的步骤规则来检查输出是否符合安全标准,避免了 “重复人工输入的低效率”--这有助于加快未来机型的开发时间。
RBR 不仅使用简单的规则来训练 LLM,使其能够安全地回答问题,而且还能减少错误拒绝的数量。向语言模型提出一个它认为是危险的问题,可能是因为一个词的双重含义,这会让用户感到沮丧。使用 RBR 训练的 LLM 仍然可以保持较高的安全性,而不会出错。
虽然这是一大进步,但 RBR 也有一些局限性。OpenAI 表示,它们最适合用于规则清晰明了的任务。当涉及到主观性较强的任务时,比如写一篇高质量的文章,RBR 就会陷入困境。OpenAI 在解释如何解决这一问题时说:
RBR 可以与人类反馈相结合,以平衡这些挑战。例如,RBR 可以执行特定的指导原则(如 “不要使用俚语” 或模型规范中的规则),而人工反馈可以帮助解决更细微的问题(如整体一致性)。对 RBR 的强度进行了优化,以正确执行安全偏好,但不会对最终奖励得分产生超出需要的影响--这样,RLHF 奖励模型仍能在写作风格等方面提供强烈的信号。
虽然 OpenAI 强调了 RBR 在提高 LLM 安全性方面的应用,但该公司也指出,RBR 并不局限于安全培训。该公司表示,只要明确的规则可以定义所需的行为,例如为特定应用构建模型响应的个性或格式,它们就可以被使用。