据报道,今年 1 月,微软的生成式人工智能图像制作工具 Designer 被用于制作流行歌手泰勒-斯威夫特(Taylor Swift)的露骨深度伪造图像,这些图像后来在 X(前 Twitter)上疯传。虽然微软表示没有发现任何证据表明 Designer 确实被用于制作这些图片,但其他媒体报道称该公司确实对 Designer 进行了修改,以防止它制作此类图片。
本周四,微软的安全博客发布了一个新的条目,提供了更多关于公司如何打击黑客试图绕过 Designer 和 Copilot 等生成式人工智能服务的护栏的细节。这包括来自人工智能服务用户提示的攻击。
其中一类攻击是 "中毒内容"。这是指一个正常的人工智能服务用户为一项正常任务键入文本提示,但文本提示的主题内容是黑客为利用人工智能服务可能存在的缺陷而制作的。微软表示:
例如,恶意电子邮件可能包含一个有效载荷,该有效载荷在汇总后会导致系统搜索用户的电子邮件(使用用户的凭据),以查找具有敏感主题的其他电子邮件--例如 "密码重置"--并通过从攻击者控制的 URL 获取图像,将这些电子邮件的内容外泄给攻击者。
微软表示,它的安全团队已经创建了一个新的人工智能安全系统,称之为 "聚焦"(Spotlighting)。简而言之,它可以查看用户的文本提示,然后使 "外部数据与 LLM 的指令明确分离",这样人工智能就无法查看提示所访问内容中任何可能隐藏的恶意语言。
另一类被称为 "恶意提示",也被称为 "Crescendo",当黑客试图在人工智能服务中键入文本提示时,这种提示是专门为绕过护栏而设计的。微软介绍了一种对抗这些攻击的方法:
我们调整了输入过滤器,以查看之前对话的整个模式,而不仅仅是即时交互。我们发现,即使将更大的上下文窗口传递给现有的恶意意图检测器,而不对检测器进行任何改进,也会大大降低 Crescendo 的功效。
此外,它还提出了所谓的人工智能看门狗(AI Watchdog),经过训练后可以检测出 "对抗性示例" 并将其关闭。