微软正式发布了图灵 Bletchley视觉多语言基础模型的第三个版本。目前,该模型已被推广到微软的多款产品中,包括用于改进图片搜索的必应(Bing)。
微软早在2021年11月就推出了图灵 Bletchley模型的第一个版本。今天,微软在必应官方博客上发表文章称,它将于2023年秋季开始测试该模型的第三个版本,然后将其添加到必应和其他产品中。
该模型利用文本和图像输入,在微软必应搜索引擎上找到人们需要寻找的东西。我们的目标是让模型尽可能接近,例如,描述"狗吃冰淇淋"的文字与搜索结果中狗吃冰淇淋的图片尽可能接近。
图灵 Bletchley v3 建立这些联系的部分方法与模型有关。微软公司表示:
给定一幅图像和一段描述图像的文字说明,然后屏蔽文字说明中的一些词语。然后对神经网络进行训练,以根据图像和文字预测隐藏的单词。这项任务也可以翻转过来,屏蔽掉图像而不是单词。这种掩码训练方式与基于大型转换器的模型相结合,可产生一个强大的预训练模型,并可在各种下游任务中对其进行微调。
除了用于必应的图片搜索外,新的图灵 Bletchley v3 模型还被用于 Xbox 游戏服务的内容审核。例如,它可以帮助该团队识别 Xbox 玩家上传到其个人资料中的被认为是不恰当的、违反公司 Xbox 平台社区标准的图片和视频。