微软发布用于必应图像搜索的图灵Bletchley v3视觉语言模型-电脑志

微软正式发布了图灵 Bletchley视觉多语言基础模型的第三个版本。目前，该模型已被推广到微软的多款产品中，包括用于改进图片搜索的必应（Bing）。

微软早在2021年11月就推出了图灵 Bletchley模型的第一个版本。今天，微软在必应官方博客上发表文章称，它将于2023年秋季开始测试该模型的第三个版本，然后将其添加到必应和其他产品中。

该模型利用文本和图像输入，在微软必应搜索引擎上找到人们需要寻找的东西。我们的目标是让模型尽可能接近，例如，描述"狗吃冰淇淋"的文字与搜索结果中狗吃冰淇淋的图片尽可能接近。

图灵 Bletchley v3 建立这些联系的部分方法与模型有关。微软公司表示：

给定一幅图像和一段描述图像的文字说明，然后屏蔽文字说明中的一些词语。然后对神经网络进行训练，以根据图像和文字预测隐藏的单词。这项任务也可以翻转过来，屏蔽掉图像而不是单词。这种掩码训练方式与基于大型转换器的模型相结合，可产生一个强大的预训练模型，并可在各种下游任务中对其进行微调。

除了用于必应的图片搜索外，新的图灵 Bletchley v3 模型还被用于 Xbox 游戏服务的内容审核。例如，它可以帮助该团队识别 Xbox 玩家上传到其个人资料中的被认为是不恰当的、违反公司 Xbox 平台社区标准的图片和视频。

本文由 King 发布在电脑志，转载此文请保持文章完整性，并请附上文章来源（电脑志）及本页链接。
原文链接：https://www.pcsofter.com/news/76848.html

微软发布用于必应图像搜索的图灵Bletchley v3视觉语言模型