微软发布用于必应图像搜索的图灵Bletchley v3视觉语言模型

微信扫一扫,分享到朋友圈

微软发布用于必应图像搜索的图灵Bletchley v3视觉语言模型

微软正式发布了图灵 Bletchley视觉多语言基础模型的第三个版本。目前,该模型已被推广到微软的多款产品中,包括用于改进图片搜索的必应(Bing)。

微软早在2021年11月就推出了图灵 Bletchley模型的第一个版本。今天,微软在必应官方博客上发表文章称,它将于2023年秋季开始测试该模型的第三个版本,然后将其添加到必应和其他产品中。

微软发布用于必应图像搜索的图灵Bletchley v3视觉语言模型插图

该模型利用文本和图像输入,在微软必应搜索引擎上找到人们需要寻找的东西。我们的目标是让模型尽可能接近,例如,描述"狗吃冰淇淋"的文字与搜索结果中狗吃冰淇淋的图片尽可能接近。

图灵 Bletchley v3 建立这些联系的部分方法与模型有关。微软公司表示:

给定一幅图像和一段描述图像的文字说明,然后屏蔽文字说明中的一些词语。然后对神经网络进行训练,以根据图像和文字预测隐藏的单词。这项任务也可以翻转过来,屏蔽掉图像而不是单词。这种掩码训练方式与基于大型转换器的模型相结合,可产生一个强大的预训练模型,并可在各种下游任务中对其进行微调。

除了用于必应的图片搜索外,新的图灵 Bletchley v3 模型还被用于 Xbox 游戏服务的内容审核。例如,它可以帮助该团队识别 Xbox 玩家上传到其个人资料中的被认为是不恰当的、违反公司 Xbox 平台社区标准的图片和视频。

上一篇

2023科技春晚:苹果发出邀请函确认9月13日发布会

下一篇

微软SharePoint新增以电子邮件形式共享新闻帖

你也可能喜欢

评论已经被关闭。

插入图片

排行榜

返回顶部