神奇!蒙娜丽莎说起了饶舌歌:是微软的新人工智能干的

微信扫一扫,分享到朋友圈

神奇!蒙娜丽莎说起了饶舌歌:是微软的新人工智能干的

微软亚洲研究院(Microsoft Research Asia)发表了一篇新论文,介绍了用于生成逼真说话人脸的框架 VASA。研究人员介绍了被称为 VASA-1 的模型,该模型可以仅根据一张静态图像和一段语音音频片段生成逼真的视频。论文全文见 arXiv

研究结果令人印象深刻,击败了之前所有使用生成式人工智能生成逼真深度伪造视频的工具。

VASA-1 特别有趣的地方在于,它能够模仿自然的面部表情、各种情绪和唇音,而且几乎没有人工痕迹。

研究人员承认,该模型和其他所有模型一样,在处理头发等非刚性元素方面仍有困难。不过,即使在这一领域,该模型的表现也超过了平均水平,减轻了在识别不真实的深度伪造视频时的一个已知信号。

微软表示,其技术基石是一个创新的整体面部动态和头部运动生成模型,该模型可在一个富有表现力的分离式面部潜空间中工作。VASA-1 还具有实时效率:

"我们的方法在离线批处理模式下以 45fps 的速度生成 512 × 512 大小的视频帧,在在线流媒体模式下可支持高达 40fps 的速度,之前的延迟时间仅为 170ms,在配备单个英伟达 RTX 4090 GPU 的台式 PC 上进行了评估"。

基于新模型的工具非常易于使用,甚至还提供了控制 "可选信号作为条件" 的功能,这意味着用户可以设置主要的眼睛注视方向、头部距离和情感偏移:

https://twitter.com/Hody_MH11/status/1780944434089033816?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1780944434089033816%7Ctwgr%5Ea8faa1a8bf7846ab89a005de078d76e2840e40de%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.neowin.net%2Fnews%2Fmicrosofts-new-ai-creates-super-realistic-talking-head-deepfakes-and-it-made-mona-lisa-rap%2F

VASA-1 还能处理艺术品等非现实输入。因此,它基本上也能让绘画作品栩栩如生。

该模型还能让照片唱歌、说唱或用英语以外的语言交谈。作为其中一个例子,微软展示了一段疯狂的蒙娜丽莎说唱的搞笑片段:

https://twitter.com/Hody_MH11/status/1780945011586093383?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1780945011586093383%7Ctwgr%5Ea8faa1a8bf7846ab89a005de078d76e2840e40de%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.neowin.net%2Fnews%2Fmicrosofts-new-ai-creates-super-realistic-talking-head-deepfakes-and-it-made-mona-lisa-rap%2F

必须强调的是,当这种技术被用于生成模仿真人的内容时,可能会造成潜在的危害--不仅是政客和名人,普通公民也会受到影响。好在微软的研究人员已经意识到了这种风险:

"我们没有计划发布在线演示、API、产品、额外的实施细节或任何相关产品,直到我们确定该技术将被负责任地使用,并符合适当的法规"。

微软承认存在滥用的可能性。不过,它也强调了该技术的潜在益处,包括提高教育公平性、改善有交流障碍的个人的无障碍环境,以及为有需要的人提供陪伴或治疗支持等。

值得一提的是,微软的竞争对手 OpenAI 也面临着类似的困境。就在不久前,OpenAI 推出了一个强大的语音克隆人工智能模型,但选择不将其公之于众。该公司声称,在更广泛地发布这项技术的同时,还应该制定相关政策和对策,以防止其被滥用。

上一篇

传微软和 OpenAI 将避免欧盟的合并调查

下一篇

Edge Dev v125.0.2518.0 发布:包含网络捕获改进和多项修复

你也可能喜欢

评论已经被关闭。

插入图片

公众号

公众号
关注我们

排行榜

返回顶部