神奇！蒙娜丽莎说起了饶舌歌：是微软的新人工智能干的-电脑志

微软亚洲研究院（Microsoft Research Asia）发表了一篇新论文，介绍了用于生成逼真说话人脸的框架 VASA。研究人员介绍了被称为 VASA-1 的模型，该模型可以仅根据一张静态图像和一段语音音频片段生成逼真的视频。论文全文见 arXiv。

研究结果令人印象深刻，击败了之前所有使用生成式人工智能生成逼真深度伪造视频的工具。

VASA-1 特别有趣的地方在于，它能够模仿自然的面部表情、各种情绪和唇音，而且几乎没有人工痕迹。

研究人员承认，该模型和其他所有模型一样，在处理头发等非刚性元素方面仍有困难。不过，即使在这一领域，该模型的表现也超过了平均水平，减轻了在识别不真实的深度伪造视频时的一个已知信号。

微软表示，其技术基石是一个创新的整体面部动态和头部运动生成模型，该模型可在一个富有表现力的分离式面部潜空间中工作。VASA-1 还具有实时效率：

"我们的方法在离线批处理模式下以 45fps 的速度生成 512 × 512 大小的视频帧，在在线流媒体模式下可支持高达 40fps 的速度，之前的延迟时间仅为 170ms，在配备单个英伟达 RTX 4090 GPU 的台式 PC 上进行了评估"。

基于新模型的工具非常易于使用，甚至还提供了控制 "可选信号作为条件" 的功能，这意味着用户可以设置主要的眼睛注视方向、头部距离和情感偏移：

https://twitter.com/Hody_MH11/status/1780944434089033816?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1780944434089033816%7Ctwgr%5Ea8faa1a8bf7846ab89a005de078d76e2840e40de%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.neowin.net%2Fnews%2Fmicrosofts-new-ai-creates-super-realistic-talking-head-deepfakes-and-it-made-mona-lisa-rap%2F
OPPO 确认 Find X7 将提供 2 个潜望式摄像头和侧滑键

VASA-1 还能处理艺术品等非现实输入。因此，它基本上也能让绘画作品栩栩如生。

该模型还能让照片唱歌、说唱或用英语以外的语言交谈。作为其中一个例子，微软展示了一段疯狂的蒙娜丽莎说唱的搞笑片段：

https://twitter.com/Hody_MH11/status/1780945011586093383?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1780945011586093383%7Ctwgr%5Ea8faa1a8bf7846ab89a005de078d76e2840e40de%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.neowin.net%2Fnews%2Fmicrosofts-new-ai-creates-super-realistic-talking-head-deepfakes-and-it-made-mona-lisa-rap%2F

必须强调的是，当这种技术被用于生成模仿真人的内容时，可能会造成潜在的危害--不仅是政客和名人，普通公民也会受到影响。好在微软的研究人员已经意识到了这种风险：