今年年初,OpenAI 发布了新的视频生成人工智能模型 Sora,它可以根据文本提示创建逼真而富有想象力的场景。虽然 OpenAI 推迟了 Sora 的公开发布时间,但在过去几个月里,我们看到包括 Runway 和 Luma 在内的几家人工智能初创公司都发布了自己的视频生成模型。
今天,腾讯发布了混元文生视频(HunyuanVideo),这是一个最先进的视频生成模型,也是开源的。这是首个大型开源视频生成模型,其推理代码和模型权重对所有人开放。
腾讯公司称,混元文生视频可生成的视频在视觉质量、动作多样性、文本视频对齐和生成稳定性等方面均可与领先的闭源模型相媲美。它拥有超过 130 亿个参数,是所有开源视频生成模型中最大的。混元文生视频的框架集成了数据整理、图像视频联合模型训练以及支持大规模模型训练和推理的高效基础设施。
腾讯还通过专业人工评估对模型进行了测试。根据评测结果,浑源视频的表现优于包括 Runway Gen-3 和 Luma 1.6 在内的所有领先的闭源先进模型。
腾讯混元文生视频没有采用文本、图像和视频分别生成的模式,而是采用了以下不同的技术,实现了比现有模式更好的视频质量:
混元文生视频引入了 Transformer 设计,并采用了 Full Attention 机制,实现了图像和视频的统一生成。具体来说,我们采用 “双流到单流” 的混合模型设计来生成视频。在双流阶段,视频和文本令牌通过多个 Transformer 模块独立处理,从而使每种模式都能学习到自己合适的调制机制而不受干扰。在单流阶段,我们将视频和文本标记串联起来,并将其输入后续的变换器模块,以实现有效的多模态信息融合。这种设计捕捉到了视觉信息和语义信息之间复杂的相互作用,从而提高了模型的整体性能。
混元文生视频的发布标志着人工智能视频生成技术向民主化迈出了重要一步。凭借开源代码和权重,HunyuanVideo 可能会给人工智能视频生成生态系统带来一场革命。您可以在这里了解有关该模型的更多信息: