限时优惠:年度计划 节省40% !🎉

videoEffect.duration

videoEffect.resolution

videoEffect.ratio

videoEffect.autoSound
videoEffect.autoSpeech
videoEffect.noWatermark
videoEffect.private

Wan 2.2:在线使用及本地运行指南

Wan 2.2:开源与电影级精度的完美结合

什么是 Wan 2.2?

  • Wan 2.2 与 Wan 2.1 的区别

    Wan 2.2 是由阿里巴巴旗下的 Wan AI 团队开发的下一代 AI 视频生成器,专为文本生成视频和图像生成视频而设计,能够生成高质量、电影级的视频,速度更快,动作更加流畅。与 Wan 2.1 相比,该版本采用了强大的专家混合(MoE)架构,支持更流畅的生成、更精确的提示匹配以及更强的视觉控制。

  • Wan 2.2 开源视频生成器

    阿里巴巴的 Wan 2.2 完全开源,遵循 Apache 2.0 许可证。开发者可以自由下载、使用和修改 Wan 2.2 AI 视频生成器,用于研究和商业项目。此开源方式为创作者和工程师提供了极大的灵活性,可以定制 Wan 视频流程,并将模型整合进自己的工具中。

浏览 Wan 2.2 示例

  • 光照示例

  • 角色情感示例

  • 风格化示例

  • 动作控制示例

Wan 2.2 AI 视频模型

  • Wan 2.2-T2V-A14B:文本生成视频模型

    该模型能够生成 5 秒的 480P 或 720P 视频。凭借强大的提示理解能力和运动控制,它比以前的 Wan 视频版本和其他 AI 工具更准确、富有表现力。

  • Wan2.2-I2V-A14B: 图像转视频模型

    该模型旨在将静态图像转化为动态视频片段,支持 480P 和 720P 输出。它减少了相机抖动,支持多种艺术风格,特别适用于艺术创作和故事板应用。

  • Wan2.2-TI2V-5B: 混合视频生成器

    TI2V-5B 模型支持在同一流程中同时进行文本转视频和图像转视频生成。它使用高压缩 VAE 技术,快速生成 720P@24fps 视频,并能高效运行于单个消费级 GPU(如 RTX 4090)上,适用于研究与生产。

Wan 2.2 核心特性

  • 专家混合架构(MoE)

    Wan 2.2 集成了强大的专家混合(MoE)架构,无需增加计算成本即可提升模型容量。这使得视频生成在时间维度上更快速、更高质量,确立了 Wan 2.2 在开源扩散模型中的技术基准。

  • 大规模训练数据

    Wan 2.2 相比其前代产品 Wan 2.1,训练数据量比 Wan 2.1 增加了 65.6% 的图像和 83.2% 的视频。这一数据大幅增加,确保了生成视频在运动处理、语义一致性和美学连贯性方面的提升。

  • 更强的电影美学效果

    通过精心策划的标注数据集,涵盖光照、构图和色彩分级,Wan 2.2 在生成震撼的电影风格视频方面表现出色,为创作者提供精确控制艺术偏好的能力。

  • 高效高清混合型 TI2V

    Wan 2.2 TI2V-5B 模型支持以 24fps 的帧率生成 720P 视频,利用先进的 VAE 压缩技术(16×16×4)。该模型专为高效运行设计,能够在像 4090 这样的消费级 GPU 上运行,使高质量的视频生成更易实现,便于更多用户使用。

如何使用 Wan 2.2?

  • _blank

    通过 Hugging Face Space 尝试 Wan 2.2 TI2V-5B

  • _blank

    _blank

如何在本地设置并使用 Wan 2.2

  • Step 1: Clone the Repository

    Begin by cloning the official Wan 2.2 GitHub repository. It contains everything you need to run the model locally.

    Step 1: Clone the Repository
  • 步骤 2:安装依赖项

    请确保环境符合要求,安装仓库中的 Python 包,并确保 PyTorch 版本为 2.4.0 或更高,以确保与 Wan 2.2 的兼容性。

    步骤 2:安装依赖项
  • 步骤 3:下载模型

    选择适合您的使用场景的模型: T2V-A14B:文本转视频 I2V-A14B:图像转视频 TI2V-5B:支持文本+图像输入,720p 分辨率,24fps 您可以在 Hugging FaceModelScope 下载每个模型并查看更多信息。

  • 步骤 4:运行视频生成

    完成设置后,您可以使用文本提示或图片开始生成视频。模型将处理您的输入,生成720p高质量视频,全部在本地机器上进行——您可以完全控制视觉风格、动作和时机。

立即获取 Wan 2.2 ComfyUI 工作流

  • Wan 2.2 TI2V-5B 在 ComfyUI 中的工作流程

    您可以在 ComfyUI 中直接探索生成视频的可视化工作流程,使用 Wan 2.2 TI2V-5B。这一设置支持文本转视频和图像转视频生成。要了解更多信息,请访问 Wan 2.2 ComfyUI 指南,了解如何加载模型并顺利运行工作流程。

  • 系统要求和设置

    在 ComfyUI 中运行 Wan 2.2 需要您手动安装特定的模型文件:扩散模型、VAE 和文本编码器。推荐配备至少 8GB VRAM 的 GPU,以确保顺畅的生成体验。

  • 从以下三种工作流中选择

    ComfyUI 目前支持三种 Wan 2.2 工作流: T2V:文本转视频 I2V:图像转视频 TI2V:混合输入 每个版本都可以根据您的提示、分辨率和帧长度进行调整,适应创作者、研究人员和开发者的不同需求。

Wan 2.2 是如何工作的?

  • 1

    MoE 高效架构

    Wan 2.2 采用专家混合(MoE)设计,在高质量生成与计算效率之间找到平衡。在去噪过程中,它会根据需要在两种专家模型之间切换——一种专门处理高噪声阶段,另一种则用于低噪声的精细化。这种分层结构使 Wan 2.2 在不增加内存占用的情况下,生成比 Wan 2.1 更加详细、稳定的结果。

    MoE 高效架构
  • 2

    轻量级 TI2V-5B 快速生成体验

    如果你想在消费级硬件上获得更快性能,Wan 2.2 提供 TI2V-5B 模型。该模型使用高效 VAE 压缩视频表示,在单张 GPU 上可在 9 分钟内生成 720p、24fps 视频,并支持文字生成视频和图像生成视频两种任务,在同一环境中完成。

    轻量级 TI2V-5B 快速生成体验
  • 3

    AI 视频生成模型性能对比

    在基准测试中,Wan 2.2 在动作、结构和提示词对齐度上有显著提升,持续超越主流商用视频模型,生成效果更真实、更连贯。

    AI 视频生成模型性能对比

即将上线:Wan AI 视频生成器集成

现在可在 Vidful.ai 免费体验在线 AI 视频生成器,无需注册。Wan 2.2 将很快全面接入,为你带来基于 Wan AI 模型的高质量、电影级视频生成体验,生成速度快且高效。

Wan 2.2 常见问题解答

  • Wan 2.2 是什么?

    Wan 2.2 是一款开源视频生成模型,具备更强大的功能,如 Mixture-of-Experts 架构和电影级美学。

  • Wan 2.2 真的开源吗?

    是的,Wan 2.2 是开源的,包括 TI2V-5B 模型以及支持文本转视频和图像转视频生成的相关组件。

  • 我需要什么硬件来使用 Wan 2.2?

    Wan 2.2 已针对消费者级 GPU(如 NVIDIA RTX 4090)进行了优化,提供高质量的720P@24fps视频生成。

  • Wan 2.2 中 T2V、I2V 和 TI2V 功能有何区别?

    T2V 从文本提示生成不同类型的视频,I2V 从静态图像生成视频,TI2V 支持混合输入,提供更高的灵活性。

  • 我可以将 Wan 2.2 用于商业项目吗?

    是的,开源许可证允许学术和工业用途。使用前请在使用前查看许可证文件,确认具体使用权限。

  • Wan 2.2 与商业化模型的对比如何?

    Wan 2.2 在关键基准测试(如 Wan-Bench 2.0)中超越了领先的商业化模型,提供行业领先的输出,并且完全透明。

  • Wan 2.2 支持哪些视频分辨率?

    目前,Wan 2.2 支持480P和720P的视频生成,未来计划支持更高分辨率。