Wan 2.1: La revolución de la generación de video con IA de código abierto
Wan 2.1 es un potente modelo de generación de video con IA de código abierto de Alibaba, que produce videos de calidad de estudio a partir de texto o imágenes, libre para que todos lo usen localmente.

¿Qué es Wan 2.1?
Wan 2.1 (también llamado WanX 2.1) está abriendo nuevos caminos como un modelo de generación de video con IA completamente de código abierto desarrollado por el Tongyi Lab de Alibaba. A diferencia de muchos sistemas propietarios de generación de video que requieren suscripciones costosas o acceso vía API, Wan 2.1 ofrece una calidad comparable o superior, manteniéndose completamente libre y accesible para desarrolladores, investigadores y profesionales creativos.
Lo que realmente hace especial a Wan 2.1 es su combinación de accesibilidad y rendimiento. La variante más pequeña T2V-1.3B requiere solo ~8.2 GB de memoria GPU, lo que la hace compatible con la mayoría de GPUs de consumo modernas. Mientras tanto, la versión más grande de 14B parámetros ofrece un rendimiento de última generación que supera tanto a las alternativas de código abierto como a muchos modelos comerciales en benchmarks estándar.
Características clave que distinguen a Wan 2.1
Soporte Multitarea
Wan 2.1 no se limita solo a la generación de texto a video. Su arquitectura versátil admite:
- Texto a video (T2V)
- Imagen a video (I2V)
- Edición de video a video
- Generación de imagen a partir de texto
- Generación de audio a partir de video
Esta flexibilidad significa que puedes comenzar con una indicación de texto, una imagen fija o incluso un video existente y transformarlo según tu visión creativa.
Generación de texto multilingüe
Como el primer modelo de video capaz de renderizar texto legible en inglés y chino dentro de los videos generados, Wan 2.1 abre nuevas posibilidades para creadores de contenido internacional. Esta función es especialmente valiosa para crear subtítulos o texto en escenas en videos multilingües.
Revolucionario Video VAE (Wan-VAE)
En el núcleo de la eficiencia de Wan 2.1 está su AutoCodificador Variacional de Video causal 3D. Este avance tecnológico comprime eficientemente la información espaciotemporal, permitiendo que el modelo:
- Comprimir videos cientos de veces en tamaño
- Preservar fidelidad de movimiento y detalle
- Soportar salidas de alta resolución hasta 1080p
Eficiencia y accesibilidad excepcionales
El modelo pequeño de 1.3B requiere solo 8.19 GB de VRAM y puede producir un video de 5 segundos a 480p en aproximadamente 4 minutos en una RTX 4090. A pesar de esta eficiencia, su calidad rivaliza o supera la de modelos mucho más grandes, logrando el equilibrio perfecto entre velocidad y fidelidad visual.
Benchmarks y calidad líderes en la industria
En evaluaciones públicas, Wan 14B logró la puntuación más alta en las pruebas Wan-Bench, superando a competidores en:
- Calidad de movimiento
- Estabilidad
- Precisión en el seguimiento de indicaciones
Cómo se compara Wan 2.1 con otros modelos de generación de video
A diferencia de sistemas de código cerrado como Sora de OpenAI o Gen-2 de Runway, Wan 2.1 está disponible libremente para ejecutarse localmente. Generalmente supera a modelos de código abierto anteriores (como CogVideo, MAKE-A-VIDEO y Pika) e incluso a muchas soluciones comerciales en los benchmarks de calidad.
Una encuesta reciente de la industria señaló que “entre muchos modelos de video con IA, Wan 2.1 y Sora destacan”: Wan 2.1 por su apertura y eficiencia, y Sora por su innovación propietaria. En pruebas comunitarias, los usuarios han reportado que la capacidad de imagen a video de Wan 2.1 supera a la competencia en claridad y sensación cinematográfica.
La tecnología detrás de Wan 2.1
Wan 2.1 se basa en una columna vertebral de difusor-transformer con un novedoso VAE espaciotemporal. Así es como funciona:
- Una entrada (texto y/o imagen/video) se codifica en una representación latente de video por Wan-VAE
- Un transformer de difusión (basado en la arquitectura DiT) elimina iterativamente el ruido de ese latente
- El proceso es guiado por el codificador de texto (una variante multilingüe de T5 llamada umT5)
- Finalmente, el decodificador Wan-VAE reconstruye los fotogramas de video de salida

Figura: Arquitectura de alto nivel de Wan 2.1 (caso de texto a video). Un video (o imagen) es primero codificado por el codificador Wan-VAE en un latente. Este latente luego pasa por N bloques de transformer de difusión, los cuales atienden a la incrustación de texto (de umT5) mediante cross-attention. Finalmente, el decodificador Wan-VAE reconstruye los fotogramas del video. Este diseño – que presenta un “codificador/decodificador VAE causal 3D rodeando un transformer de difusión” (ar5iv.org) – permite una compresión eficiente de los datos espaciotemporales y soporta salidas de video de alta calidad.
Esta innovadora arquitectura—que presenta un “codificador/decodificador VAE causal 3D rodeando un transformer de difusión”—permite una compresión eficiente de los datos espaciotemporales y soporta salidas de video de alta calidad.
El Wan-VAE está especialmente diseñado para videos. Comprime la entrada por factores impresionantes (temporal 4× y espacial 8×) en un latente compacto antes de decodificarlo de nuevo a video completo. El uso de convoluciones 3D y capas causales (que preservan el tiempo) asegura movimiento coherente en todo el contenido generado.

Figura: Framework Wan-VAE de Wan 2.1 (codificador-decodificador). El codificador Wan-VAE (izquierda) aplica una serie de capas de reducción (“Down”) al video de entrada (forma [1+T, H, W, 3]
fotogramas) hasta que llega a un latente compacto ([1+T/4, H/8, W/8, C]
). El decodificador Wan-VAE (derecha) realiza un upsampling simétrico (“UP”) de este latente de vuelta a los fotogramas originales. Los bloques azules indican compresión espacial y los naranjas, compresión combinada espacial+temporal (ar5iv.org). Al comprimir el video por 256× (en volumen espaciotemporal), Wan-VAE hace factible el modelado de video en alta resolución para el modelo de difusión subsecuente.
Cómo ejecutar Wan 2.1 en tu propio ordenador
¿Listo para probar Wan 2.1 tú mismo? Así es como puedes empezar:
Requisitos del sistema
- Python 3.8+
- PyTorch ≥2.4.0 con soporte CUDA
- GPU NVIDIA (8GB+ VRAM para el modelo 1.3B, 16-24GB para modelos 14B)
- Librerías adicionales del repositorio
Pasos de instalación
Clona el repositorio e instala las dependencias:
git clone https://github.com/Wan-Video/Wan2.1.git cd Wan2.1 pip install -r requirements.txt
Descarga los pesos del modelo:
pip install "huggingface_hub[cli]" huggingface-cli login huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
Genera tu primer video:
python generate.py --task t2v-14B --size 1280*720 \ --ckpt_dir ./Wan2.1-T2V-14B \ --prompt "A futuristic city skyline at sunset, with flying cars zooming overhead."
Consejos de rendimiento
- Para equipos con memoria GPU limitada, prueba el modelo t2v-1.3B más ligero
- Usa los flags
--offload_model True --t5_cpu
para descargar partes del modelo a la CPU - Controla la relación de aspecto con el parámetro
--size
(por ejemplo, 832*480 para 16:9 480p) - Wan 2.1 ofrece extensión de prompts y “modo inspiración” mediante opciones adicionales
Como referencia, una RTX 4090 puede generar un video de 5 segundos a 480p en unos 4 minutos. Se admiten configuraciones multi-GPU y diversas optimizaciones de rendimiento (FSDP, cuantización, etc.) para uso a gran escala.
Por qué Wan 2.1 es importante para el futuro del video con IA
Como una potencia de código abierto que desafía a los gigantes en la generación de video con IA, Wan 2.1 representa un cambio significativo en accesibilidad. Su naturaleza libre y abierta significa que cualquiera con una GPU decente puede explorar la generación de video de vanguardia sin cuotas de suscripción ni costes de API.
Para los desarrolladores, la licencia de código abierto permite personalizar y mejorar el modelo. Los investigadores pueden ampliar sus capacidades, mientras que los profesionales creativos pueden prototipar contenido de video rápida y eficientemente.
En una era en la que los modelos de IA propietarios están cada vez más encerrados tras muros de pago, Wan 2.1 demuestra que el rendimiento de última generación puede democratizarse y compartirse con la comunidad en general.
Preguntas frecuentes
- ¿Qué es Wan 2.1?
Wan 2.1 es un modelo de generación de video con IA completamente de código abierto desarrollado por el Tongyi Lab de Alibaba, capaz de crear videos de alta calidad a partir de indicaciones de texto, imágenes o videos existentes. Es gratuito, admite múltiples tareas y funciona eficientemente en GPUs de consumo.
- ¿Qué características hacen destacar a Wan 2.1?
Wan 2.1 admite generación de video multitarea (texto a video, imagen a video, edición de video, etc.), renderizado de texto multilingüe en videos, alta eficiencia con su Video VAE causal 3D, y supera a muchos modelos comerciales y de código abierto en benchmarks.
- ¿Cómo puedo ejecutar Wan 2.1 en mi propio ordenador?
Necesitas Python 3.8+, PyTorch 2.4.0+ con CUDA y una GPU NVIDIA (8GB+ de VRAM para el modelo pequeño, 16-24GB para el modelo grande). Clona el repositorio de GitHub, instala las dependencias, descarga los pesos del modelo y utiliza los scripts proporcionados para generar videos localmente.
- ¿Por qué es importante Wan 2.1 para la generación de video con IA?
Wan 2.1 democratiza el acceso a la generación de video de última generación al ser de código abierto y gratuito, permitiendo a desarrolladores, investigadores y creativos experimentar e innovar sin muros de pago ni restricciones propietarias.
- ¿Cómo se compara Wan 2.1 con modelos como Sora o Runway Gen-2?
A diferencia de alternativas de código cerrado como Sora o Runway Gen-2, Wan 2.1 es completamente de código abierto y se puede ejecutar localmente. Generalmente supera a modelos de código abierto anteriores y iguala o supera a muchas soluciones comerciales en benchmarks de calidad.
Arshia es ingeniera de flujos de trabajo de IA en FlowHunt. Con formación en ciencias de la computación y una pasión por la IA, se especializa en crear flujos de trabajo eficientes que integran herramientas de IA en las tareas cotidianas, mejorando la productividad y la creatividad.

Prueba FlowHunt y crea soluciones de IA
Empieza a crear tus propias herramientas de IA y flujos de trabajo de generación de video con FlowHunt o agenda una demo para ver la plataforma en acción.