Wan 2.1: Avoimen lähdekoodin tekoälyvideon luomisen vallankumous

Wan 2.1: Avoimen lähdekoodin tekoälyvideon luomisen vallankumous

Wan 2.1 on tehokas avoimen lähdekoodin tekoälyvideon luontimalli Alibabalta, joka tuottaa studio-tasoista videota tekstistä tai kuvista – kaikille ilmaiseksi käytettäväksi paikallisesti.

Mikä on Wan 2.1?

Wan 2.1 (tunnetaan myös nimellä WanX 2.1) rikkoo uusia rajoja täysin avoimen lähdekoodin tekoälyvideon luontimallina, jonka on kehittänyt Alibaban Tongyi Lab. Toisin kuin monet omistusoikeudelliset videonluontijärjestelmät, jotka vaativat kalliita tilauksia tai API-pääsyä, Wan 2.1 tarjoaa vastaavaa tai parempaa laatua pysyen samalla täysin ilmaisena ja helposti saavutettavana kehittäjille, tutkijoille ja luoville ammattilaisille.

Wan 2.1:n tekee erityiseksi sen saavutettavuuden ja suorituskyvyn yhdistelmä. Pienempi T2V-1.3B-versio tarvitsee vain noin 8.2 GB GPU-muistia, joten se sopii useimmille moderneille kuluttajatason näytönohjaimille. Samaan aikaan suurempi 14B-parametrinen versio tarjoaa huipputason suorituskykyä, joka päihittää sekä avoimen lähdekoodin että monet kaupalliset mallit vakiotesteissä.

Ominaisuudet, jotka erottavat Wan 2.1:n

Monitehtävätuki

Wan 2.1 ei rajoitu vain tekstistä videoksi -generointiin. Sen monipuolinen arkkitehtuuri tukee:

  • Tekstistä videoksi (T2V)
  • Kuvasta videoksi (I2V)
  • Videosta videoon -editointia
  • Tekstistä kuvaksi -generointia
  • Videosta ääneksi -generointia

Tämä joustavuus tarkoittaa, että voit aloittaa tekstikehotteella, still-kuvalla tai jopa olemassa olevalla videolla ja muuntaa sen luovan näkemyksesi mukaisesti.

Monikielinen tekstin generointi

Ensimmäisenä videomallina, joka kykenee renderöimään luettavaa englantia ja kiinaa luoduissa videoissa, Wan 2.1 avaa uusia mahdollisuuksia kansainvälisille sisällöntuottajille. Tämä ominaisuus on erityisen hyödyllinen tekstitysten tai kohtaustekstien lisäämisessä monikielisiin videoihin.

Vallankumouksellinen Video VAE (Wan-VAE)

Wan 2.1:n tehokkuuden ytimessä on sen 3D-kausaalinen Video Variational Autoencoder. Tämä teknologinen läpimurto pakkaa tehokkaasti avaruudellista ja ajallista informaatiota, mahdollistaen mallin:

  • Pakata videot satoja kertoja pienempään kokoon
  • Säilyttää liikkeen ja yksityiskohtien tarkkuuden
  • Tukea korkearesoluutioisia (jopa 1080p) ulostuloja

Poikkeuksellinen tehokkuus ja saavutettavuus

Pienempi 1.3B-malli tarvitsee vain 8,19 GB VRAMia ja voi tuottaa 5 sekunnin, 480p-videon noin 4 minuutissa RTX 4090:llä. Tehokkuudestaan huolimatta sen laatu vastaa tai ylittää paljon suurempien mallien tason, tarjoten erinomaisen tasapainon nopeuden ja visuaalisen tarkkuuden välillä.

Alan johtavat vertailutulokset ja laatu

Julkisissa arvioinneissa Wan 14B saavutti korkeimman kokonaispistemäärän Wan-Bench-testeissä, päihittäen kilpailijat mm.:

  • Liikkeen laadussa
  • Vakautta
  • Kehotteen seuraamisen tarkkuudessa

Miten Wan 2.1 vertautuu muihin videonluontimalleihin

Toisin kuin suljetut järjestelmät kuten OpenAI:n Sora tai Runway:n Gen-2, Wan 2.1 on vapaasti ajettavissa paikallisesti. Se päihittää yleensä aiemmat avoimen lähdekoodin mallit (kuten CogVideo, MAKE-A-VIDEO ja Pika) sekä monet kaupalliset vaihtoehdot laatutesteissä.

Äskettäisessä alan kyselyssä todettiin, että ”monien tekoälyvideomallien joukossa Wan 2.1 ja Sora erottuvat” – Wan 2.1 avoimuudellaan ja tehokkuudellaan, Sora omistusoikeudellisella innovaatiollaan. Yhteisötesteissä käyttäjät ovat raportoineet Wan 2.1:n kuvasta videoksi -ominaisuuden päihittävän kilpailijat selkeydessä ja elokuvamaisessa tunnelmassa.

Teknologia Wan 2.1:n taustalla

Wan 2.1 rakentuu diffuusio-transformer -runkoon ja uuteen avaruudellis-aikaiseen VAE:hen. Näin se toimii:

  1. Syöte (teksti ja/tai kuva/video) koodataan Wan-VAE:lla latentiksi videorepresentaatioksi
  2. Diffuusiotransformeri (DiT-arkkitehtuuriin perustuva) denoisoi latenttia vaiheittain
  3. Prosessia ohjaa tekstienkooderi (monikielinen T5-versio nimeltä umT5)
  4. Lopuksi Wan-VAE:n dekooderi rekonstruoi ulostulovideon ruudut
Wan 2.1 high-level architecture

Kuvio: Wan 2.1:n korkean tason arkkitehtuuri (tekstistä videoksi). Video (tai kuva) koodataan ensin Wan-VAE-enkooderilla latentiksi. Tämä latentti kulkee N diffuusiotransformerilohkon läpi, jotka hyödyntävät tekstin upotusta (umT5:stä) ristiinhuomioinnin avulla. Lopuksi Wan-VAE-dekooderi rekonstruoi videon ruudut. Tämä rakenne – ”3D-kausaalinen VAE-enkooderi/dekooderi diffuusiotransformerin ympärillä” (ar5iv.org) – mahdollistaa avaruudellisen ja ajallisen datan tehokkaan pakkauksen ja tukee korkealaatuista videoulostuloa.

Tämä innovatiivinen arkkitehtuuri – ”3D-kausaalinen VAE-enkooderi/dekooderi diffuusiotransformerin ympärillä” – mahdollistaa avaruudellisen ja ajallisen datan tehokkaan pakkauksen ja tukee korkealaatuista videoulostuloa.

Wan-VAE on suunniteltu erityisesti videoita varten. Se pakkaa syötteen vaikuttavilla kertoimilla (ajallisesti 4× ja avaruudellisesti 8×) kompaktiksi latentiksi ennen kuin dekoodaa sen takaisin täydeksi videoksi. 3D-konvoluutioiden ja kausaalisten (aikaa säilyttävien) kerrosten käyttö varmistaa yhtenäiset liikkeet läpi tuotetun sisällön.

Wan 2.1 Wan-VAE framework

Kuvio: Wan 2.1:n Wan-VAE-rakenne (enkooderi-dekooderi). Wan-VAE-enkooderi (vasemmalla) käyttää syötevideolle (muoto [1+T, H, W, 3] ruudut) sarjan alasnäytteistäviä kerroksia (“Down”), kunnes saavutetaan kompakti latentti ([1+T/4, H/8, W/8, C]). Wan-VAE-dekooderi (oikealla) kasvattaa (“UP”) tämän latenttikoodin takaisin alkuperäisiksi videoruuduiksi. Siniset lohkot kuvaavat avaruudellista pakkausta, oranssit lohkot yhdistettyä avaruudellista ja ajallista pakkausta (ar5iv.org). Pakkaamalla videon 256× (avaruudellis-ajallisessa tilavuudessa), Wan-VAE mahdollistaa korkean resoluution videomallinnuksen myöhemmälle diffuusiomallille.

Kuinka ajaa Wan 2.1 omalla tietokoneellasi

Haluatko kokeilla Wan 2.1:tä itse? Näin pääset alkuun:

Järjestelmävaatimukset

  • Python 3.8+
  • PyTorch ≥2.4.0 CUDA-tuella
  • NVIDIA-näytönohjain (8GB+ VRAM 1.3B-mallille, 16-24GB 14B-malleille)
  • Lisäkirjastot reposta

Asennusohjeet

  1. Kloonaa repositorio ja asenna riippuvuudet:

    git clone https://github.com/Wan-Video/Wan2.1.git
    cd Wan2.1
    pip install -r requirements.txt
    
  2. Lataa mallin painot:

    pip install "huggingface_hub[cli]"
    huggingface-cli login
    huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
    
  3. Luo ensimmäinen videosi:

    python generate.py --task t2v-14B --size 1280*720 \
      --ckpt_dir ./Wan2.1-T2V-14B \
      --prompt "A futuristic city skyline at sunset, with flying cars zooming overhead."
    

Suorituskykyvinkit

  • Jos GPU-muisti on rajallinen, kokeile kevyempää t2v-1.3B-mallia
  • Käytä lippuja --offload_model True --t5_cpu mallin osien siirtoon prosessorille
  • Säädä kuvasuhdetta --size-parametrilla (esim. 832*480 tuottaa 16:9 480p-videon)
  • Wan 2.1 sisältää kehotteen laajennuksen ja ”inspiraatiotilan” lisävalinnoilla

Viitteeksi: RTX 4090 tuottaa 5 sekunnin 480p-videon noin 4 minuutissa. Moni-GPU-kokoonpanot ja erilaiset suorituskykyoptimoinnit (FSDP, kvantisointi ym.) ovat tuettuja laajamittaiseen käyttöön.

Miksi Wan 2.1 on tärkeä tekoälyvideon tulevaisuudelle

Avoimen lähdekoodin voimanpesänä Wan 2.1 haastaa tekoälyvideon jättiläiset ja edustaa merkittävää muutosta saavutettavuudessa. Sen ilmainen ja avoin luonne tarkoittaa, että kuka tahansa hyvällä näytönohjaimella voi kokeilla huipputason videonluontia ilman tilaushintoja tai API-kuluja.

Kehittäjille avoimen lähdekoodin lisenssi mahdollistaa mallin räätälöinnin ja kehittämisen. Tutkijat voivat laajentaa sen kyvykkyyksiä, ja luovat ammattilaiset voivat prototypoida videota nopeasti ja tehokkaasti.

Aikana, jolloin omistusoikeudelliset tekoälymallit ovat yhä useammin maksumuurien takana, Wan 2.1 osoittaa, että huipputason suorituskyky voidaan demokratisoida ja jakaa koko yhteisölle.

Usein kysytyt kysymykset

Mikä on Wan 2.1?

Wan 2.1 on täysin avoimen lähdekoodin tekoälyvideomalli, jonka on kehittänyt Alibaban Tongyi Lab. Sillä voi luoda korkealaatuisia videoita tekstikehotteista, kuvista tai olemassa olevista videoista. Se on ilmainen, tukee useita tehtäviä ja toimii tehokkaasti kuluttajatason näytönohjaimilla.

Mitkä ominaisuudet tekevät Wan 2.1:stä ainutlaatuisen?

Wan 2.1 tukee monitehtäväistä videonluontia (tekstistä videoksi, kuvasta videoksi, videon editointi jne.), monikielistä tekstin renderöintiä videoissa, korkeaa tehokkuutta 3D-kausaalisen Video VAE:n ansiosta ja päihittää monet kaupalliset sekä avoimen lähdekoodin mallit vertailutesteissä.

Kuinka voin ajaa Wan 2.1:stä omalla tietokoneellani?

Tarvitset Python 3.8+:n, PyTorch 2.4.0+ -version CUDA-tuella sekä NVIDIA-näytönohjaimen (8GB+ VRAM pienemmälle mallille, 16-24GB isolle mallille). Kloonaa GitHub-repositorio, asenna riippuvuudet, lataa mallin painot ja käytä mukana tulevia skriptejä videoiden luomiseen paikallisesti.

Miksi Wan 2.1 on tärkeä tekoälyvideon luonnille?

Wan 2.1 demokratisoi huipputason videonluontia olemalla avoimen lähdekoodin ja ilmainen, jolloin kehittäjät, tutkijat ja luovat voivat kokeilla ja innovoida ilman maksumuureja tai omistusoikeudellisia rajoituksia.

Miten Wan 2.1 vertautuu malleihin kuten Sora tai Runway Gen-2?

Toisin kuin suljetun lähdekoodin vaihtoehdot kuten Sora tai Runway Gen-2, Wan 2.1 on täysin avoin ja sitä voi ajaa paikallisesti. Se päihittää yleensä aiemmat avoimen lähdekoodin mallit ja vastaa tai ylittää monia kaupallisia ratkaisuja laatutesteissä.

Arshia on AI-työnkulkuinsinööri FlowHuntilla. Tietojenkäsittelytieteen taustalla ja intohimolla tekoälyyn hän erikoistuu luomaan tehokkaita työnkulkuja, jotka integroivat tekoälytyökaluja arjen tehtäviin, parantaen tuottavuutta ja luovuutta.

Arshia Kahani
Arshia Kahani
AI-työnkulkuinsinööri

Kokeile FlowHuntia ja rakenna tekoälyratkaisuja

Aloita omien tekoälytyökalujen ja videonluontiprosessien rakentaminen FlowHuntilla tai varaa demo nähdäksesi alustan toiminnassa.

Lue lisää

Gemini Flash 2.0: AI nopeudella ja tarkkuudella
Gemini Flash 2.0: AI nopeudella ja tarkkuudella

Gemini Flash 2.0: AI nopeudella ja tarkkuudella

Gemini Flash 2.0 asettaa uudet standardit tekoälylle parannetulla suorituskyvyllä, nopeudella ja multimodaalisilla kyvyillä. Tutustu sen mahdollisuuksiin tosiel...

2 min lukuaika
AI Gemini Flash 2.0 +4
LangChain
LangChain

LangChain

LangChain on avoimen lähdekoodin kehys, joka on suunniteltu sovellusten kehittämiseen suurten kielimallien (LLM) avulla. Se helpottaa tehokkaiden LLM-mallien, k...

1 min lukuaika
LangChain LLM +4
Large Language Model Meta AI (LLaMA)
Large Language Model Meta AI (LLaMA)

Large Language Model Meta AI (LLaMA)

Large Language Model Meta AI (LLaMA) on huippuluokan luonnollisen kielen käsittelymalli, jonka on kehittänyt Meta. Jopa 65 miljardilla parametriarvolla LLaMA lo...

2 min lukuaika
AI Language Model +6