Blogi on tuotettu osana Uuden Teknologian Oppimisalusta -hanketta jossa luodaan verkkokoulutusalusta Etelä-Karjalan alueen yritysten, organisaatioiden ja koulutustahojen oppimistarpeiden mukaan. UTO2024 -hanke kehittää Etelä-Karjalan alueen kasvua sekä osaamista uusien teknologioiden osalta. Hanke on Euroopan unionin osarahoittama.
Uusien teknologioiden oppimisalusta auttaa yrityksiä oppimaan uusista teknologioista ja kouluttamaan henkilöstöään esimerkiksi tekoälyn, ohjelmistorobotiikan ja muiden uusien teknologioiden osalta.
Mainosvideon luominen tekoälyllä - testissä Runway Gen-3 Alpha
Moni on varmasti tietoinen tekoälyn nopeasta kehityksestä, mutta uusien ja päivitettyjen tekoälymallien testaaminen aiheuttaa hämmästystä kerta toisensa jälkeen!
Tekstistä videoksi generoivien tekoälymallien (text-to-video) nopeasti sosiaaliseen mediaan noussut kehitys ja uusien mallien, kuten LumaLabs:in dreammachine ja Runway:n Gen 3 Alpha julkaisujen ansiosta päätimme kokeilla tekoälyllä luodun mainosvideon tuottamista.
Blogissa käsitellään seuraavia aiheita:
- Mitä Video AI kentällä tapahtuu
- Miten tekoälyllä voidaan tuottaa mainosvideo
- Mitä tekoälyllä tuotettu mainos maksaa ja kauan siihen menee
- Mietteitä videon tuottamisesta Runway:lla
Millä tekoälytyökaluilla voi luoda videota
Videota luovien tekoälymallien osalta kesä on ollut kiireistä aikaa. LumaLabs julkaisi paljon puhutun Dream machinen, Runway julkaisi kehityksessä olevan gen-3 Alpha mallinsa ja Kiinasta nousi laadukasta ja todentuntuista videota luova Kling AI, jonka täysi versio on saatavilla vain Kiinassa tai kiinalaisella puhelinnumerolla.
Tekstistä tai kuvasta videoksi luovien tekoälymallien kyvykkyys ja luotujen videoiden laatu nousee lähitulevaisuudessa varmasti kilpailusta aiheutuvien päivitysten ja parannusten myötä. Puhumattakaan vielä kehitteillä sekä vain harvoille ja valituille saatavilla olevista OpenAI Sora:sta ja Googlen VEO -projektista joiden julkaisuajankohtaa ei ole vielä ilmoitettu.
Pääset kokeilemaan työkaluja ilmaiseksi sivun alaosassa olevista linkeistä.
Testissä käytetyt tekoälytyökalut/sovellukset
- Runway Gen-3 Alpha: 5-10 sekunnin videoiden luominen tekstikomennosta
- Topaz Labs Video AI 5: Videopätkien resoluution ja fps:n (eli frames per second arvon) suurentaminen
- OpenAI ChatGPT-4o: käsikirjoituksen parantaminen
- ElevenLabs: Käsikirjoituksen generoiminen puheeksi
Testiin valittiin Runwayn Alpha versiossa oleva Gen-3 malli, sillä sen aiempien mallien käytöstä löytyi jo kokemusta, sen kustannukset vaikuttivat pienemmiltä kuin Luma:n mallissa ja sen kameranhallintaa sekä text-to-video kyvykkyyttä on kehuttu sosiaalisessa mediassa.
Koska Runway Gen-3 Alpha kykenee luomaan tällä hetkellä maksimissaan 720p (HD) laatuista videota, tarvitaan videoiden laadun parantamiseen toistaiseksi toinen tekoälytyökalu.
Videoiden laadun parantamiseen käytettiin Topaz Labs:in Video AI 5 -työkalua. Sen avulla heikkolaatuisesta pieniresoluutioisesta videosta saadaan luotua korkeamman laatuista. Testissä käytimme Topaz:in työkalua 720p 24fps videon konvertoimiseksi 1080p 50fps videoksi. Toinen tärkeä ominaisuus Topaz:in työkalussa on videon fps:n (frames per second) parantaminen. Enemmän kuvia sekunnissa tarkoittaa videossa sulavampaa liikettä ja kuvaa.
Lopuksi valmiiksi kirjoitetusta ja OpenAI:n uusimman mallin Chat gpt 4o:n avulla parannellusta käsikirjoituksesta luotiin videolle kertojaääni ElevenLabs:ia käyttäen. Elevenlabs tarjoaa paljon työkaluja ihmisen ääntä jäljittelevistä äänistä ääniefektien luomiseen tekstikomennosta. Testissä luodussa videossa ei käytetty Elevenlabsin luomia äänitehosteita.
Vasemmalla alkuperäinen 1280x768 24fps laatuinen video, oikealla Topaz Video AI:lla 2x upscalettu 2560x1536 50fps video
Mitä tekoälyllä tuotettu video maksaa ja paljon se vie aikaa?
Siitä asti, kun OpenAI toi generatiivisen tekoälyn yleiseen käyttöön ja tietoisuuteen, on puhuttu tekoälyn tehostavan sisällöntuotantoa sekä ajallisesti että kustannusten kannalta. Mitä siis maksaa tekoälyllä tuotettu mainosvideo ja miten paljon sen tuottamiseen kuluu aikaa?
Alla olevassa tekstissä puhutaan sivun alussa näkyvästä tuottamastamme testivideosta, joka on noin 1min 30s pitkä.
Ajankäyttö
Aikaa tekoälyllä tuotetun videon tuottamiseen kului hieman alle 30 tuntia, sisältäen kaiken ideoimisesta, suunnittelusta ja käsikirjoittamisesta, videopätkien ja äänen luomisesta videon leikkaamiseen ja editointiin. Ottaen kuitenkin huomioon, että aikaan sisältyy videotuotannosta tuttujen kameraliikkeiden ja kuvakulmien termien opiskelu.
Aikaan on otettu huomioon vain aktiivinen työaika, eli käytetty aika projektin parissa aktiivisesti. Tämä jättää esimerkiksi Topaz Video AI:n prosessointiajan (n. 8h) lasketun kokonaisajan ulkopuolelle.
Video ei myöskään ole missään nimessä täydellinen tai täysin loppuun hiottu. Videopätkien tuottamiseen olisi saatu kulumaan helposti kaksinkertainen aika, jos ne olisi tahdottu laadukkaan mainoksen tasoisiksi. Katsomalla videon tarkemmin voi siitä erottaa esimerkiksi ei haluttuja "artifakteja" eli esineitä tai muita objekteja, ihmisten raajojen yliluonnollista muodonmuutosta, auton muodon ja värin muuttumista, liikkeen epäluonnollisuutta sekä muuten epämuodostuneita objekteja, kuten rakennelmien yhdistymistä.
Lisäksi täytyy huomioida, että videoefektien, transitioiden sekä muun editoimisen tekemiseen kuluu paljon aikaa, testissä pyrittiin editoimaan videota mahdollisimman vähän.
Kustannukset
Runway toimii krediitti-pohjaisesti, eli tietynlaista virtuaalivaluuttaa käyttäen. Käyttäjä saa tietyn määrän kredittejä kuukausitilauksen yhteydessä, mutta lisäkredittejä voi ostaa myös erikseen.
Kredittien yksikköhinta riippuu tilaustasosta. Lisäksi kuukausitilauksen mukana tulevien kredittien yksikköhinta on jopa kaksinkertainen erikseen ostettuihin kreditteihin verrattuna. On kuitenkin hyvä tiedostaa, että kuukausitilaus on pakollinen lisäkredittien ostajalle.
Yhden sekunnin videon generoiminen maksaa Runway Gen-3:lla 10 kredittiä. Testiin kului noin 3000 kredittiä jolla luotiin noin 300 sekuntia videota. Tästä 300 sekunnista alle 100 sekuntia päätyi lopulliselle videolle. Testin raakavideoiden luomiseen kului Runway Gen-3 Alpha:lla hieman alle 32 euroa.
Prosessin aikana nousseita mietteitä
Runwayn uusin malli tuottaa yllättävän laadukasta videota, mutta ymmärretävästikin sen ollessa Alpha-versio siinä on vielä hieman puutteita. Kuvasta videoksi luotaessa mallista puuttuu aiemmissa malleissa olevat videon luontia helpottavat kamerahallinta sliderit ja liikutettavien alueiden valintaan käytettävä motion brush. Gen-3 Alpha pystyy generoimaan tällä hetkellä lisäksi maksimissaan 720p laatuista videota, joka pakottaa käyttäjän hyödyntämään lisäksi muita työkaluja halutessaan korkeamman laatuista videota.
Yksi asia mikä Runwayn uusimman mallin (sekä myös muiden videota luovien tekoälymallien) käytössä mainoksen generoimiseen tulee ottaa huomioon on sen kyvyttömyys luoda sama hahmo tai objekti uudelleen. Erittäin tarkalla promptilla, valmiin kuvan syöttämällä sekä tuotoksen “seedin” kopioimalla on mahdollista luoda keskenään samankaltaisia tuloksia mutta esim tekstistä kuvaa tuottavista tekoälymalleista tuttu “character reference” ominaisuus puuttuu vielä.
Seed-arvoa uudelleen käyttämällä tekoäly pyrkii luomaan alkuperäisen videon kaltaista lopputulosta.
Character reference-ominaisuudella tekoäly voidaan opettaa luomaan hahmon nimellä sama hahmo. Tällöin hahmo voidaan uudelleenluoda eri ympäristöissä sekä tilanteissa.
Testissä kaikki videopätkät luotiin kirjoittamalla prompti, eli tekstikomento. Runway tarjoaa tämän lisäksi mahdollisuuden käyttäjälle syöttää ennaltaluotu kuva, jonka pohjalta malli alkaa luomaan videota. Kuvan syöttämällä käyttäjä saa ennaltamääritettyä tarkemmin generoidun videon esineiden, hahmojen sekä ympäristön ulkonäköä. Tätä ominaisuutta käyttäen oltaisiin voitu säästää kredittejä promptiyritysten vähentämisen kautta sekä saada esimerkiksi autosta hieman enemmän samannäköinen kohtauksesta toiseen.
Videota luodessa tekoälyllä säästyy merkittävästi aikaa kuvauspaikalta toiselle matkustamisessa sekä videolla esiintyvien etsimisessä ja aikataulujen sopimisessa. Kaikki onnistuu yhdessä paikassa yhdeltä laitteelta eikä kuvauspäivät ole esiintyjien tai luonnonilmiöiden varassa.
Kehitys ja päivitykset jatkuvat
Videota luovat tekoälytyökalut ovat kehittyneet viimeisen vuoden aikana todella paljon ja kilpailu eri valmistajien mallien välillä on kiristynyt. Tämä tarkoittaa tietysti mallien käyttäjille enemmän valinnanvaraa ja uusien työkalujen sekä päivitysten nopeampaa julkaisurytmiä.
Lähitulevaisuudessa voidaan odottaa ainakin Runway Gen-3 -mallin täyttä julkaisua, Kling AI:n täyden (maksullisen) version julkaisua länsimaihin sekä myös mahdollisesti OpenAI Soran laajennettua testausta.
Pääset kokeilemaan videota luovia tekoälymalleja täältä
Runway: https://app.runwayml.com/login (kirjautumalla pääset kokeilemaan Runwayn malleja)
Luma Labs Dream machine: https://lumalabs.ai/dream-machine/creations (kirjautumalla google-tilillä pääset kokeilemaan Dream machinea HUOM. ilmaisversiolla videoiden generoimisessa saattaa kestää jopa tunteja riippuen kysynnästä)
Kling AI: https://klingai.com/ (luo käyttäjä sähköpostillasi ja pääset kokeilemaan työkalua)
31.7.2024
Aaro Kauria
Markkinointiasiantuntija
aaro@robocamp.fi
+358 44 776 6631