Tekstifragmentista videoteokseksi (imartelevan tekoälykollegan tuella)

Kirjoitan paljon vapaamuotoista tekstiä. Usein tuloksena on runonkaltaisia juoksutuksia ja fragmentteja. Tämän tekstin lähtökohtana oli vapaamuotoisen kirjoittamisen katkelma, josta tässä karsittu ja hiotumpi versio:

mutta kummallisinta on miten
tuskallista
ennen rakastin itseäni, kaikella
teini-ikäisen epävarmuudella tietysti, mutta
silti: sitä vain laski lyijykynän kärjen paperille
kuin neulan vinyylilevyn kehälle ja
antoi ajatusten rahista
ehkä se oli tupakka, helppo
nautintoaine, niin kevyt että
nautinto tuskin lainkaan,
mutta antoi mahdollisuuden katsella
ihmisiä tai kuvitelmiaan
ihmisten yli

Jostakin on aloitettava

Kuvittelin ensin, että teen tästä vain yksinkertaisen version suomeksi: luetutan tekstin Elevenlabsissa omalla äänikloonillani, liimaan siihen muutaman tekoälyllä tuotetun kuvan, ja siinä se.

Sitten tulin ajatelleeksi, että ehkä teksti kannattaisi samalla ryhtymällä tehdä englanniksi. Koska en ollut heti aivan varma, päätin aloittaa kuvilla.

Määrittelin ensin tyylin: hakisimme rakeista ja väreiltään hieman haalistunutta valokuvaa jostakin 90-luvun suunnalta. Tunnelma saisi siis olla nostalginen ja vanhahtava: tekstihän selvästi sijoittui muinaisiin aikohin, jolloin kahviloissa vielä polteltiin tupakkia.

Sitten kerroin ChatGPT:lle kuvien sisällöt. Kuvittelin aluksi, että kolme kuvaa riittäisi kattamaan tekstin. Se tuntuu jälkikäteen idioottimaiselta, sillä olen istunut editissä tuhansia tunteja, joten olisihan minun pitänyt tietää paremmin. Jostakin on kuitenkin aloitettava.

Ikiaikainen taistelu: Midjourney vs Dall-E

Ajattelin että tekisin kuvat Midjourneyssä, koska laatuero sen eduksi on yleensä ollut huomattava. Päätin kuitenkin antaa tuoreimmalle ChatGPT 4o:n sisäiselle Dall-E-mallille mahdollisuuden. Jo heti ensimmäiset kuvat osuivat minusta niin tarkkaan maaliin, ettei tarvetta kilpailutukselle ollut.

Siispä itse tuotantoon. Kerroin että ensimmäisessä kuvassa nähtäisiin etualalla “hieman androgyyninen käsi”, joka pitelee tupakkaa. Päähenkilöstä ei vielä toistaiseksi nähtäisi muuta. Taka-ala olisi epäterävä, ja siellä näkisimme kahvilan muita asiakkaita.

Sama henkilö esiintyisi myöhemmässä kuvassa myös näkyvänä, jolloin yksinkertaisesti näkisimme hänet tupakansavun ympäröimänä (tekstin aiemmasta versiosta oli karsittu kohta, jossa sanottiin, miedon ironisesti, että “savupilveen verhoutuva ihminen on aina näyttänyt hyvältä valokuvissa”).

Ja kolmanneksi, aiempien väliin, ajattelin yksinkertaista kuvaa, jossa vanha vinyylisoitin yksinkertaisesti pyörittäisi anonyymiä kiekkoa. Se oli kuvista ainoa jonka promptia jouduin täydentämään. Toisella yrityksellä tarkensin, että levysoitin olisi puisella lattialla (ja kamera sitä lähellä), kun taas taustalla olisi avarahko huone, johon tulvisi ikkunoista kesäistä valoa. Muuten tyhjään huoneeseen kuvittelin detskuksi ajan hengen mukaisen jukkapalmun.

Raskasta työtä kadulla

Kuvia tehtaillessa olin samalla päättänyt, että itse toteutus tehtäisiin englanniksi. Tekoälyn kulmasta tehtävään limittyi kaksi kulmaa: suomenkielinen teksti pitäisi hinkata kuntoon, ja tehdä siitä samalla mahdollisimman hyvä englanninkielinen versio.

Tässä vaiheessa ajattelin vielä, että molemmat kielet tulisivat lopulliseen kuvaan tavanomaisena tekstityksenä. Se kyllä huolestutti, sillä ruutu tulisi helposti tosi täyteen sinänsä toisarvoista tekstisisältöä. Olisin sitä paitsi halunnut säilyttää rivitykseni edes osittain. Jätin ratkaisun muhimaan ja kypsymään itsekseen.

Kopioin siis raakatekstin uuden chat-ikkunan alkuun, ja kerroin koneelle että ryhdyn työstämään sitä puheliittymällä. Sitten napsautin ChatGPT:n hieman ärsyttävän puheliittymän päälle.

Oli yksi ensimmäisistä kesäisten lämpimistä illoista, joten siirsin työpisteeni kadulle, firman eteen. Kaadoin lasillisen roséeta ja kannoin ulos klaffituolin. Pöytää ja läppäriä en viitsinyt tuoda, joten ChatGPT pyöri puhelimessani.

Tyylikiistoja ja sisällön hiontaa

Alku sujui hyvin. En muistanut säkeitä ulkoa, joten ohjeistin AI:n lukaisemaan aina muutaman säkeen, jonka jälkeen kertoisin miten sitä muutetaan. Hiotusta tekstistä tehtäisiin aina sitten välittömästi myös englanninkielinen versio.

ChatGPT:llä ei ollut kieliasuihin suuremmin huomauttamista, joskin englanninnosta työstettäessä kielimallin asiatekstitausta tuli melko selvästi esiin. Se pyrki jatkuvasti ehdottelemaan “korjauksia” miedosti epäortodoksiseen säkeiden rivijakotekniikkaani (jota kutsun epäkunnioittavasti yleensä viihdemaailmasta tutulla termillä “cliffhanger”).

Vaikka imarteluun taipuvainen botti-ystäväni heti kehuikin tekstiä yleisellä tasolla, se ei silti malttanut olla vienosti ehdottamatta muutamia tyylillisiä ja sisällöllisiä korjauksia.

2. “itseäni, teinin epävarmuudella, mutta”

Tämä on kielikuvana hieno ja auki pidetty. Jos haluat enemmän tiiviyttä, pieni rytmityksen muutos voisi tuoda selkeyttä:

itseäni – teinin epävarmuudella. Mutta

Mutta tämä on jo makuasia – toimii ilmavastikin.

Yleensä en botin ehdotuksiin suostunut. Koin että omat versioni olivat perusteltuja, enkä halunnut suostua helpompiin ilmaisuihin. Voi olla että se oli virhe, mutta ainakin teksti näin yhä tuntuu ja maistuu omaltani. Luulen että juuri nämä kymmenet pienet päätökset lopulta summaavat sen, tuntuuko teoksen estetiikka enemmän AI:n vai ihmisen ääneltä. Kuvien toteutukset tulivat pitkälti AI:lta, mutta nekin pyrin kyllä promptaamaan sen verran tarkasti, että katson kyllä määritelleeni niin visuaalisen ilmeen kuin kuvaohjauksenkin. Tekstin suhteen pidin johdonmukaisesti kiinni omista näkemyksistäni.

Paikoitellen myös englanniksi: esimerkiksi kohdassa jossa nyt sanotaan, että “still: just lower the pencil / like a needle / onto the vinyl perimeter”, halusin itse käyttää sanaa ”perimeter”, joka tekoälyn mielestä “saattoi kuulostaa vähän tekniseltä”. Se ehdotteli tilalle sanoja kuten ”groove”, ”edge” ja “surface” vuolaine perusteluineen. Ne olisivat toki olleet sujuvia valintoja, mutta koin tuon valitsemani “teknisen” termin tuovan juuri sellaista muodollista etäännyttämistä, jota tähän kohtaan halusin.

Oliko se oikea ratkaisu? Mene tiedä. En pysty sitä itse arvoimaan, mutta taiteellisissa ratkaisuissa koen tekoälyn usein varman päälle pelaavaksi byrokraatiksi, ja sellainenhan ei taiteellisempaan tekemiseen sovi. Kuuntelen kyllä sen ajatukset ja usein niitä punnitsenkin, mutta ainakaan oma taiteeni ei ole mitään selkokerrontaa.

Kun tekoäly unohtaa (tahallaan?)

Yksi ehkä hieman huolestuttavakin anekdootti tekstin tekemiseen vielä liittyy. Kesken kaiken AI:n rontti nimittäin näytti unohtavan sessiomme alkuosan. Jouduin maanittelemaan (ja välillä hieman rähjäämään, ihminen kun vain olen) moneen kertaan että se palaisi koko tekstin alkuun. Sitkeästi se aloitti noin puolivälistä, ja kysyi uudestaan ja uudestaan “haluaisitko tehdä tähän vielä muotoiluja, vai siirrytäänkö eteenpäin?”

Eikä siinä vielä mitään. Kuumottavampaa oli luvassa.

Kun myöhemmin palasin keskustelumme tekstiversioon, havaitsin että sen kirjaukset väittelystämme ovat lähes gaslighting-tasoa. Vannon että se puheversiossa jankkasi samaa kohtaa uudestaan ja uudestaan, mutta tekstiversiossa suurimmassa osassa minun repliikkieni kohdalla lukee “No transcription available”, ja välillä on pätkä todellista puhettani, mutta satuinnaisen oloisesti keskeltä pätkäistynä, ja todella huonosti vastaanotettuna (mikä sinänsä todistaa etten ole kuvitellut koko riitaa: “Ei, ei. Mä en tajua nyt, miksei joutu tohon kohtaan tai mitä se joudui tohon kohtaan ja ton toisteluun. Siis se linkkarin, niinkun, saatteen alku virke. Lue se mun.”)

Kaiken huipuksi tästä jankkaamisesta on minusta tallentunut vain kolmannes todellisesta. Se ei ole kovinkaan OK. Vaikka tässä kyseessä on vain taiteellisen sisällön hinkkaus, kuvitelkaa AI joka muuttaisi vaikkapa poliittisen linjapuheen sisällöt ja kehittelyprosessin jälkikäteen myöhempää konsensusta paremmin vastaavaksi.

Luonnollinen selitys tietenkin on, että jokin tiedon siirrossa tai käsittelyssä on vain pätkässyt. Mutta sitä se ei selitä, että tekoäly on itse kadottanut kokonaan kohdat, joissa se kymmeniä kertoja jankkasi vanhaa, ja kirjoittanut niiden tilalle omat, tositilannetta paremmat vastauksensa. Väliin on kuitenkin jäänyt muutamia minun puheenvuorojani, joissa vaadin lopettamaan vanhan jankkaamisen. Kaikki tämä vaikuttaa erittäin huolestuttavasti keskustelun kaunistelulta jälkikäteen. Enkä välttämättä pystyisi todistamaan mitään ongelmaa edes olleen, jos kyse olisi vakavammasta asiasta.

Mielestäni näitä selittämättömiä ja puhtaan pikkumokan ylittäviä toimintaongelmia on ChatGPT:n kanssa tullut lähiaikoina aika paljon. Kuulen mielelläni, jos sellaisia on osunut sinunkin kohdallesi.

Voiceoverien työjuhta

Mutta se siitä. Teksti oli saatu nyt kuntoon ja käännettyä. Oli aika kääntää siitä spiikkejä.

Elevenlabs on pitkään ollut ykkösvalintani puheen tuottamiseen. Ei vähiten siksi, että sen ääniklooni on yhdistettävissä suoraan Heygeniin. Kun tarvitsen oikein nopeaa videoavatar-tuotantoa, ei tarvitse välillä poistua Heygenistä, vaan saan Elevenlabsin huipputasoista ja ilmeikästä ääntä supernopeasti myös videoavatareihin. Kiireiselle julkaisijalle tämä on kullan arvoinen ominaisuus.

Eikä Elevenlabs pettänyt tälläkään kertaa.

Se ymmärtää minusta yllättävänkin hyvin tekstin emotionaalisen ytimen, ja tarjoaa yleensä suoraan hyvin oikeansuuntaista intonaatiota ja tulkintaa. Tai ehkä ajatteluni vain on sille sopivalla tavalla simppeliä. Niin tai näin, homma sujui taas teknisessä mielessä hyvin.

Runomuoto tuotti toki omia ongelmiaan sikäli, että tauotusta piti säätää kikkailemalla tekstiin kuulumattomia välimerkkejä, mutta se on vielä toistaiseksi ilmaisullisempien tekstien perustyövaihe. Valittamista ei ollut myöskään äänikloonini englannissa: paremmin se veti kuin minä itse, ja äänestä kuului aika sopivasti ettei tässä natiiveja olla, ilman että olisi menty ihan rallipäätyyn.

Ongelma oli enemmän siinä, etten lopulta oikein tykännyt omasta äänestäni tässä yhteydessä. No mutta. Ei muuta kuin ääni vaihtoon!

Muutaman kokeilun jälkeen päädyin Jen-nimiseen naispuoliseen, melkein liioitellun fiilistelevään ääneen. Alle 20 yrityksen jälkeen olin saanut tauotuksen ja sävyt kohdalleen, joten voiceover alkoi olla asennusta vaille valmis.

Sohvalla selällään, taas

Otin käyttöön puhelimessa suosimani videoeditorin, eli LumaFusionin. Siirryin lötköttämään firman sohvaan puhelin kädessä. Someen päätyvistä videoista huomaan nykyään tekeväni ylivoimaisesti suurimman osan juuri tällä editorilla ja tässä työasennossa.

LumaFusion ei ole käytettävyydeltään läheskään miellyttävin tai sujuvin editori. Sen helpommissa kilpailijoissa vain ei viime kerralla editoria valitessani ollut yhtä hyviä varsinkaan äänen, eikä edes värikorjailujen monitorointi- ja säätömahdollisuuksia. Toistaiseksi olen siis pysynyt LumaFusionissa.

Timeline on kuville kammottavan perso

Tällä kertaa aloitin lätkäisemällä timelinelle noin minuutin mittaisen äänen. Sitten sovitin noita kolmea stilliä paikoilleen. Oli heti päivän selvää, ettei mikään määrä hitaita zoomauksia tai kuvan sisäisiä tapahtumia toimisi. Samalla kypsyi oivallus tekstin mielikuvatiheydestä, joka elävään kuvaan verratessa häviää lukumäärässä sen minkä yksityiskohdissa voittaa. Tämä on yksi syy tekstin ja elokuvakielen vaativaan limittämiseen. Arvokas pohdinnan aihe, johon palaan joskus toisessa yhteydessä tarkemmin.

Oli siis ryhdyttävä tehtailemaan kuvia. Kuin vanha pajatso teksti luovutti kaksi tarvittavaa teemaa, suoraan ja metaforia (tai aasinsiltoja) vaatimatta. Itse tekstissähän mainittiin kynä, joka lasketaan paperille, mihin jo vihjattiinkin päähenkilön pöydällä olevan vihkon muodossa, sekä toisaalta kahvilan muu asiakaskunta katseen (ja hajamielisten kuvitelmien) kohteena.

Ensimmäisestä teemasta teetin kuvan, jossa kynän terä on laskettuna paperille, sekä version pelkällä tyhjällä paperilla. Luotin siihen, että videogeneraattori kykenisi luomaan niiden pohjalta ainakin jonkinlaisia piirroksia.

Toisesta teemasta teetin puolen tusinaa henkilökuvaa ja muutaman kuvan kokonaisista pöytäkunnista. AI-kuvia tehdessä ei aina suinkaan niin ole, mutta tällä kertaa valinta osoittautui erittäin ekonomiseksi: noin 80% kuvista päätyi käyttöön.

Runway herätti kuvat eloon yllättävän pätevästi

Vasta kaikkien näiden vaiheiden jälkeen päästiin herättämään kuvia henkiin. Nostalgian värittämän lyhyen harkinnan jälkeen päädyin hyödyntämään olemassa olevaa Runway-tiliäni. En kadu: ainakin näiden kuvien kanssa Gen-4 malli tuotti fantastista tulosta, suorastaan yllätyksellisen edistynyttä, kuten lopullisesta videostakin käy ilmi.

Mutta vielä oli ratkaistavana pari keskeistä ongelmaa. Ensinnäkin päätin lisätä muutaman ääniefektin: uloshengityksen ja vinyylisoittimen rahinan. Kumpikin efektiääni syntyi muutamassa minuutissa Elevenlabsin generaattorilla. Kummastakin taisin tehdä kaksi neljän ehdotuksen generointia, joista valitsin yhdet. Ja koska systeemi ei tehnyt oikein minua miellyttävää levyn paikoilleen juuttumista, tekaisin sellaisen käsin, ihan vain kopioimalla sopivalla rutinalla alkavaa rahinapätkää timelinelle peräkkäin.

Seuraavaksi tosiaan ajelin kaikki stillit Runwayn Gen-4-mallin läpi. Olin äimistynyt siitä, miten hienoa materiaalia syntyi. Vaikka hengästyttävän hienoja kilpailijoita ilmestyy markkinoille kaiken aikaa, Runway ei ole sekään näköjään jäänyt polkemaan paikoilleen. Minulle Runway on sikäli nostalginen ympäristö, että juuri siellä tein monet ensimmäisistä generatiivisen AI:n kokeiluistani.

Lopputekstit: hyvinhän se meni!

Paikoilleen tyhjälle rahinaraidalle juuttuneen äänilevyn toistuva raksahdus tarjosi niin oivallisen äänimotiivin lopputekstien rytmittämiseksi, että päätin jättää huomiotta sen tosiasian, että lopputekstit vievät nyt kolmanneksen koko lyhärin kokonaispituudesta. Halusin kuitenkin niiden taustalle vielä jonkinlaisen johtomotiivin. Sellaiseksi ajattelin tuhkakuppia, johon joku rööki on jäänyt savuamaan. Tumma tausta implikoi sulkemisaikaa. Ja sehän toimi.

On vaikea keksiä muuta työtapaa, jolla yksi ihminen saisi muutaman tunnin työllä aikaan yhtä paljon merkitsevää ja esteettistä materiaalia. Mitä ikinä generatiivisesta AI:sta ajatteleekin, pienille taideproduktioille se ainakin tarkoittaa mahdollisuutta ylittää sellaisia toteutuskynnyksiä, joita ei olisi missään muissa olosuhteissa voinut ylittää.

Ja tässä vielä lopullinen video: