Tekoäly kuvanteossa 2023

Vilkaisu uhkien ja mahdollisuuksien taakse


Tekoälypohjaista kuvantekoa kohtaan esiintyy nyt paljon kritiikkiä. Vahvasti esillä on kysymys kuvien luvattomasta käytöstä koulutusaineistona, mitä pidetään syynä siihen että yksittäisen taitelijan tyylin jäljittely on tullut helpoksi. Toisaalta samalla voidaan tekoälyä myös vähätellä, luonnehtimalla se ”pelkäksi matematiikaksi”.

Lähdetään liikkeelle tästä jälkimmäisestä väitteestä. Matematiikan pohjalle neuroverkot toki rakentuvat, mutta oikeamman mielikuvan niiden luonteesta ja mahdollisuuksista saa vasta kun alkaa hahmottaa niiden kykyä sisäistää monimutkaisia tilastollisia riippuvuuksia, mikä tässä merkitsee kykyä asetella pikselit mielekkääseen järjestykseen, kuvaksi, lumisadekohinan sijaan. Ajatus on ensi alkuun outo, mutta tämän kynnyksen yli kannattaa päästä, jos aikoo ymmärtää tätä tekniikkaa.  

Kuvaa hahmottava ja tekevä neuroverkko on oppinut todennäköisyydet kuinka pikselit voivat järjestyä toisiinsa nähden. Tietynlainen todennäköisyysjakauma synnyttää viivan, vähän mutkikkaampi myös lyijykynän jäljen. Värit ja valöörit eivät esiinny kuvissa satunnaisesti. Likimain samanväriset alueet hahmottuvat kenties pinnoiksi, joissa pienemmät paikalliset vaihtelut näkyvät tekstuurina, hitaammin muuttuvat sävyn muutokset taas kenties valoina ja varjoina.

Ylemmällä tasolla vaikuttavat todennäköisyysjakaumat hallitsevat tekstuureja ja muotoja, vieläkin ylemmät tasot kuvan sisältöä ja tyyliä. Tällainen matematiikan päälle rakentuva kokonaisuus, melkoisen kattava maailman visuaalisen hahmon ja kuvallisen ilmaisun sisäistys, ei ole enää mikään triviaali mekanismi. Siihen kannattaa suhtautua vakavasti, jos kohta myös kriittisesti. Mitkä sen mahdollisuudet, rajat ja puutteet ovat? Mitä se kertoo kuvan ja visuaalisuuden luonteesta?

Tässä kohtaa pitää pysähtyä ja tähdentää, että kuvallinen ymmärrys ei tallennu verkkoon kuvina, joita sitten jotenkin yhdistellään, vaan todellakin pikselimuotoisen ilmaisun eri tasojen todennäköisyysjakaumina. Ei myöskään ole välttämätöntä, että koulutuksessa olisi käytössä kaikki mahdolliset kuvat. Riittää että kultakin tasolta on riittävästi aineistoa, jotta sopivasti ohjattuna verkon avulla voidaan synnyttää mitä erilaisimpia kuvia.

Tällainen visuaalisen havainnon sisäistämiseen painottunut verkko ei vielä yksinään osaa synnyttää tietyn sisältöistä tai tyylistä kuvaa, siihen tarvitaan jokin ohjaus. Ehkä kiehtovinta kokeilevalle tekoälytaiteilijalle on etsiä oma tapansa käyttää omaa kuvamateriaaliaan sekä useita erilaisia ohjaustapoja kuvaa synnyttämään. 

Omasta näkökulmastani valmiit sovellukset eivät ole ollenkaan kiinnostavia, haluan itse etsiä ilmaisua omia teitäni. Silti nekin ovat erittäin monipuolisia kuvallisen ilmaisun työkaluja myös vakavaan taiteelliseen työhön. Todennäköisyysjakaumien pohjalta voi aika helposti generoida jo sellaisenaan vaikuttavia kuvia, mikä riittää satunnaiselle kokeilijalle, mutta tarvitaan luovan ihmisen ohjausta päästä vähemmän todennäköiseen mutta silti kiinnostavaan suuntaan. Ja vaikka tekoälymallin kyky ymmärtää kuvaa voi olla ällistyttävän hyvä ja laaja, sillä ei tietenkään ole kytköstä maailmaan pikselikuvien ulkopuolella. Ihmistä tarvitaan myös antamaan kuville konteksti, tai ohjaamaan kuvia tiettyyn kontekstiin ja hakemaan niille haluttu esteettinen asu.

Suurta yleisöä ja kaupallista käyttöä kiinnostaa toki enemmän tekstiin perustuva ohjaus. joka tuli mahdolliseksi aika tarkkaan kaksi vuotta sitten, kun OpenAI julkaisi CLIP:in jolla pystyttiin vertaamaan pikselikuvaa annettuun tekstiin. Meni kuitenkin vielä yli vuosi ennenkuin tekstipohjainen kuvasynteesi sai todella laajaa huomiota; tässä vaiheessa tekstiohjaus oli jo integroitu samaan verkkoon kuvanteon kanssa, kuvan laatua parannettu ja paketoitu tekniikka helppokäyttöisiksi sovelluksiksi. 

Tekstiohjaus voi myös olla jonkinlainen kangastus, vaikka se tarjoaakin oikotien tietynlaisiin kuviin. Kieli riittää ehkä sisällön kuvaamiseen, mutta ei kovinkaan pitkälle kuvan visuaalisen luonteen säätämiseen. Menetelmiin ja työkaluihin onkin tullut mahdollisuuksia käyttää myös kuvallista aineistoa. Itselleni tämä on koko ajan ollut pääasiallinen ohjauskeino: mistä kuvasta lähdetään, millaisista kuvista otetaan mallia, tekstin olen ottanut siihen rinnalle jonkinlaiseksi lisämausteeksi. Uskoisin että tämmöinen lisääntyy, kuvanteon kielellinen käänne kääntyy takaisin kohti visuaalisuutta.

Kun teknologia nähdään uhkana, se usein hahmotetaan kokonaan tämän uhkan kautta. Kuvaa hahmottava ja tekevä tekoäly ei kuitenkaan ensisijaisesti ole kehitetty siksi että voitaisiin jäljitellä eri taiteilijoiden teoksia. Itse asiassa tämän teknologian mahdollisuudet ovat vasta haussa, eikä kyse ole pelkästään kuvista, vaan eri medioiden (teksti, kuva, video, ääni) hahmottamisesta vieläpä toisiinsa vertailukelpoisessa muodossa, sekä tällaisen aidosti multimediaalisen hahmottamisen sovelluksista. Jotkut sovelluksista ovat tai tulevat olemaan ongelmallisia tai haitallisia. Ongelmiin pitää etsiä ratkaisut, mikä taas vaatii laaja-alaista ymmärrystä mistä on kysymys.

Kokonaisuuden kannalta ei ehkä ole kovin hyödyllistä osoittaa sormella jotain avoimen projektin kokoamaa koulutusmateriaalia, onko siellä minun kuviani luvattomasti. Avoimen hankkeen etu on sen läpinäkyvyydessä, toisin kuin kaupallisten toimijoiden keräämän koulutusaineiston kohdalla. Jos taas haluaa täysin estää omien kuviensa matkimisen, ne ehkä kannattaa poistaa netistä kokonaan: kuvia voidaan käyttää tyylin malleina vaikkei niitä olisi ollut verkon koulutuksessa alunperin mukana. Muutama kuva malliksi, siitä syntyy uusi tyylikäsite. Hankalaa tässä on se, että sama ominaisuus jonka avulla voin työstää ja kehitellä kuvia oman kuva-aineistoni pohjalta, sallii jonkun toisen matkia minun tyyliäni ottamalla netistä muutaman teoskuvan malliksi. 

 
Sitäkin kannattaa pohtia, mikä tässä jäljittelyssä ärsyttää. On varmaankin helpompi ärsyyntyä suuryritykselle, jonka näkee luvatta rahastavan omalla työllään, kuin vaikkapa teinille joka tekee kuvia ihailemansa taiteilijan mallin mukaan. Todellisuus sitten tässäkin leviää laajana skaalana näiden ääripäiden välille. En lopulta usko, että alan kehitys olisi vahvasti tekijänoikeuksien rikkomisen varassa, ainakaan avoimella puolella missä toimitaan läpinäkyvämmin ja ollaan rahoituksen kannalta riippuvaisempia yleisestä mielipiteestä.

Taiteessa ei kuitenkaan ole ollut tapana arvostaa jäljittelijöitä. Jos nyt on syntynyt kulttuureja, joissa jäljittelyllä saa arvostusta, siinäkin on jotain pielessä, ellei kyseessä ole ohimenevä ilmiö. Hankalin alue tullee olemaan kaupallinen kuvien käyttö, kone tekee mitä kuvaa hyvänsä nopeasti ja halvalla,  ja helposti kannattaa jäljitellä niin paljon kuin suinkin uskaltaa.

En ole tässä pyrkinyt antamaan vastauksia… enemmänkin valottamaan hiukan sitä mistä kaikesta tämä kokonaisuus koostuu.

Hannu Töyrylä 13.1.2023

Comments are closed