Koneet ovat tulossa, ja ne kirjoittavat todella huonoa runoutta

Jos ja kun koneet ottavat vallan, se ei tule olemaan sellaista kuin uneksimme. Se ei tule olemaan kylmä, murhanhimoinen älykaiutin, tai albiino androidi, tai elävä kudos metallisen luurangon päällä, joka on itävaltalaisen kehonrakentajan muotoinen. Olisimme voineet arvata, että ne lopulta päihittäisivät meidät esimerkiksi shakissa. Ja Go:ssa. Ja kilpailullisissa videopeleissä. Mutta ne ovat kylmiä ja laskelmoivia tehtäviä, jotka sopivat koneille. Luulimme itsellemme, että ne olisivat aina vain tietokoneita: jäykkiä, rationaalisia, tunteettomia. Todella inhimilliset piirteet olisivat aina meidän. Lämmin, tahmea sydän, jota yksikään algoritmi ei voisi koskaan kopioida.

Todellisuudessa robotit tulevat kuitenkin olemaan paljon elävämpiä – ja sen vuoksi entistäkin levottomampia. Ne eivät kuulosta robottimaisilta, koska ne kuulostavat aivan meiltä. Ne saattavat myös näyttää aivan meiltä. Niillä saattaa olla psykooseja ja outoja, surrealistisia unia. Ja jonain päivänä pian ne saattavat jopa kirjoittaa kunnon säkeitä.

emily dickinson

Tämä on tekoälyn luoma yritys kirjoittaa Emily Dickinsonin tyyliin. Sen on tuottanut tekoälyn kieliohjelma nimeltä GPT-2, joka on San Franciscossa toimivan OpenAI-tutkimusyrityksen projekti. Lihavoidut kohdat edustavat ohjelmalle annettua kehotusta, loput ovat ohjelman omia; voit kokeilla sitä itse tästä linkistä. OpenAI julkaisi vasta hiljattain GPT-2:n koko koodin pelättyään aluksi, että se auttaisi vahvistamaan roskapostia ja valeuutisia; jos sen väärennetyt runot antavat viitteitä, keskustelu tekoälyn kielimallien voimasta saattaa olla vasta alkamassa.

Käyttämällä GPT-2:ta joukko Piilaakson työntekijöitä on koonnut omaksi ja meidän huviksemme kokoelman tekoälyn yrityksistä täydentää kuuluisat runoteokset. Tuloksena syntynyt, joulukuussa Paper Gains Publishingin julkaisema Transformer Poetry on kieli poskessa -kokoelma yllättävän hyviä ja koomisen järjettömiä tietokoneella luotuja säkeitä. Kukaan ei sekoita sitä vielä ihmisen runouteen – tai ainakaan toivottavasti ei. Mutta muilta osin se on myös silmiinpistävän todentuntuinen: karmiva katsaus siihen, miten hyviä epäorgaanisista kirjoittajista voi tulla, ja seurauksiin, joita siitä voi seurata.

Tietokoneohjelmat ovat viime aikoina tulleet paljon enemmän meidän kaltaisiksemme, suurelta osin siksi, että ne on yhä useammin mallinnettu oman mielemme mukaan. Koneoppimisen kukoistava ala – jonka tuotteet ovat tuttuja kaikille, jotka ovat käyttäneet älypuhelimensa ääniassistenttia tai kuvantunnistusta – on saanut vauhtia neuroverkon käsitteestä, jossa yksittäiset solmut, jotka muistuttavat neuroneja, ”oppivat” rakentamaan monimutkaisen assosiaatioiden verkon kokeilun ja erehdyksen kautta. Siinä missä perinteisille ohjelmille annetaan säännöt, jotka määräävät niiden tuotokset, neuroverkoille annetaan sen sijaan halutut tulokset, joista ne oppivat miljoonien ja miljardien toistuvien kokeilujen avulla omat tapansa saavuttaa ne.

GPT-2:lle annettiin harjoittelua varten 8 miljoonan verkkosivun korpus, joka valittiin luonnollisen valinnan menetelmällä, joka on tyypillistä internetiä: ”Dokumenttien laadun säilyttämiseksi”, OpenAI:n viestissä todetaan, ”käytimme vain sivuja, jotka ihmiset ovat kuratoineet/suodattaneet – erityisesti käytimme Redditistä lähteviä linkkejä, jotka saivat vähintään 3 karmaa.” Kokeilemalla ja erehtymällä GPT-2 oppi ennustamaan tekstin loppuosan vain muutaman ensimmäisen sanan tai lauseen perusteella. Tämä puolestaan antoi sille yleisen menetelmän muiden tekstien täydentämiseen sisällöstä tai genrestä riippumatta.

sonnet 18

Ensimmäisellä silmäyksellä GPT-2:n kyky jäljitellä on vaikuttava: sanonta, kielioppi ja syntaksi ovat harppauksin yli sen, mitä useimmat meistä odottaisivat tietokoneelta. Mutta jos siristää silmiään tarkemmin, säröt näkyvät heti. Se esittää Shakespearen kuuluisimman sonetin ja heittää riimit ja metrit välittömästi ikkunasta ulos – mutta hei, useimmat meistä tuskin muistavat näitäkään sääntöjä. Myös kertojan rakastetun ja kesäpäivän välinen metafora on kadonnut, kun kone valitsee sen sijaan litaniaa kuumaan säähän liittyviä kuvia, joita seuraa äkillinen siirtyminen pilviseen taivaaseen. Ja Shakespearen päättävän kauneuden ikuistamisen sijasta saamme niin täydellisen ja perverssin käänteisen käännöksen:

the road not taken

Muut yritykset ovat varsinaisesti järkeviä, mutta johtavat odottamattomiin tuloksiin. Otetaan esimerkiksi ”The Road Not Taken”. Frostin alkuperäisteos kertoo itsepetoksesta, jonka mukaan valinnalla ”on ollut merkitystä”, ja useimmat muistavat sen ylistyslauluna jylhälle ikonoklasmialle ja ”vähemmän kuljetun tien” valitsemiselle – mikä on sopusoinnussa sen aseman kanssa ”Amerikan väärin luetuimpana runona” -, mutta GPT-2 löytää jotenkin kolmannen polun, ja se luo kertojan, joka on niin epätoivon raatelema siitä, että on kulkenut väärää polkua, että hän epätoivoissaan jäljittää askeleensa, vain huomatakseen, että toinenkin tie on suljettu.

still i rise

GPT-2:lla on taipumus ottaa jokin syntaksin osa ja juosta sen kanssa, kuten se tekee tässä, ja se kehrää Angeloun runon viimeisestä säkeistöstä ”I will” -moodin ja muuntelee sitä loputtomiin. Se tuntuu melkein amatööri-improvisaatiolta, kun tekoäly viivyttelee yrittäessään keksiä, mitä muuta se voisi tehdä. ”Toisto on helppo asia mallintaa”, sanoo David Luan, OpenAI:n teknisen osaston varapuheenjohtaja. ”Ihmisten kirjoituksissa sitä on yleensä juuri sen verran, että malli oppii, että asioiden toistaminen lisää onnistumisen todennäköisyyttä.”

Luan sanoo myös, että tämä on seurausta tilastollisesta menetelmästä nimeltä top-k sampling, jossa jokin osa mahdollisten seuraavien sanojen joukosta karsitaan pois, jotta teksti ei ajautuisi pois aiheesta. Näyttää kuitenkin siltä, että näillä törkeiden virheiden välttämiseen tähtäävillä menetelmillä on myös se vaikutus, että ne voimistavat tiettyjä taipumuksia absurdiin äärimmilleen.

edge

Sitä huolimatta GPT-2:n runollinen mieli poikkeaa toisinaan paljon selittämättömämmin, kun se luo ensimmäisen persoonan kertojan, jota ei ole olemassa alkuperäisessä tekstissä, ja synnyttää ajatuksia, joilla ei ole juuri mitään tekemistä lähdeteoksensa kanssa, mutta jotka ovat siitä huolimatta oudon syvällisiä: ”Ihmisen luoman sivilisaation viimeiset sanat / ovat sanat: ’Olemme vapaita.'” Ja jos olet utelias, yksikään noista lauseista ei näy missään nettihauissa; olipa ohjelman runollinen herkkyys mikä tahansa, ne eivät ole täysin epäoriginaalisia.

Tässä on yhteinen säie. GPT-2:n kirjoitus on kieliopillisesti oikein. Kaikki kuulostaa enemmän tai vähemmän uskolliselta lähteelleen, jos kuulisi vain äänensävyn. Mutta mitä nuo sekvenssit tarkoittavat, siinäpä se pulma onkin. GPT-2:n runoudessa tyyli on tärkeämpää kuin sisältö. Mikä on ymmärrettävää, koska se ei tiedä, mitä substanssi on.

Puhtaana kielimallina GPT-2:lla ei ole tietoa siitä, mitä sanat oikeastaan tarkoittavat, vaan ainoastaan todennäköisyys, jolla sana esiintyy toisten vieressä. Sellainen sana kuin ”tuoli” on sille vain merkkijono, ei joukko kuvia tai esineitä, puhumattakaan jostain sumuisemmasta käsitteellisestä ryhmittymästä, johon kuuluu asioita, joiden päällä ihmiset istuvat. Valmistajiensa mukaan GPT-2:n yleisimmät virheet johtuvat tästä perustietämättömyydestä: ”e on havainnut erilaisia epäonnistumisia, kuten toistuvaa tekstiä, maailman mallintamisen epäonnistumisia (esim. malli kirjoittaa joskus tulipaloista, jotka tapahtuvat veden alla) ja luonnottomia aiheenvaihtoja.” Koska GPT-2:n prosessilta puuttuu tietämys referensseistä, se toimii sen sijaan jotakuinkin kuin semiotiikka ilman merkitystä – peli, jossa on vain merkitsijöitä ilman, että mitään merkitään.

Jollain tavoin tämä tuntuu samankaltaiselta kuin se, miten ihmiset kehittävät ja käyttävät kieltä. Lapset kopioivat usein sanoja ja käyttävät niitä kieliopillisessa järjestyksessä ennen kuin he tietävät, mitä ne sanovat. Myös kirjailijan mieli toimii sattumanvaraisesti ja assosiatiivisesti, omaksuen ja ahmimalla uudelleen idiomeja ja syntaksia, palasia esteettisesti miellyttävistä säikeistä. Mutta kypsän, inhimillisen käyttäjän käsissä kaikki nämä kuviot ankkuroituvat viime kädessä merkitykseen – tavoitteeseen välittää tunne tai ajatus, ei vain kuulostaa siltä kuin olisit. Kaunis sanankäänne ei merkitse mitään, ellei se tarkalleen ottaen tarkoita jotakin.

Tämä on se todellinen puuttuva lenkki koneiden ja kirjallisuuden välillä: tieto todellisuudesta, siitä, mitä varten ihminen loi kielen kuvaamaan. Jotkut jopa väittävät, että fyysinen olento on välttämätön todellisen älykkyyden tuottamiseksi – että mikään ruumiiton kokemus maailmasta ei koskaan tee koneesta yhtä tuntevaa kuin me olemme. On selvää, että tekoälyn aikakausi saattaa tuoda mukanaan merkittäviä riskejä – mutta on mukava tietää, että ainakin toistaiseksi runollinen sielumme on turvassa.