The Machines Are Coming, and They Write Really Bad Poetry
Als en wanneer de machines het overnemen, zal het niet zijn zoals we het gedroomd hebben. Het zal geen koude, moordzuchtige slimme speaker zijn, of een albino androïde, of levend weefsel over een metalen endoskelet, in de vorm van een Oostenrijkse bodybuilder. We hadden kunnen weten dat ze ons uiteindelijk zouden verslaan met schaken. En Go. En competitieve videospelletjes. Maar dat zijn koude en berekenende taken, geschikt voor machines. We zeiden tegen onszelf dat ze altijd alleen maar computers zouden zijn: star, rationeel, gevoelloos. De echt menselijke eigenschappen zouden altijd van ons zijn. Het warme, kleverige hart, dat geen algoritme ooit zou kunnen kopiëren.
Maar in werkelijkheid zullen de robots veel levensechter zijn, en daardoor nog verontrustender. Ze zullen niet robotachtig klinken, want ze klinken net als wij. Ze kunnen er ook net zo uitzien als wij. Ze zouden psychoses kunnen hebben, en trippy, surrealistische dromen. En op een dag zullen ze misschien zelfs fatsoenlijke gedichten schrijven.
Dit is een AI-gegenereerde poging om in de stijl van Emily Dickinson te schrijven. Het is gemaakt door een kunstmatig intelligentie taalprogramma genaamd GPT-2, een project van het in San Francisco gevestigde onderzoeksbedrijf OpenAI. De vetgedrukte gedeelten geven de prompt weer die het programma heeft gekregen, terwijl de rest van het programma zelf is; je kunt het zelf uitproberen, via deze link. OpenAI heeft pas onlangs de volledige code voor GPT-2 vrijgegeven, nadat het aanvankelijk vreesde dat het spam en nepnieuws zou helpen versterken; als de neppoëzie een indicatie is, zou het debat over de kracht van AI-taalmodellen wel eens net op gang kunnen komen.
Met behulp van GPT-2 heeft een groep Silicon Valley-werknemers, voor ons en hun eigen amusement, een verzameling samengesteld van pogingen van de AI om beroemde poëzie te voltooien. De resulterende bundel, Transformer Poetry, in december gepubliceerd door Paper Gains Publishing, is een tongue-in-cheek verzameling van verrassend goede en komisch nonsensische computergegenereerde verzen. Niemand zal het nog verwarren met menselijke poëzie – althans, dat hoop je niet. Maar in andere opzichten is het ook opvallend levensecht: een griezelige blik op hoe goed anorganische auteurs zouden kunnen worden, en de gevolgen die dat met zich mee zou kunnen brengen.
Computerprogramma’s zijn de laatste tijd veel meer op ons gaan lijken, voor een groot deel omdat ze steeds meer gemodelleerd zijn naar onze eigen geest. Het snelgroeiende gebied van machinaal leren – waarvan de producten bekend zijn bij iedereen die wel eens de stemassistent of beeldherkenning van zijn smartphone heeft gebruikt – is gebaseerd op het concept van het neurale netwerk, waarin individuele knooppunten, vergelijkbaar met neuronen, “leren” om een complex web van verbanden op te bouwen door middel van vallen en opstaan. Waar traditionele programma’s regels krijgen die de uitkomsten bepalen, krijgen neurale netwerken in plaats daarvan de gewenste uitkomsten, waarvan ze door miljoenen en miljarden herhaalde proeven hun eigen manieren leren om die uitkomsten te bereiken.
Voor zijn training kreeg GPT-2 een corpus van 8 miljoen webpagina’s, gekozen met een typisch internet-achtige methode van natuurlijke selectie: “Om de kwaliteit van de documenten te behouden”, aldus OpenAI’s post, “hebben we alleen pagina’s gebruikt die door mensen zijn gecureerd/gefilterd. In het bijzonder hebben we uitgaande links van Reddit gebruikt die ten minste 3 karma hebben ontvangen.” Met vallen en opstaan leerde GPT-2 hoe het de rest van een stuk tekst kon voorspellen, gegeven alleen de eerste paar woorden of zinnen. Op zijn beurt kreeg het zo een algemene methode voor het aanvullen van andere teksten, ongeacht inhoud of genre.
Op het eerste gezicht is het imitatievermogen van GPT-2 indrukwekkend: de dictie, grammatica en zinsbouw gaan allemaal veel verder dan wat de meesten van ons van een computer zouden verwachten. Maar als je beter je ogen dichtknijpt, zie je meteen de barsten. De vertolking van de beroemdste sonnetten van Shakespeare gooit onmiddellijk rijm en meter uit het raam – maar hé, de meesten van ons herinneren zich die regels ook nauwelijks. Ook de metafoor tussen de geliefde van de verteller en een zomerdag gaat verloren, want in plaats daarvan kiest de machine voor een litanie van beelden die te maken hebben met warm weer, gevolgd door een plotselinge omslag naar een bewolkte hemel. En in plaats van Shakespeare’s afsluitende vereeuwiging van schoonheid, krijgen we een omkering zo perfect dat het pervers is: Zeg me dat je mooi bent, en doe het snel!
Andere pogingen zijn strikt genomen zinvol, maar leiden tot onverwachte resultaten. Neem bijvoorbeeld “The Road Not Taken”. Terwijl het origineel van Frost eigenlijk gaat over de zelfmisleiding dat iemands keuze “het verschil heeft gemaakt”, en de meeste mensen het zich herinneren als een lofzang op stoer iconoclasme en het nemen van de “minst bereisde weg” – wat past bij zijn status als “het meest verkeerd gelezen gedicht in Amerika” – vindt GPT-2 op de een of andere manier een derde weg, door een verteller te creëren die zo wordt gekweld door wanhoop omdat hij de verkeerde weg heeft genomen, dat hij wanhopig op zijn schreden terugkeert, alleen om erachter te komen dat de andere weg is afgesloten.
GPT-2 heeft de neiging om een stukje syntaxis te nemen en ermee aan de haal te gaan, zoals hier het geval is, door de “I will”-modus uit het laatste couplet van Angelou’s gedicht te gebruiken en tot vervelens toe te muteren. Het voelt bijna als amateurimprovisatie, de AI die hapert terwijl hij probeert uit te vinden wat hij nog meer moet doen. “Herhaling is makkelijk te modelleren,” zegt David Luan, VP van engineering bij OpenAI. “Menselijke teksten bevatten vaak net genoeg herhaling, zodat het model leert dat herhaling de kans op succes vergroot.”
Luan zegt ook dat dit het resultaat is van een statistische methode die top-k-sampling wordt genoemd, waarbij een fractie van de pool van mogelijke volgende woorden wordt geëlimineerd om te voorkomen dat de tekst van het onderwerp afdwaalt. Maar deze methoden om flagrante fouten te vermijden, hebben blijkbaar ook tot gevolg dat bepaalde tendensen tot een absurd uiterste worden versterkt.
Desondanks wijkt de poëtische geest van GPT-2 soms nog veel meer op onverklaarbare wijze af, door een verteller in de eerste persoon te creëren die in het origineel niet bestaat, en gedachten te genereren die weinig verband houden met hun bron, maar desalniettemin vreemd genoeg diepzinnig zijn: “De laatste woorden van een door mensen gemaakte beschaving / Zijn de woorden: Wij zijn vrij’. En voor het geval je nieuwsgierig bent, geen van deze zinnen komt voor in online zoekopdrachten; wat de poëtische gevoeligheden van het programma ook mogen zijn, ze zijn niet geheel onorigineel.
Er is een rode draad hier. GPT-2’s schrijven is grammaticaal correct. Het klinkt allemaal min of meer trouw aan de bron, als je alleen de toon zou horen. Maar wat die sequenties betekenen, daar wringt de schoen. GPT-2’s poëzie verkiest stijl boven inhoud. Dat is begrijpelijk, want het weet niet wat inhoud is.
GPT-2 is een zuiver taalmodel en heeft geen kennis van wat woorden eigenlijk betekenen, alleen van de waarschijnlijkheid dat een woord naast een ander woord voorkomt. Voor GPT-2 is een woord als “stoel” niet meer dan een reeks tekens, geen cluster van afbeeldingen of objecten, laat staan een meer vage conceptuele groepering van dingen waar mensen op zitten. Volgens de makers zijn de meest voorkomende fouten van GPT-2 te wijten aan deze fundamentele onwetendheid: “We hebben verschillende fouten waargenomen, zoals repetitieve tekst, fouten in de wereldmodellering (het model schrijft bijvoorbeeld soms over branden die onder water gebeuren), en onnatuurlijke onderwerpwisselingen.” Bij gebrek aan enige kennis van verwijzingen werkt het proces van GPT-2 in plaats daarvan als een semiotiek zonder betekenis – een spel met alleen betekenissen, zonder dat er iets wordt gesignaleerd.
In sommige opzichten lijkt dit op de manier waarop mensen taal ontwikkelen en gebruiken. Kinderen kopiëren vaak woorden en gebruiken ze in grammaticale reeksen voordat ze weten wat ze zeggen. Ook de geest van een schrijver werkt lukraak en associatief, absorbeert en herkauwt idiomen en zinsbouw, stukjes van esthetisch aangename reeksen. Maar in de handen van een volwassen, menselijke gebruiker, zijn al deze patronen uiteindelijk verankerd aan betekenis – het doel van het overbrengen van een gevoel of gedachte, niet alleen maar klinken zoals je bent. Een mooie zinswending betekent niets, tenzij het precies iets betekent.
Dit is de echte ontbrekende schakel tussen machines en literatuur: kennis van de werkelijkheid, datgene waarvoor de mens de taal heeft gemaakt om te beschrijven. Sommigen beweren zelfs dat een fysiek wezen noodzakelijk is om ware intelligentie te produceren – dat geen ontlichaamde ervaring van de wereld ooit een machine zal kunnen maken die net zo gevoelig is als wij. Het is duidelijk dat het tijdperk van AI aanzienlijke risico’s met zich mee kan brengen, maar het is fijn om te weten dat onze poëtische ziel voorlopig veilig is.