Robotterne kommer!

Vestas, Fagbladet 3F og DR har erfaringer med at bruge computere til at skrive artikler om sport, økonomi og hårde data. Peter Hvid har brugt seks år af sit computerliv på at udvikle en software, der overflødiggør menneskelig arbejdskraft. Men der er håb endnu: Følelser kan den ikke skrive om.

Vestas, Fagbladet 3F og DR har erfaringer med at bruge computere til at skrive artikler om sport, økonomi og hårde data. Peter Hvid har brugt seks år af sit computerliv på at udvikle en software, der overflødiggør menneskelig arbejdskraft. Men der er håb endnu: Følelser kan den ikke skrive om.

Peter Hvid står i entreen på Journalistens redaktion og bliver mødt af en bekymret mine.
»Er du kommet for at tage vores arbejde?« spørger min praktikantvejleder, mens han prøver at smile sig gennem et håndtryk.

Peter Hvid, tårnhøj og klædt i en slidt Reebok T-shirt, griner lidt overbærende af spørgsmålet, som han har fået adskillige gange før. Den 45-årige tidligere programmør har brugt det meste af sit computerliv på at skabe software, der uden menneskelig indblanding kan skrive artikler om sport, vejret, finans og kendissladder.
»Det tog seks år, hvor jeg ikke havde en eneste fridag,« fortæller Peter Hvid, da han har sat sig i Journalistens sofa.

Efter seks år stod han med en algoritme, der automatisk kunne omforme ethvert fodboldresultat til en kort artikel, der lige så godt kunne være skrevet af et menneske. Og med nok data og programmering kan computere nu sættes til at autogenerere artikler om stort set hvad som helst, en journalist eller kommunikatør kan ønske sig. Det er ikke et fremtidsscenarium. Lignende teknologi bliver allerede brugt af blandt andet Vestas, Fagbladet 3F og DR, der udsender tekster skrevet af computere.
»Ja, det er lidt skræmmende,« siger Jens Gjesse Hansen, webredaktør på DR Sporten.

Han fattede interesse for Peter Hvids projekt tilbage i 2009. DR abonnerer på resultater og data fra alverdens fodboldligaer, men selv de mest velbemandede og nichede fodboldmedier i Danmark har ikke manpower til at skrive om alle disse kampe. Med Peter Hvids program kan DR omsætte alle disse resultater til historier.
»Der er uendelige mængder data,« fortæller Peter Hvid.
»Selv fra en 0-0 kamp i 2. Bundesliga i Tyskland er der masser af data for boldbesiddelse, indkast og skud på mål, som computeren kan arbejde med.«

I en kort forsøgsperiode i 2010 autogenererede Peter Hvid artikler til DR's hjemmeside. I en lille boks dukkede der små kampreferater op fra de europæiske fodboldligaer.
»Det er jo ikke beåndet journalistik, der kommer ud af det, men når man sidder ene mand på en lørdagsvagt på sporten, kan man simpelthen ikke overskue alle de ting, der er i gang, og alle de danske spillere i de forskellige europæiske ligaer. Her kan sådan et computerprogram hjælpe med at skabe overblik,« siger Jens Gjesse Hansen fra DR.

En artikel skrevet af computeren kan for eksempel se sådan ud:
"Daniel Agger var med til at tabe, da Chelsea trak sig sejrrigt ud af opgøret mod Liverpool i Premier League søndag med en 2-0 sejr.
Chelsea dominerede det meste af kampen, og Didier Drogba sendte titelaspiranterne på sejrskurs efter en halv times spil, mens Frank Lampard efter pausen øgede til 2-0.
Chelsea kan sikre sig mesterskabet ved at vinde hjemme i sidste spillerunde mod Wigan, der ikke har noget at spille for.
Liverpool skal spille Europa League i næste sæson og har Hull City i en betydningsløs kamp i sidste runde."

For Peter Hvids program kræver det cirka to millioner beregninger, inden computeren kan autogenerere en artikel som den ovenstående. Computeren skal ud fra kampdata beregne, hvad der er interessant. For eksempel er det vigtigt at skrive, hvis et hold i top fem taber til et bundhold, hvis der er udvisninger, eller hvis et hold har sikret sig oprykning eller mesterskabe

Peter Hvid har programmeret algoritmen sådan, at computeren også kan fokusere på danske spillere. Hvis Liverpool spiller, bliver Daniel Agger nævnt, Christian Poulsen bliver nævnt, når det handler om franske Evian.
Computeren skal også frasortere alt det, der ikke er interessant – for eksempel hvor mange indkast det ene hold har. Til sidst skal algoritmen stykke sproget sammen, så det ser ud, som om den er skrevet af et menneske.
»Sprog er utroligt kompliceret. Der er en masse grammatiske regler, men det er bunken af undtagelser, der gør det så svært. Forholdsord kan stå både foran og bag ved navneordet, og der skal ikke altid stå en eller et foran ubestemt ental. Den menneskelige hjerne opfatter lynhurtigt, hvad der er korrekt sprog,« siger Peter Hvid.

De små artikler må heller ikke være fyldt med gentagelser. Peter Hvid programmerede derfor flere forskellige formuleringer for samme hændelse, som computeren skal skifte mellem. "Spiller x scorede til 1-0" eller "Spiller x bragte sit hold foran" eller "Spiller x nettede", for eksempel.
»Så snart du har omkring 20-25 formuleringer, er der ingen, der opdager, at det er autogenereret,« siger han.

I DR-Byen var Jens Gjesse Hansen ret tilfreds med det sprog, computeren spyttede ud i den anden ende. Det var svært at kende forskel på de menneskeskabte og de computergenererede kampreferater. Computerartiklerne kunne endda blive for perfekte.
»Peter foreslog, at vi skulle programmere computeren til at lave stavefejl nu og da, så det så ud, som om det var et menneske, der skrev artiklerne. Men det var alligevel for fjollet,« siger han.

DR har ikke længere de autogenererede artikler på dr.dk, men forsøger i stedet at bruge teknologien i en mindre skala. Jens Gjesse Hansen håber, at DR Sporten i år kan lancere en mininyhedsstrøm på hjemmesiden, der opdateres på sekundet, hver gang en dansker har scoret i en af de europæiske fodboldligaer. Alle teksterne vil være skrevet af en computer. Men Peter Hvids oprindelige program er ikke kun rettet mod Danmark. Som en tilføjelse kan programmet oversætte samtlige artikler til 33 forskellige sprog – og sættes til at fokusere på svenske, russiske eller italienske spillere, hvis det skulle være. Desuden kan artiklen produceres på få sekunder med et tryk på en knap.

Der findes næppe en menneskelig journalist, der kan konkurrere med den produktionshastighed og sprogkyndighed. Og mediebranchen er på jagt efter besparelser: Layout bliver outsourcet til Letland, telemarketing ryger til Spanien – kan man outsource produktionen af journalistik og kommunikation til en computer?
»Nja …«

Tommy Kaas, partner i firmaet Kaas & Mulvad, trækker lidt på svaret. Makkerparret har lavet projekter med autogenererede tekster for blandt andet Vestas og Fagbladet 3F. I et lille kontorfællesskab i det nordvestlige København browser han igennem tunge excelark og detaljerede Google-kort, og når Journalistens udsendte stiller spørgsmål, der begynder med formuleringen: »Betyder det så, at computeren kan …«, svarer han ofte ja.

Men muligheden for at lade computere skrive artikler gør ikke mennesket bag overflødigt.
»Disse store mængder data skal stadig vurderes og vinkles. Det kan computeren trods alt ikke gøre,« siger Tommy Kaas.
»Men autogenereret tekst kan i den grad være en hjælpende hånd, når vi har med uoverskuelige datamængder at gøre.«

Kass & Mulvad har blandt andet hjulpet Vestas. Vindmølleproducenten har data for strømforbruget på samtlige sine fabrikker i hele verden, og før lå alle disse tal i en ustruktureret bunke pdf-filer på Vestas' hjemmeside. Men et nyt system gør, at når Vestas får nye tal for strømforbruget hvert kvartal, bliver samtlige artikler på hjemmesiden om miljø ændret automatisk.

Sådan her lyder det for eksempel på Vestas' hjemmeside om fabrikken i Ringkøbing:
"On average over the last four quarters, the Vestas facility Assembly – Ringkoebing in Denmark succeeded in reducing its total energy consumption by 12.5 percent over last quarter's average."

Systemet kan endda ændre vinklen i teksten, hvis strømforbruget på fabrikken har ændret sig markant.
»Det er brevfletning på et utroligt højt plan,« siger Michael Holm, pressechef i Vestas.

Artiklerne om de enkelte fabrikker består af små, faste tekststykker og tal, der bliver skiftet ud, når der kommer nye. Hvis tallene ændrer sig på en bestemt måde, og der for eksempel er et stort fald, ændrer de faste tekststykker sig også.
»Vi bruger computeren til at fremhæve konklusioner, som en bruger eller en journalist så kan gå videre med. Vi får skrevet ting og brugt data, vi ikke fik brugt før. Den største udfordring er at forresearche og tolke tallene rigtigt, så det skal man være villig til at bruge nogle kræfter på,« siger Michael Holm.

Computeren er reelt set en torskedum medarbejder, der skal have alting at vide. Men når først computeren ved, hvad den skal gøre, kan den handling blive gentaget i en uendelighed. Hvad enten det handler om energiforbrug eller sport, siger Peter Hvid.
»Et opgør mellem Bayern München og Bayern Leverkusen vil altid være et lokalopgør, så det kan computeren også skrive om 20 år. Når et system først kører, så kan det være selvkørende, lige så længe det skal være. Det kræver egentlig bare noget sproglig vedligeholdelse – formuleringer vil nok ikke være de samme om 20 år, som de er i dag,« siger Peter Hvid.

Peter Hvid kiggede også på andre emner. En overgang eksperimenterede han med at autogenerere artikler om de kendte.
»Der er jo nogle helt faste kategorier: A bliver skilt fra B, rygter om utroskab mellem A og B, A er gravid og så videre. Det ville ikke give meget mening i Danmark, men stof om amerikanske kendte kunne uden problemer sættes i skemaer og oversættes til alverdens sprog med et tryk på en knap,« siger Peter Hvid.
Og hvad med andre datatunge stofområder? Finansstoffet, for eksempel, eller vejret (»som til tider kan lyde autogenereret«, som Tommy Kaas siger). Computere kunne også sættes til at skrive den databaserede politiske journalistik, hvor der er meningsmålinger stort set hver uge med stigninger og fald. Måske kunne man også sætte computeren til at citere fra andre medier. Hvad skal en politiker sige, før computeren kan autogenerere en overskrift med ordene "Politiker X raser"?

Peter Hvid griner lidt og sætter en stopper for de tankeeksperimenter, jeg sender ud i lokalet. Det giver kun mening at lade computeren skrive artikler om ting, der gentager sig. Det ville være dumt at programmere en computer til at skrive artikler om en ny lillebæltsbro, for eksempel. Og så er der en ting, computere aldrig vil kunne.
»Journalister vil selvfølgelig kunne skrive bedre artikler om fodboldkampe, hvis de rent faktisk følger med i kampen. En computer kan jo ikke skrive, at "Parken var en heksekedel", eller at det var "en fornøjelse at se Bendtner score". Det er stemninger og følelser, og det kan computere ikke finde ud af,« siger Peter Hvid.
»Men lige nu er det jo sådan, at rigtig mange sportsartikler de facto bliver skrevet alene ud fra data. Ofte har journalisten slet ikke haft tid til at se den kamp, han eller hun skriver et kampreferat fra – det er også baseret på tal. Hvorfor ikke lade computeren tage sig af det rugbrødsarbejde?«

Kan du forstå, at nogle journalister er bange for, at denne teknologi skal stjæle jobs?
»Hvad er der at være bange for? Jeg håber da, at journalister og kommunikatører kan lave bedre produkter end det, et computerprogram, jeg har flikket sammen hjemme ved køkkenbordet, kan klemme ud. Computeren kan lave det kedelige, gentagelsesprægede arbejde. Vil I ikke hellere bruge tid på at lave de store interviews og reportager?«

5 Kommentarer

Erik Bagge Juul
19. FEBRUAR 2012
Re: Robotterne kommer!
Ja, min kommentar var måske lidt spidsvinklet. Det er nok kun 95%. Men hvis vi tæller de politiske 'analytikere' med, passer de 98% nok meget godt.
Michael Perry
18. FEBRUAR 2012
Re: Robotterne kommer!

" Den karakteristik passer da egentlig meget godt på 98% af det menneskelige pressekorps. "

Lidt en skarp kommentar. Ikke desto mindre interessant hvordan udviklingen bliver de næste 2-3 år. Flere danske medier forsøger sig med betaling for de bedre artikler.

 Lige den med fodbold... Det er virkelig tamt at se en autogenereret version af en kamp på nuværende tidspunkt.

 /Michael 

Erik Bagge Juul
18. FEBRUAR 2012
Re: Robotterne kommer!

 

"Computeren er reelt set en torskedum medarbejder, der skal have alting at vide. Men når først computeren ved, hvad den skal gøre, kan den handling blive gentaget i en uendelighed."

Den karakteristik passer da egentlig meget godt på 98% af det menneskelige pressekorps. 

 

Niels O. Hansen
16. FEBRUAR 2012
Re: Robotterne kommer!

Jeg er ikke nervøs for, at en af Peter Hvids robotter skal nappe mit arbejde, for den kan hverken have forstand på fodbold eller geografi.

 Lokalopgør mellem Bayern München og Bayer Leverkusen. Øh, nå

 Leverkusen ligger i nærheden af Köln, mens München som bekendt ligger i Sydtyskland. Afstand til Leverkusen: 579 km.

 Af nuværende klubber i Bundesligaen ligger følgende tættere på München: FC Nürnberg, FC Augsburg, Hoffenheim, FC Kaiserslautern, FSV Mainz 05, VfB Stuttgart, SC Freiburg og såmænd også FC Köln, selvom det i sidstnævnte tilfælde kun drejer sig om få kilometer.

Flere