Nyt AI-baseret kildearkiv i DR skal luge ud i ’Tordenskjolds soldater’

Nyt kildeværktøj skal finde på alternativer til ”the usual suspects”. Foto: Søren Bidstrup/Ritzau Scanpix (x 2) / Mathias Svold/Ritzau Scanpix (x 2) (Collage: Journalisten)

I løbet af næste år forventer DR at være klar med sofistikeret kildearkiv baseret på data fra gamle DR-artikler

12. december 2024, 07:50

Jakob Albrecht, seniorreporter jal@journalisten.dk @JakobAlbrecht

Hver dag går danske journalister på jagt efter de bedst tænkelige kilder til deres historier. Det kunne fx være en caseperson til et indslag om, at det er sundt at spise frugt og grønt.

Nogle gange dukker et navn op i kildearkivet eller i en gammel avisartikel, og nogle gange vælger man bare en af Tordenskjolds soldater, som man ved tager telefonen og leverer varen.

Nu arbejder DR på at lave et nyt slags internt kildearkiv med data udtrukket med hjælp fra AI, der potentielt kan tage syvmileskridt i jagten på at finde de bedste kilder.

”Nu kan vi lave et værktøj, hvor vi på en travl dag kan finde en kilde, der tidligere har udtalt sig om noget tilsvarende. Vi håber, det bliver en kæmpe hjælp,” forklarer Lasse Funder, leder af AI-løsninger i DR Nyheder.

44.000 kilder

Konkret er ChatGPT 4o-mini blevet fodret med omkring 200 dr.dk-artikler og instrueret i, hvordan informationerne skal struktureres.

Med den instruks har sprogmodellen efterfølgende tygget sig igennem de seneste fire års artikler på dr.dk og udtrukket data fra artiklerne.

For eksempel har robotten fundet 44.000 kilder, der siger 327.000 ting, og dermed er der tale om et enormt reservoir af kilder, forklarer Lasse Funder.

Medmindre der opstår uforudsete forhindringer er det derfor planen, at kildearkivet udrulles i løbet af 2025.

”De første eksperimenter har bestyrket mig i, at systemet nok skal blive godt,” siger Lasse Funder.

I kildesøgningsarkivet vil journalisten blandt andet kunne se, hvor mange gange DR har brugt den pågældende kilde.

”Og hvis kilden er brugt rigtigt mange gange, kan man se, om der er andre relevante kilder, som ikke er the usual suspects,” siger Lasse Funder.

Pjattet med pærer

Kilderne er kategoriseret i fx casepersoner, myndighedskilder, ekspertkilder og politikere. Man kan fx hurtigt se, hvornår en kilde senest har udtalt sig til DR, og i hvilken sammenhæng.

Og så giver værktøjet også bud på egnede kilder, selv om journalisten ikke har skrevet de helt korrekte søgeord.

Det traditionelle kildekartotek er jo mest bare en telefonbog.
Lasse Funder, leder af AI-løsninger i DR Nyheder

Skal man fx finde en caseperson til en artikel om, at det er sundt at spise frugt og grønt, kan man fx søge på ”vild med frugt”.

Her får journalisten også et hit, hvis en kilde tidligere er citeret for at være ”helt pjattet med pærer”.

Kildearkivet er nemlig programmeret til, at man kan søge på sætningers betydning og ikke kun eksakte søgeord, og det øger anvendelsesmulighederne.

”Det traditionelle kildekartotek er jo mest bare en telefonbog, hvor du kun får et hit, hvis du bruger det rigtige ord, som personen er kategoriseret under,” siger Lasse Funder.

På bagbenene over Taleban

Allerede nu indsamler værktøjet løbende data om, hvilke kilder DR bruger, fx kildernes kønsfordeling, som lige nu er 31 procent kvindelige kilder.

Næste skridt er, at værktøjet udvikles til at blive brugt til kildesøgning, forklarer Lasse Funder.

Her har nogle af de første børnesygdomme fx vist sig i artikler med Taleban-folk, der kom med så grove udtalelser om kvinder, at sprogmodellen nægtede at bearbejde dem.

”De skal derfor håndteres manuelt for at komme med,” forklarer Lasse Funder.

Også artikler fra P3 om sex og kærlighed havde sprogmodellen i første omgang afvist. Det er nu fixet.

”Der har desuden været enkelte misforståelser, hvor AI har sat forkert navn på et citat, fordi personen i artiklen refererede, hvad en anden person havde udtalt,” siger Lasse Funder.

Del

Kopier link