Test: Kan en computer transskribere, hvad Ditte Okman siger?

Et nyt værktøj lover at transskribere lyd til tekst lige så godt, som hvis du gjorde det selv. Journalistens Jakob Albrecht har blandt andet testet, om værktøjet forstår, hvad Ditte Okman og Radioavisens oplæser siger

I sidste uge blev transskriberingsværktøjet Trint præsenteret på en festival for nye medier arrangeret af foreningen Prauda.

Community manager på Finans.dk Kasper Villum Jensen skrev på Twitter:

Kasper Villum Jensen forklarede videre, at TrintHQ blev testet live-on-stage på festivalen.

”Den var 90-95 procent korrekt og overskuelig at korrekse.”

På Trints hjemmeside kan man læse, at deres værktøj skal løse et problem, som mange kender, for eksempel journalister: Det er ofte yderst tidskrævende at overføre lyd til skrift.

Engelske Trint er udviklet af den tidligere prisvindende krigskorrespondent Jeff Kofman.

Målet er at gøre Trint lige så præcist, som hvis du selv skrev båndet ud – bare hurtigere.

Jo tydeligere folk taler …

Jeg har sat mig for at teste, hvor præcis Trint er. Og konklusionen er: Ganske præcis.

Men du skal ikke stole blindt på transskriptionen. For Trint ved ikke, hvornår den gætter i blinde, og hvornår den rammer plet.

Jo tydeligere folk taler, jo bedre virker Trint. Især hvis de læser op, er resultatet forbløffende godt. Også selv om de taler dansk.

Problemet er, at folk ikke læser op, når de bliver interviewet. De taler i indskudte sætninger, vrøvler og udtaler ord, så det kun kan forstås af det menneskelige øre.

Trint er heller ikke god til at fange meningen med et udsagn, hvis folk taler i munden på hinanden, hvis der er baggrundsstøj, eller der bliver talt dialekt.

Jeg har testet Trint på fire forskellige måder:

 Bjerregaard bliver til Bjærgningen

Det første, jeg tester, er et klip fra et gammelt interview til Journalisten, hvor jeg sidste år talte med Jan Krag Jacobsen, en af grundlæggerne af kommunikationsuddannelsen på RUC.

Optagelsen er god, og Jan Krag Jacobsen går tydeligt igennem. Der er ingen baggrundsstøj. Når jeg lytter til Jan Krag Jacobsen, har jeg let ved at forstå, hvad han siger, og hvad han mener.

Alligevel er store dele af transskriptionen volapyk.

”Ritt Bjerregaard bliver” til ”Bjærgningen”. Et andet sted optræder ordet ”Somalia”. Jeg kan simpelthen ikke lure, hvor det kommer fra.

Den passage, hvor Trint rammer bedst, er et sted, hvor Jan Krag Jacobsen fortæller om et besøg, han aflagde på journalisthøjskolen i Aarhus sammen med RUC-kollegaen Peter Harms.

Sådan bliver det transskriberet:

”Når vi kom at stå i skolen så var det klart for os ligesom at verden var opdelt i stofområder og det var noget andet en anden end vores verden der var opdelt i akademiske discipliner da deres grænseområder yder en uddannelsesstøtte. Det kunne man ikke blande sig i.”

I virkeligheden sagde Jan Krag Jacobsen:

”Når vi kom på journalisthøjskolen, så stod det klart for os, at verden var opdelt i stofområder, og det var noget andet end vores verden, der var opdelt i akademiske discipliner. Enten var det udenrigsstof eller indenrigsstof, og det kunne man ikke blande sammen.”

Nogle af ordene er rigtige. Men man forstår faktisk ikke, hvad Jan Krag Jacobsen mener.

Det ville i hvert fald ikke egne sig til at blive trykt.

Thomas Winding fortæller

Måske får jeg et bedre resultat, hvis Trint transskriberer en mand, der taler meget tydeligt og meget langsomt. Hvem er bedre til det end den legendariske DR-vært Thomas Winding?

Jeg finder et klip på Youtube, hvor Thomas Winding fortæller. Men han læser ikke op.

Her er Trint tættere på at ramme plet.

Sådan bliver det transskriberet:

”Det er jo et moderne fænomen man. Skal have tingene er overstået så hurtigt som muligt. Jeg synes at at alle som har boet kan finde på noget har pligt til at gøre kort historie lang.”

Det sagde Thomas Winding:

”Det er jo et meget moderne fænomen, at man skal have tingene overstået så hurtigt som muligt. Jeg synes, at alle, som overhovedet kan finde på noget, har pligt til at gøre korte historier lange.”

Trint rammer rigtigt med de fleste ord. Men semantik handler ikke kun om antal rigtige ord. Hvis man ikke vidste, hvad Thomas Winding oprindeligt havde sagt, ville transskriptionen nærmest være uforståelig.

Hvad betyder for eksempel: ”Jeg synes at at alle som har boet kan finde på noget har pligt til at gøre kort historie lang.”

Ditte Okman om ”Carter”

Jeg optager en bid fra ’Det, vil taler om’, på Radio24syv med Ditte Okman og lægger det ind i Trint.
Ditte Okman taler om en mail, som politikerne Naser Khader, Martin Henriksen og Marcus Knuth skrev om Exitcirklen sidste år.

Sådan bliver det transskriberet:

”Vi skal ligge i den artikel på nettet fordi der er mailen. Så kan man selv lige læse hvad det er for en mail som Carter har sendt sammen med Martin Henriksen og Marcus Knuth på Facebook man kunne hvor Information hvor meget Marcus Knuth Adu skyldtes for.”

Det sagde Ditte Okman i virkeligheden:

”Vi skal lægge den der artikel på nettet, fordi der er også mailen. Så kan man selv lige læse, hvad det er for en mail, som Naser Khader har sendt sammen med Martin Henriksen og Marcus Knuth. Jeg så i øvrigt på Facebook at man kunne – jeg tror det var i Information – ”hvor meget Marcus Knuth er du?””

Det er bedre. Faktisk ret godt. Det ville umiddelbart kunne bruges med nogle få justeringer.
For eksempel skal ”Carter” ændres til ”Naser Khader”.

Den velartikulerede oplæser

Jeg prøver at gøre det endnu nemmere. Jeg uploader indledningen på en radioavis, hvor den velartikulerede Niels Christian Lang læser op.

Sådan bliver det transskriberet:

”Mere end hver tiende gang politiet bliver kaldt ud på en opgave er der en psykisk syge involveret. Og det er tæt på en tredobling siden 2009. Det viser en opgørelse fra Rigspolitiet.”

Det sagde Niels Christian Lang:

”Mere end hver tiende gang politiet bliver kaldt ud på en opgave, er der en psykisk syg involveret, og det er tæt på en tredobling siden 2009. Det viser en opgørelse fra Rigspolitiet.”

Bingo. En perfekt oplæsning med god lyd giver en 100 procent præcis transskribering, bortset fra kommateringen.

Konklusion: Du skal tjekke teksten

Journalisten testede i 2014 transskriberingsværktøjet Aktiv Stemme, der dumpede med et brag.

Her fire år efter klarer Trint sig betydeligt bedre.

Man kan ikke stole blindt på resultatet. Transskriptionen skal tjekkes, ligesom man tjekker oversættelser fra Google Translate. Og lige dér, hvor Trint skulle gøre den store forskel – det lange interview – står Trint også svagest.

Det fornemme ved Trint er, at den (mere eller mindre) forstår dansk. Det tager cirka fire-fem minutter at uploade to minutters lyd, og Trint er meget nem at betjente.

Til gengæld er prisen pebret. Man får 30 minutter gratis. Derefter koster det. Og det kan hurtigt blive dyrt. Tre timers upload på en måned koster 370 kroner.

Trint får fire ud af seks stjerner, fordi Trint kan lette dit arbejde. Men det er dyrt, og du får ikke et værktøj, der bare skriver dit timelange interview ud. Desværre.

2 Kommentarer

Peter N
1. OKTOBER 2018
Jeg forsøgte at teste
Jeg forsøgte at teste værktøjet, men selv om de lokker med "Free trial", så skal de stadig have kreditkortoplysninger, før de giver adgang til en "gratis" prøve. Og man får det selvfølgelig ikke at vide, før man 1) har oprettet sig som bruger og 2) uploadet en lydfil. Jeg bliver sgu' lidt træt... :-(
Tommy Kaas
1. OKTOBER 2018
Tak. Meget relevant at teste
Tak. Meget relevant at teste værktøjet på denne måde. Det kunne have været fint, hvis du også havde lagt lydbidderne ud.