Gå til hovedindhold
Aktuelt

Lyd- og tekstdata fra Nota skal bidrage til fremtidens sprogteknologier

Efter en henvendelse fra Digitaliseringsstyrelsen, har Nota doneret over 500 timers indtalt lyddata, som kan anvendes for at understøtte udviklingen af dansk sprogteknologi
25. november 2022

Det talte sprog er en spidskompetence

For Nota, videnscenter og bibliotek for mennesker med læsevanskeligheder under Kulturministeriet, er lyd og indlæst sprog en spidskompetence.

Nota har nemlig gennem mere end et halvt århundrede gjort trykte tekster tilgængelige for synshandicappede, ordblinde og andre, som ikke kan læse trykt tekst, blandt andet via indlæsning af lydbøger, aviser, magasiner med mere.

Derfor kan Nota nu donere et datasæt som består af over 500 timers oplæsninger og følgende transskriptioner på dansk.

Når Nota bidrager med så stort et korpus, hjælper det til at udvikle og forbedre dansksproget kunstig intelligens, når den bliver stillet til rådighed som open source på hjemmesiden sprogteknologi.dk

Stemmeteknologien demokratiseres til glæde for flere

-Der er udfordringer ved det danske sprog, når det skal understøtte kunstig intelligens. Det skyldes, at der mangler indlæst tale til at understøtte udviklingen, forklarer IT-chef i Nota, Jonas Manley, som uddyber:

-Denne donation er en demokratisering af stemmeteknologien, til glæde for flere, både brugere og udviklere. Som Open Source, kan det hjælpe små virksomheder så de kan få et solidt punkt at videreudvikle deres teknologi fra.

En teknologi Nota og Notas brugere muligvis også kan få glæde af, fremadrettet.

Det handler om at hjælpe vores egne brugere

-Ved at donere Notas dataset til sprogteknologi.dk, er det med forventningen om, at det som Open Source vil kunne bidrage til at udvikle feltet og arbejdet med danske sprogteknologier. 

-Vi ser det som en måde, hvorpå Notas services i fremtiden kan understøtte andre af vores brugeres behov, eksempelvis som talesystemer hos lægen, oplæst post fra det offentlige, diktere noter gennem talebaseret teknologi og meget mere, forklarer Jonas Manley.

En platform der samler sprogteknologien

Sprogteknologi.dk er en metadataplatform der indsamler tale- og tekstkorpora, ordbøger, termbaser, sprogteknologiske supportværktøjer og infrastrukturkomponenter med henblik på at understøtte udviklingen af sprogteknologiske supportværktøjer.

Det primære formål er at understøtte udviklingen af kunstig intelligens på dansk og dermed bidrage til at sikre, at det digitale sprog i Danmark er dansk.

Kontorchef i Kontor for Teknologi og Data i Digitaliseringsstyrelsen, Nikolai Bülow Tronche, udtaler på hjemmesiden om samarbejdet:

-Vi er super glade for samarbejdet med Nota, der betyder, at Digitaliseringsstyrelsen nu for første gang selv er udgiver af et tekst- og taledatasæt.

-Når vi er flere, der open sourcer datasæt, store som små, kan vi forhåbentlig bidrage til det arbejde, som mange dygtige folk hver dag gør for at udvikle og forbedre dansksproget kunstig intelligens til gavn for os alle.

For feedback eller spørgsmål i forhold til datasættet, kontakt sprogteknologi.dk på:

info@sprogteknologi.dk eller på telefon 20 34 00 66.

 

For yderligere spørgsmål, kan man også kontakte Notas IT-chef Jonas Manley på: jmy@nota.dk