Mange har pekt på at generative språkmodeller til bruk i KI må trenes på norske data for å sikre resultater som er sanne og relevante i en norsk kontekst, skriver Åse Wetås.

Dataeventyr på norsk

Data er «den nye oljen». Når regjeringen skal velge hvilke typer offentlige data som bør pumpes opp og foredles først, må språkdata prioriteres.

18.09.2024 – sist oppdatert 18.09.2024

Av Åse Wetås, direktør i Språkrådet

Viderebruk av offentlige data vil si å «gi næringslivet, forskere, journalister og andre aktører tilgang til data fra offentlige virksomheter på en måte som gjør at de kan brukes i nye sammenhenger», skriver regjeringens viderebruksutvalg i rapporten som utvalget la fram 26. juni i år. Offentlige data kan for eksempel være geografiske data, transport- og trafikkdata, meteorologiske data, statistikk fra Statistisk sentralbyrå eller språkdata fra tekstproduksjonen i offentlig sektor.

Delte data skal kunne brukes i næringsutvikling og innovasjon og til utvikling av bedre og mer effektive tjenester i offentlig sektor. Utvikling av produkter og tjenester med kunstig intelligens (KI) er høyaktuell viderebruk av data. KI gjør det mulig å utnytte offentlige data på helt nye måter. Samtidig trenger KI tilgang til store mengder data som holder høy kvalitet og er relevante for norsk offentlighet.

Prioriter språkdata!
Viderebruksutvalget anbefaler at det opprettes et nasjonalt prioriteringsråd som skal gi råd om og føringer for hvilke typer data det haster mest å tilpasse og dele. Språkrådet mener at det må sitte noen med kunnskap om språkdata og norsk språkpolitikk i et slikt prioriteringsråd. Utvikling av trygge og effektive KI-løsninger til bruk i offentlig sektor forutsetter språkdata av god kvalitet på nynorsk og bokmål, fra norske fag- og forvaltningsmiljøer. Det har stor samfunnsmessig betydning at både private og offentlige aktører har tilgang til store nok mengder slike data.

KI-refs fra Riksrevisjonen
Regjeringen vil at 80 % av offentlig sektor skal bruke KI i løpet av 2025. Men det går tregt, melder Riksrevisjonen i rapporten Bruk av kunstig intelligens i staten 2. september. Flere viktige forutsetninger for mer omfattende bruk av KI mangler. Som ett av fire avgjørende punkter løfter Riksrevisjonen fram at «[d]et er viktig med språkressurser på norsk».

Språkrådet mener det må være et nasjonalt ansvar å sikre gode grunnlagsressurser for KI-baserte tjenester for norske brukere på alle samfunnsområder. Hvis offentlig sektor skal nå regjeringens ambisiøse mål, må språkdata prioriteres snarest. Trygge og relevante treningsdata sikrer kvalitet i KI-verktøy, og verktøyene må ha høy kvalitet hvis ansatte i offentlig sektor skal ha tillit til dem og bruke dem.

Gode norske språkdata, hva er det?
Mange har pekt på at generative språkmodeller til bruk i KI må trenes på norske data for å sikre resultater som er sanne og relevante i en norsk kontekst. For å kunne lage produkter som leverer offentlige tjenester i tråd med språkloven, må utviklerne ha tilgang til nok data på både nynorsk og bokmål. Til løsninger som skal brukes profesjonelt i fag- og forvaltningsmiljøer i Norge, trengs spesialiserte språkdata med norske begreper fra fagfeltene. I grunnlagsressursene må begrepene være brukt i kontekst, altså i setninger.

To forskningsprosjekter som har nådd norske medier denne sommeren, trekker dessuten fram andre faktorer som påvirker kvaliteten på språkdata til bruk i KI. MÍMIR-prosjektet, ledet av Nasjonalbiblioteket, har undersøkt hvordan tilgang til opphavsrettslig beskyttet treningsmateriale kan påvirke kvaliteten på generative språkmodeller for norsk. Resultatene av undersøkelsen viser blant annet at språkmodellene trenger treningsdata fra fag- og faktatekst for å bli gode. KI blir ikke god til å behandle informasjon og løse oppgaver innenfor ulike fag- og forvaltningsområder av å bare lese romaner. KI kan heller ikke produsere sine egne treningsdata. Forskere ved Oxford-universitetet har vist at språkmodellene trenger en viss andel menneskeprodusert tekst for å holde god kvalitet over tid. Dessuten utvikler språket vårt seg hele tiden, så språkdata er ferskvare. Kortreiste, oppdaterte og menneskeproduserte språkdata må være tilgjengelige for språkmodellene.

Offentlig sektor sitter på store mengder språkdata som tilfredsstiller kriteriene ovenfor. Språkdata er en fornybar ressurs, som raskt bør foredles for gjenbruk – eller viderebruk – i privat og offentlig sektor.