
Digitaliseringminister Karianne Tung og Riksrevisor Karl Eirik Scjøtt-Pedersen er blant de som har skrytt mye av potensialet i kunstig intelligens. Foto: Arbeiderpartiet og Stortinget.
Kunstig intelligens hauser seg selv
Er det riktig at kunstig intelligens kan effektivisere arbeidsoppgaver tilsvarende 155 000 årsverk i norsk offentlig sektor? En gruppe forskere stiller kritiske spørsmål ved om det er samsvar mellom ambisjonenes størrelse og kunnskapsgrunnlaget som underbygger dem.
I en ny artikkel i siste nummer av Stat & Styring gjør forskerne Ståle Grut, Alexander Moltubakk Kempton og Hilde Reinertsen ved Universitetet i Oslo en undersøkelse av kunnskapsgrunnlaget for den ambisiøse satsingen på kunstig intelligens som regjeringen love. Det er spesielt en rapport forskerne mener bør behandles med mer varsomhet.
Ambisiøse politiske målsetninger
Digitaliserings- og forvaltningsminister Karianne Tung har satt et mål om at 80 prosent av offentlig sektor skal ta i bruk kunstig intelligens innen 2025, med sikte på at alle statlige virksomheter bruker KI innen 2030. I den nasjonale digitaliseringsstrategien beskrives KI som en potensiell "gamechanger" og "banebrytende teknologi" som kan løse store samfunnsutfordringer, øke produktiviteten og forbedre velferdssamfunnet.
Slike visjoner gjentas av Riksrevisjonen, i forskningsrapporter og i media. Riksrevisoren selv har uttalt at digitalisering og KI vil være "helt avgjørende for å lykkes med å opprettholde den norske velferdsstaten". Det etterlatte inntrykket er at KI vil redde velferdsstaten ved hjelp av betydelig produktivitetsøkning og automatisering av arbeidsoppgaver.
Sporet til tallet 155 000
UiO-forskerne prøver i sin artikkel å finne opphavet til et konkret tall som er blitt brukt som grunnlag for disse optimistiske påstandene om effektene av KI; påstanden om at 155 000 årsverk kan spares ved bruk av denne teknologien. Det er et tall som har blitt gjengitt i Aftenposten, Dagens Næringsliv, flere andre medier, og i Venstres partiprogram. Tallet spores først til Riksrevisjonen, som i sin rapport "Bruk av kunstig intelligens i staten" fra september 2024 skrev at "ved full utnyttelse av dagens teknologi for kunstig intelligens, kan offentlig sektor effektivisere arbeidsoppgaver som årlig vil tilsvare 155 000 årsverk, ifølge rapporten."
Men Riksrevisjonen henviser til en annen kilde: et notat fra konsulentselskapet Menon Economics med tittelen "KI: Betydning for arbeidsstyrken". Dette notatet er altså den egentlige kilden til tallet som nå brukes i politisk argumentasjon og som legger premisser for norsk KI-politikk.
Menons metode: GPT-4 evaluerer seg selv
Menon Economics' notat er på i overkant av 30 sider og er detaljert i sin metodebeskrivelse. Kjernen i metoden er at de bruker OpenAIs GPT-4 til å vurdere hvor effektiv en språkmodell kan være for å løse ulike arbeidsoppgaver. De hentet både metode og "prompt" (instruksjon til språkmodellen) fra et notat der tre av fire forfattere kommer fra OpenAI.
Metoden fungerer slik: Arbeidsoppgaver beskrives og kategoriseres per yrke basert på oversettelser mellom norsk og amerikansk yrkesklassifisering. Deretter spørres GPT-4 om å klassifisere hvilken effekt språkmodellbruk vil ha på hver oppgave, der høyeste effektkategori er å minst halvere tiden det tar å utføre oppgaven. Om en oppgave vurderes som å ha god effekt, beregnes en tidsbesparelse. Disse summeres så opp til totalt 155.000 årsverk for hele offentlig sektor.
Tre kritiske observasjoner
UiO-forskerne reproduserte Menons metode ved å utvikle et Python-program og gjøre manuelle steg. De kom frem til samme tall som Menon, men gjorde tre observasjoner av stor betydning:
1. Stor variasjon i tallene: GPT-4 er en stokastisk språkmodell, noe som betyr at den produserer ulike svar hver gang. Da forfatterne spurte GPT-4 fem ganger om samme yrkesgruppe, varierte resultatene mellom 20% og 33% effektiviseringspotensial. Menon velger det laveste tallet, men forfatterne spør: Kunne ikke det riktige tallet like gjerne vært det høyeste eller det i midten?
2. Problematisk kategorisering: Ved oversettelse mellom norsk og amerikansk yrkesklassifisering slås ulike kategorier sammen. For eksempel svarer kategorien "barnehage- og skolefritidsassistenter" i Norge til både assistenter OG deres personalledere i amerikansk standard. Når en lederoppgave (som personalplanlegging) brukes til å beregne effektiviseringspotensial for alle assistenter, blir beregningen misvisende.
3. Promptens utforming avgjør resultatet: Forfatterne fant at det utgjør enorm forskjell om man spør GPT-4 om hver arbeidsoppgave separat eller samler dem i ett langt prompt. For barnehage- og skolefritidsassistenter ga samlet spørring 12% effektiviseringspotensial, mens separate spørringer ga bare 3%. Dette ville gitt et totaltall langt lavere enn 155 000.
UiO-forskerne karakteriserer denne metoden som en form for "maskinell spekulasjon". Mens språkmodeller er gode på å produsere velskreven tekst og løse oppgaver med objektive kriterier, er ikke framtidsprediksjonene like gode. Å la GPT-4 vurdere sin egen effekt på arbeidsmarkedet er problematisk – særlig når forfatterne av den underliggende metoden er ansatt i OpenAI og potensielt har økonomiske insentiver for å fremstille modellens egenskaper positivt, noe Menon selv påpeker i en senere publikasjon.
Frakobling: Hvordan tallet får nytt liv
Artikkelen til Grut, Kempton og Reinertsen dokumenterer hvordan tallet gjennomgår en transformasjon når det flytter seg fra dokument til dokument. I Menons resultatdel handler det om effekt av "språkmodeller" spesifikt. I sammendraget blir dette til "KI" generelt – en viktig forskjell som følger med videre: «Ved fullstendig utnyttelse av KI slik som teknologien står i dag, kan offentlig sektor effektivisere arbeidsoppgaver som årlig vil tilsvare 155 000 årsverk i sektorer som helse, undervisning og offentlig administrasjon.»
Når Riksrevisjonen siterer Menon, kommer formuleringen ordrett tre steder i deres rapport, men uten de metodiske forbeholdene. Tallet får status som "forskningsbasert" kunnskap fra et "analyse- og rådgivningsselskap". Når Stortinget behandler rapporten, kopieres teksten igjen – nå uten presis kildehenvisning til Menons notat.
I media og politiske programmer begynner tallet å tilskrives Riksrevisjonen selv, ikke Menon. Venstres Alfred Bjørlo blir sitert på at "Riksrevisjonen anslår" dette tallet. Små tekstlige forskyvninger – en formulering kopieres, litt andre ord velges, ny kontekst og ny avsender – og forbeholdene blir liggende igjen. Forfatterne kaller denne prosessen "frakobling": Tallet kobles løs fra sin opprinnelige kontekst og reiser videre alene, med potensielt svært store konsekvenser.
Paradokset: Usikker metode, sikkert tall
Interessant nok anerkjenner Menon selv at metoden er "beheftet med stor usikkerhet" og at språkmodeller har "stokastiske egenskaper". Likevel framhever de at deres fremgangsmåte er "unik" ved å koble "etablert internasjonal forskningsmetodikk" med norske data, og at anslagene gir "nyttig innsikt" for planlegging. Dette paradokset – samtidig usikker og nyttig – er typisk for konsulentprodusert kunnskap, påpeker forfatterne.
Når usikkerheten diskuteres eksplisitt, fører det ikke til stans eller større varsomhet. Tvert imot: Tallet blir stadig sikrere for hver gang det hentes videre i nye dokumenter. Forbeholdene frakobles og følger ikke med, mens selve tallet får mer tyngde og autoritet.
Alvorlige implikasjoner
Forfatterne peker på de potensielt alvorlige konsekvensene av at staten fatter store beslutninger på et sviktende kunnskapsgrunnlag uten å vite det. Det er påfallende fravær av kritisk problematisering omkring hva vi egentlig vet om KI-potensial. Er dette i hovedsak hypoteser og visjoner? Overvurderes mulighetene?
De konkrete konsekvensene av overilt implementering vises i eksempelet fra Tromsø kommune, der ChatGPT ble brukt til å utarbeide kunnskapsgrunnlag for ny barnehage- og skolestruktur. Resultatet inneholdt referanser til kilder som ikke eksisterer, noe som førte til skandale, ekstern granskning og avganger. Denne saken ble avslørt ved en tilfeldighet – men mange lignende saker blir trolig ikke det.
Stadig sikrere for hvert dokument
Forfatterne konkluderer med at det er et påfallende fravær av problematisering omkring hva vi egentlig vet om potensialet for KI-bruk. Mens visjoner og hypoteser presenteres som sikker kunnskap, får små tekstlige operasjoner store konsekvenser: En formulering kopieres, litt andre ord velges, forbeholdene blir liggende igjen – og tallet får stadig mer autoritet og sannhetsverdi på sin reise gjennom dokumentkjeden.
Dette er ikke bare et spørsmål om overdreven tillit til tall, men om hvorvidt vi griper til KI som en potensiell løsning på samfunnsproblemer som egentlig er svært vanskelige å løse, og om vi overvurderer mulighetene og besparelsene KI faktisk kan levere.