Annette Gohn Hellum Riksrevisjonen

Ekspedisjonssjef Annette Gohn-Hellum i Riksrevisjonen mener de kunne gjort det klart hvordan tallet for antall stillinger spart ved KI bruk var generert. Foto: Riksrevisjonen.

Riksrevisjonen erkjenner svikt

Riksrevisjonen innrømmer at de burde ha vært mer åpne om hvordan et sentralt tall i deres rapport om kunstig intelligens i staten ble fremskaffet. Tallet på 155 000 årsverk som kunne spares gjennom KI, stammet fra ChatGPT – en detalj som ikke ble nevnt i den opprinnelige rapporten.

22.10.2025 – sist oppdatert 23.10.2025

Av Arild Aspøy

Dette kommer fram i en artikkel i Aftenposten som følger opp vår artikkel om dette KI-genererte tallet. Tallet som er blitt brukt både av Riksrevisjonen og av Digitaliserings- og forvaltningsdepartementet, viser seg å være svært usikkert.

Riksrevisjonens erkjennelse

Annette Gohn-Hellum, ansvarlig ekspedisjonssjef i Riksrevisjonen, sier i en epost til Aftenposten at hun forstår at spørsmålet stilles. Hun erkjenner at de burde ha forklart tallet bedre, særlig at KI var brukt for å komme frem til det. Samtidig understreker hun at tallet først og fremst var ment som en illustrasjon på effektiviseringspotensialet, ikke som et avgjørende grunnlag for Riksrevisjonens konklusjoner og kritikk.

Etter å ha gått gjennom rapporten på nytt, innser Riksrevisjonen at de også burde ha forklart hvordan konsulentselskapet Menon Economics kom frem til tallet. Gohn-Hellum er likevel positiv til at dette nå diskuteres.

Aftenposten avslører: Forskerartikkel kritiserer metoden

Aftenposten tar utgangspunkt i artikkelen i Stat & Styring med tittelen «KI og effektivisering: Hvordan GPT-4 fant 155 000 overflødige årsverk i norsk offentlig sektor». I artikkelen får både metoden bak tallet og måten det ble brukt på kritikk fra forskere ved Universitetet i Oslo.

Tallet kommer opprinnelig fra et notat fra konsulentselskapet Menon Economics, som åpent beskriver at de har spurt en språkmodell – altså ChatGPT4 – om hvor effektiv en språkmodell kan være til å løse ulike arbeidsoppgaver. Fremgangsmåten de brukte er opprinnelig utviklet av ansatte i OpenAI, selskapet bak ChatGPT.

Sterk kritikk av metoden

Forskerne bak artikkelen i Stat & Styring ser på dette som en form for spekulasjon fra den kunstige intelligensen selv. Men det mest alvorlige, mener Ståle Grut som er en av forskerne, er hvordan tallet tas opp og brukes andre steder. Han og kollegene stusser både på metoden konsulentselskapet har brukt, og spesielt på måten Riksrevisjonen bruker tallet på og koblingen til argumentet om at staten «henger etter» på bruk av kunstig intelligens.

Tallet ble fremhevet i dokumenter som ble sendt til Stortinget og i presentasjonen til pressen om rapporten. Spesielt kritiske er forskerne til påstanden om at språkmodeller skal kunne kutte 15 000 årsverk i barnehager og skolefritidsordninger – noe som tilsvarer 15-20 prosent av arbeidsstyrken i denne sektoren.

"Ukritisk bruk av et tall foreslått av GPT-4, bidrar til å legge premissene for fremtidens norske KI-politikk," skriver forskerne i sin artikkel i Stat & Styring.

Tallet har også fått stor spredning utover Riksrevisjonens egen rapport. Både medier og politiske partier har brukt det som eksempel, blant annet er det gjengitt i både Aftenposten og i Venstres program.

Menon forsvarer metoden

Kristoffer Midttømme, partner i Menon Economics, svarer på kritikken ved å påpeke at de har brukt en forskningsbasert metode. Han viser til at også Statistisk sentralbyrå valgte å benytte den samme metoden i 2025 da de skulle undersøke automatiseringspotensialet i en studie finansiert av Direktoratet for høyere utdanning og kompetanse.

Midttømme erkjenner overfor Aftenposten at beregningene er usikre, men mener at når de er åpne om metoden og usikkerheten i notatet, tilfører dette nyttig kunnskap. Han understreker at tallet illustrerer et potensial, og at det også har blitt presentert av andre som nettopp det. For konkrete investeringer i KI-teknologi må man gjøre mer detaljerte vurderinger av nytte og kostnader i hvert enkelt tilfelle, påpeker han.

På spørsmål om hva Menon tenker om at Riksrevisjonen brukte tallet uten å nevne metoden, svarer Midttømme at man ikke alltid refererer til hvilke metoder andre har brukt. Det viktigste for dem er at Riksrevisjonen har referert til dem i henhold til god sitatskikk, noe de mener er gjort.

Sitogenese og språkmodellenes hviskelek

I en kommentar til Aftenposten-artikkelen tar Harald Groven, webutvikler og statistiker i utdanningssektoren, opp fenomenet "sitogenese": Hvis et tall eller en påstand blir skrevet ned i en rapport eller forskningsartikkel et sted, blir det sitert videre og blir kilde til seg selv.

Groven påpeker at sitogenese forverres av KI-tjenester, siden disse soper inn tekst fra hele nettet og resirkulerer tekster uten menneskelig kildekritikk. Hvis tallet "155 000" siteres hyppig i mange rapporter om effektivisering av offentlig sektor, vil sannsynligheten for at ChatGPT bruker det som autoritativt svar ytterligere forsterkes, havne i enda flere dokumenter, som så siteres enda flere ganger av KI.

Digi.no: Berrefjord løfter frem Stat & Styring-artikkelen

Leder for Cyberprogrammet ved Institutt for forsvarsstudier Vivi Ringnes Berrefjord tar opp saken i nettmagasinet Digi.no under overskriften "Språkmodellenes hviskelek". Hun henviser til artikkelen i Stat & Styring og fremhever hvordan forskerne bak artikkelen måtte ned i et "kaninhull" for å spore tallets opprinnelse. Hun beskriver hvordan de etter et detektivarbeid utenfor hvermanns kapasitet og kompetanse fant at "fakta" delvis baserer seg på en språkmodells vurdering av egen effektivitet.

Basert på denne artikkelen peker Berrefjord på at flere tungtveiende analysepremisser ser ut til å ha forsvunnet da det glade effektiviseringsbudskapet ble delt. For eksempel at språkmodellers potensial samkokes til å omfatte all KI-teknologi, at spørsmålsformulering (prompts) får store utslag på estimert effektivitetspotensial, og at norske prediksjoner baserer seg på amerikansk yrkesklassifisering – til tross for at det norske og amerikanske helse- og utdanningssystemet skiller seg betydelig fra hverandre med hensyn til arbeidsoppgaver, kultur, profittincentiv og tilstedeværelsen av velferdsstaten.

Berrefjord understreker at artikkelen i Stat & Styring viser at det ikke er noen ondsinnede intensjoner her, men likevel er det nærmest ugjennomtrengelig å skille snørr og barter, som man sier det på fint.

Bredere perspektiv på dataforgiftning

I sin spalte i Digi.no refererer Berrefjord også til en annen studie som ligger åpent på nett, med tittelen «A small number of samples can poison LLMs of any size», signert av Anthropic, UK AI Security Institute, Alan Turing Institute, University of Oxford og ETH Zurich. Denne studien viser at dataforgiftning – altså at treningsdata intensjonelt manipuleres eller korrumperes – krever mye mindre gift og tilgang enn man har antatt.

Hun advarer om at informasjon flytter seg mellom dimensjoner og kontekster uten at forbehold, svakheter og premisser nødvendigvis blir med på lasset. Tall adopteres, og ulike premissleverandører låner bort sin troverdighet til estimater som sementeres som fakta. I møte med lange informasjonskjeder av klipp og lim kommer sunt bondevett til kort.

Berrefjord påpeker at hjernen bobler hvis man begynner å fundere på potensial for kupping av sannheten i en konflikt eller angrep på organisasjoners omdømme. Hun advarer om at med agentisk KI snakker vi om neste generasjons påvirkningsoperasjon.