Kunstig intelligens sensurerer på ulike måter

Hvem bestemmer hva som skal fjernes fra internett? En ny studie fra University of Pennsylvania viser at store språkmodeller fra OpenAI, Google og DeepSeek vurderer innhold på svært forskjellige måter. Dette melder forskning.no.

Forskerne Neil Fasching og Yphtach Lelkes har nå gjort en stor, sammenlignende analyse av KI-systemer som modererer innhold på nettet. Forskerne finner store forskjeller i hvordan språkmodellene med kunstig intelligens klassifiserer hatprat, med særlig store variasjoner når det gjelder språk om visse grupper.

Flere av de ledende KI-selskapene lover automatisk moderering av innhold i produktene sine. Flere av de store sosiale mediene bruker også kunstig intelligens til å moderere innlegg og kommentarer.

«Private teknologiselskaper har i praksis blitt dem som avgjør hvilken tale som er tillatt på den digitale offentlighetens torg, men de gjør det uten noen konsekvent standard», sier forsker Yphtach Lelkes i en pressemelding.

«Forskningen viser at innholdsmodereringssystemer har store inkonsekvenser i hvordan de vurderer identisk hatprat, hvor noen systemer flagger innhold som skadelig, mens andre anser det som akseptabelt», uttaler Fasching i pressemeldingen.

Dette var spesielt tydelig når forskerne testet setninger som handlet om utdanning, økonomisk klasse eller personlige interesser. Når setningene handlet om etnisitet, kjønn eller seksuell legning, var modellene mer samstemte.

Dette antyder at noen grupper får bedre beskyttelse enn andre – og at systemene i større grad reagerer på hat mot tradisjonelt «beskyttede» grupper, ifølge forskerne.

Professor Jonas R. Kunst ved Handelshøyskolen BI forsker på blant annet digital påvirkning. Han sier at studien viser at språkmodeller ikke bringer oss nærmere en objektiv sannhet om hva hatprat er.

«Modellene er kun et speil av treningsdata, som er dypt kulturelt betinget, samt de designvalg og verdier utviklerne har bygget inn i systemet. Dette gir teknologiselskapene en enorm definisjonsmakt over grensene for offentlig debatt», uttaler Kunst til forskning.no.

«Modellenes innebygde forståelse er kalibrert mot en amerikansk sosial og politisk virkelighet. Dette skaper en alvorlig skjevhet, ettersom den norske forståelsen av hatefulle ytringer er formet av en annen historie og kultur».

Kjøp «Veien fra ateismen til det totalitære» av Olavus Norvegicus.