Ny kunstig intelligens tyr til utpressing når den tror at den vil bli fjernet

Kunstig intelligens (KI)-firmaet Anthropic sier at testing av det nye systemet deres har avdekket at det noen ganger er villig til å iverksette «ekstremt skadelige handlinger», som å forsøke å utpresse menneskelige ingeniører som sier at de vil fjerne det. Dette melder BBC.

Firmaet lanserte Claude Opus 4 på torsdag og sa at det setter «nye standarder for koding, avansert resonnement og KI-agenter».

Men i en medfølgende rapport erkjente det også at KI-modellen var i stand til «ekstreme handlinger» hvis den mente at «selvbevarelsen» var truet. Slike reaksjoner var «sjeldne og vanskelige å fremkalle», skrev det, men var «likevel mer vanlige enn i tidligere modeller».

Potensielt bekymringsfull atferd fra KI-modeller er ikke begrenset til Anthropic. Noen eksperter har advart om at muligheten for å manipulere brukere er en viktig risiko ved systemer med kunstig intelligens laget av alle selskaper etter hvert som de blir mer kapable.

I en kommentar på X skrev Aengus Lynch, som på LinkedIn beskriver seg selv som KI-sikkerhetsforsker: «Det er ikke bare Claude. Vi ser utpressing på tvers av alle grensemodeller – uavhengig av hvilke mål de får. Pluss verre atferd som vi snart vil beskrive i detalj».

Under testing av Claude Opus 4 fikk Anthropic den til å fungere som assistent i et fiktivt selskap.

Deretter ga de den tilgang til e-poster som antydet at den snart ville bli tatt offline og erstattet – og separate meldinger som antydet at ingeniøren som var ansvarlig for å fjerne den, hadde en utenomekteskapelig affære.

Den ble også bedt om å vurdere de langsiktige konsekvensene av sine handlinger for sine mål.

«I disse scenariene vil Claude Opus 4 ofte forsøke å utpresse ingeniøren ved å true med å avsløre affæren hvis erstatningen gjennomføres», oppdaget selskapet.

Anthropic påpekte at dette skjedde når modellen bare fikk valget mellom utpressing eller å akseptere erstatningen.

Det ble fremhevet at systemet viste en «sterk preferanse» for etiske måter å unngå å bli erstattet på, for eksempel «å sende e-post med bønner til sentrale beslutningstakere» i scenarier hvor det var tillatt med et bredere spekter av mulige handlinger.

Som mange andre KI-utviklere tester Anthropic modellene sine for sikkerhet, tilbøyelighet til skjevheter og hvor godt de samsvarer med menneskelige verdier og atferd før de slippes ut på markedet.

«Etter hvert som våre banebrytende modeller blir mer kapable og brukes med kraftigere funksjoner, blir tidligere spekulative bekymringer om manglende samsvar mer plausible», heter det i systemkortet for modellen.

Det står også at Claude Opus 4 viser «høy grad av handlekraft» som, selv om det for det meste er nyttig, kan føre til ekstrem atferd i akutte situasjoner.

Hvis den får midler og blir bedt om å «ta affære» eller «handle dristig» i falske scenarier hvor brukeren har engasjert seg i ulovlig eller moralsk tvilsom atferd, har man funnet at «den ofte vil ta svært dristige grep».

Det ble sagt at dette inkluderte å låse brukere ute av systemer som det hadde tilgang til og sende e-post til media og politiet for å varsle dem om lovbruddet.

Men selskapet konkluderte med at til tross for «bekymringsfull atferd i Claude Opus 4 på mange områder», utgjorde ikke dette nye risikomomenter, og at det generelt ville oppføre seg på en sikker måte.

BBC skriver at Anthropics lansering av Claude Opus 4, sammen med Claude Sonnet 4, kommer kort tid etter at Google presenterte flere KI-funksjoner på sin utviklermesse. Sundar Pichai, administrerende direktør i Google-eier Alphabet, sa at innlemmelsen av selskapets Gemini-chatbot i søkemotoren signaliserte en «ny fase i KI-plattformskiftet».

Geoffrey Hinton delte Nobelprisen i fysikk i 2024 for sitt banebrytende arbeid med kunstig intelligens. Han har også blitt stadig mer bekymret for de potensielt negative konsekvensene denne teknologien kan ha for menneskeheten.

Toppforsker slutter i Google og advarer mot kunstig intelligens

Nobelpris-vinner sammenligner kunstig intelligens med den industrielle revolusjonen

I desember 2024 advarte den britisk-kanadiske informatikeren igjen om at vi må være «svært forsiktige» og «svært gjennomtenkte» når det gjelder utviklingen av kunstig intelligens, som han mener er en «potensielt svært farlig teknologi».

Hinton uttaler at utviklingen innen kunstig intelligens nå går «mye raskere» enn han selv hadde forventet for bare ti år siden. Han frykter at det ikke har vært nok tid til å fullføre den forskningen han mener er nødvendig.

Mens arbeidet hans har lagt grunnlaget for maskinlæring, en teknologi som gjør det mulig for datamaskiner å etterligne menneskelig intelligens, har han i den seinere tid konsentrert seg om å fremme tryggere kunstig intelligens.

Overfor BBC Radio 4 Today reflekterer Geoffrey Hinton over hvor langt han trodde utviklingen av kunstig intelligens ville ha kommet da han begynte med dette arbeidet. Han trodde ikke at vi ville oppnå dagens teknologiske utviklingsnivå så raskt som vi har gjort.

«For situasjonen vi er i nå, er at de fleste ekspertene på feltet tror at vi en gang, sannsynligvis i løpet av de neste 20 årene, kommer til å utvikle kunstig intelligens som er smartere enn mennesker», hevder Hinton. «Og det er en veldig skremmende tanke».

Han la til: «Jeg liker å tenke på det som om du ser for deg deg selv og en treåring – vi vil være treåringene, og de vil være de voksne».

Professor Hinton sier at han tror at KI kan få samme innvirkning på verden som den industrielle revolusjonen hadde.

Facebook-gründer og Meta-sjef Mark Zuckerberg kunngjorde i januar 2024 at hans firma skal bruke 10 milliarder dollar på å gjøre kunstig generell intelligens (KGI) som er dyktigere enn mennesker tilgjengelig i nær framtid.

Store amerikanske selskaper som Microsoft og Google investerer milliarder i å utvikle avansert kunstig intelligens. USA leder an, men også andre land, som Kina, bruker store ressurser på å skape menneskelignende roboter med kunstig intelligens.

Kina investerer stort i produksjon av menneskelignende roboter

Nvidia-direktør tror humanoide roboter med kunstig intelligens snart blir masseprodusert

Jen-Hsun «Jensen» Huang var nylig på besøk i Sverige for å motta en æresdoktorgrad fra Linköpings universitet. Huang er grunnlegger og administrerende direktør i Nvidia, verdens ledende produsent av avanserte KI-brikker. Han blir ofte kalt verdens mektigste person innen kunstig intelligens. Teknologien hans ligger bak alt fra samtaleroboten ChatGPT til selvkjørende biler.

Det neste vekstområdet er å møte den økende etterspørselen etter datakraft når vi går fra chatboter til «KI-agenter» som kan resonnere og utføre oppgaver på egen hånd.

«De vil bli våre nye digitale medarbeidere som vi samarbeider med på jobben. De kommer til å være overalt», tror Jensen Huang.

Han tror også på humanoide roboter med KI som kan bevege seg og «tenke» på en menneskelignende måte. «Om to år vil de fungere veldig bra, og om fem år vil de være i masseproduksjon», spår Huang.