Kunstig intelligens overgår leger i test av akuttdiagnoser

En banebrytende studie fra Harvard har vist at systemer for kunstig intelligens (KI) presterte bedre enn menneskelige leger i akuttmedisinsk triage under høyt press, og stilte mer nøyaktige diagnoser i de potensielt livsviktige øyeblikkene når pasienter først blir kjørt til sykehuset. Dette melder The Guardian.

Resultatene ble av uavhengige eksperter beskrevet som «et reelt skritt fremover» i KI-systemers kliniske resonnement, og kom som en del av forsøk der hundrevis av legers responser ble sammenlignet med en KI.

Forfatterne sa at resultatene, publisert i tidsskriftet Science, viste at store språkmodeller (large language model, LLM) «har overgått de fleste referanseverdiene for klinisk resonnement».

Ett eksperiment fokuserte på 76 pasienter som ankom akuttmottaket på et sykehus i Boston. En KI og et par menneskelige leger fikk hver den samme standard elektroniske pasientjournalen å lese – som vanligvis inkluderte data om vitale tegn, demografisk informasjon og noen få setninger fra en sykepleier om hvorfor pasienten var der. KI-en identifiserte den eksakte eller svært nærliggende diagnosen i 67 % av tilfellene, og slo dermed de menneskelige legene, som bare hadde rett 50–55 % av gangene.

Det viste seg at KI-ens fordel var særlig uttalt i triagesituasjoner som krevde raske beslutninger med minimal informasjon. Diagnosenøyaktigheten til KI-en – OpenAIs o1-resonneringsmodell – steg til 82 % når flere detaljer var tilgjengelige, sammenlignet med 70–79 % nøyaktighet oppnådd av de menneskelige ekspertene, selv om denne forskjellen ikke var statistisk signifikant.

Den overgikk også en større gruppe menneskelige leger når den ble bedt om å utarbeide langsiktige behandlingsplaner, for eksempel å foreskrive antibiotikabehandling eller planlegge livsavslutningsprosesser. KI-en og 46 leger ble bedt om å undersøke fem kliniske casestudier, og datamaskinen laget betydelig bedre planer, med en score på 89 %, sammenlignet med 34 % for mennesker som brukte konvensjonelle ressurser, som søkemotorer.

Men det er ikke slutt for akuttlegene ennå, sa forskerne. Studien testet kun mennesker mot KI ved å se på pasientdata som kan kommuniseres via tekst. KI-ens tolkning av signaler, som pasientens grad av nød og deres visuelle utseende, ble ikke testet. Det betyr at den kunstige intelligensen fungerte mer som en kliniker som ga en annen vurdering basert på papirarbeid.

«Jeg tror ikke funnene våre betyr at KI erstatter leger», sa Arjun Manrai, en av hovedforfatterne av studien som leder et KI-laboratorium ved Harvard Medical School. «Jeg tror det betyr at vi er vitne til en virkelig dyptgripende endring i teknologien som vil omforme medisinen».

Meta skal spore ansattes tastetrykk for å trene kunstig intelligens

Dr. Adam Rodman, en annen hovedforfatter og lege ved Beth Israel Deaconess Medical Center i Boston, der studien ble gjennomført, sa at kunstig intelligens med store språkmodeller (LLM) var blant «de mest innflytelsesrike teknologiene på flere tiår».

I løpet av det neste tiåret, sa han, ville ikke KI erstatte leger, men bli en del av en ny «triadisk omsorgsmodell … legen, pasienten og et kunstig intelligenssystem».

I ett tilfelle i Harvard-studien hadde en pasient blodpropp i lungene og forverrede symptomer. Menneskelige leger trodde at antikoagulantene ikke virket, men KI-en la merke til noe menneskene ikke så: pasientens historie med lupus betydde at dette kunne være årsaken til betennelsen i lungene. KI-en fikk rett.

Nesten én av fem amerikanske leger bruker allerede KI som hjelp til diagnostisering, ifølge forskning publisert forrige måned. I Storbritannia bruker 16 % av legene teknologien daglig, og ytterligere 15 % ukentlig, med «klinisk beslutningstaking» som en av de vanligste bruksområdene, ifølge en fersk undersøkelse fra Royal College of Physicians.

De britiske legenes største bekymringer var KI-feil og ansvarsrisiko. Det investeres milliarder i KI-helsevirksomheter, men det er fortsatt spørsmål om konsekvensene av KI-feil.

«Det finnes ikke noe formelt rammeverk for ansvarlighet akkurat nå», sa Rodman, som også understreket at pasienter i siste instans «ønsker at mennesker skal veilede dem gjennom liv-eller-død-beslutninger [og] gjennom utfordrende behandlingsbeslutninger».

Prof. Ewen Harrison, meddirektør ved University of Edinburghs senter for medisinsk informatikk, sa at studien var viktig og viste at «disse systemene ikke lenger bare består medisinske eksamener eller løser kunstige testtilfeller. De begynner å fremstå som nyttige verktøy for å innhente en annen vurdering for klinikere, særlig når det er viktig å vurdere et bredere spekter av mulige diagnoser og unngå å overse noe viktig».

Dr. Wei Xing, førsteamanuensis ved University of Sheffields fakultet for matematiske og fysiske vitenskaper, sa at noen av de andre funnene tyder på at leger ubevisst kan la seg påvirke av KI-svaret i stedet for å tenke selvstendig.

«Denne tendensen kan bli mer utbredt etter hvert som KI blir mer rutinemessig brukt i kliniske miljøer», sa han. Han påpekte også mangelen på informasjon om hvilke pasienter KI-en var dårligere til å diagnostisere, og om den slet mer med eldre pasienter eller pasienter som ikke snakker engelsk.