Sakset/Fra hofta

Den som følger med i nyhetsbildet, kan ikke unngå å legge merke til at det ofte publiseres resultater av spørreundersøkelser. Av og til får man høre at et bestemt resultat har den ene eller den andre feilmargin, eller hvor mange som er blitt spurt.

Hvordan kan de som utarbeider slike undersøkelser, vite hva feilmarginen er?

Spørsmålet er aktualisert fordi det er blitt reist kritikk mot en spørreundersøkelse omtalt i avisen Utrop, hvor 65 personer var spurt. Dette tallet er mindre enn det som vanligvis ligger til grunn for eksempelvis politiske meningsmålinger, men det kan være høyere enn antall personer i et utvalg av kliniske data. Vitenskapelige publikasjoner i medisin kan skrives på bakgrunn av statistikk over færre observasjoner enn 65. Har man ikke hatt flere pasienter eller funnet flere forsøkspersoner, er det ikke bare å trylle frem flere eller hanke inn hvem som helst.

Hvor mange man må spørre, eller kan spørre, i en undersøkelse avhenger altså av situasjonen.

I det følgende gjøres et forsøk på å forklare hovedtrekkene i den enkleste teorien som ligger til grunn for beregninger av feilmargin.

La oss tenke oss at vi ønsker å finne ut hvor mange mennesker i Norges land som spiser pinnekjøtt på julaften. Eksemplet er tilfeldig. Vi kunne like gjerne ha spurt oss hvor mange som en eller annen gang i livet synes de har fått mindre hodepine av en dispril, eller hvor mange som går på ski første nyttårsdag.

Hvis dette ukjente tallet divideres med Norges befolkning, er resultatet en andel av befolkningen. Om det f.eks. er 25 % av befolkningen som spiser pinnekjøtt på julaften, er en ekvivalent formulering at sannsynligheten er 25 % for at en tilfeldig nordmann gjør nettopp dét. Med matematisk notasjon formuleres det som at p = 0,25 (hvor p står for probability, en størrelse som alltid er mellom 0 og 1).

Å finne den eksakte p er i praksis en uoverkommelig oppgave, da det innebærer at man må henvende seg til fem millioner mennesker. Selv ikke med de ressursene som er tilgjengelige ved et stortingsvalg, er det mulig.

Løsningen er derfor å spørre et begrenset antall mennesker, telle hvor mange som besvarer spørsmålet positivt, og regne ut et estimat av p. Spør man ett tusen mennesker og tre hundre sier at de spiser pinnekjøtt, er vårt estimat for p = 0,3.

Det er opplagt at dette estimatet vil variere fra gang til gang. Om man spør tilskuerne som kommer ut av Brann stadion, vil resultatet antagelig bli et annet enn om man spør dem som kommer ut av en vegetarrestaurant.

For å oppnå et sikrest mulig estimat trenger man altså et representativt utvalg. Men hvis man ikke vet hvem som er representative, må man spørre et tilfeldig antall mennesker. Dette er nokså vanskelig, siden de færreste har muligheten til å sette seg ned med folkeregisterets fem millioner navn og plukke ut tusen tilfeldige personer. Og om de kunne gjøre det, ville de kanskje ikke få fatt i alle sammen, eller noen av dem kunne nekte å besvare spørsmålet, eller svare løgnaktig.

Det er likevel mulig å komme nokså nær denne idealsituasjonen ved å ringe tilfeldige telefonnumre, og ellers sette sin lit til at de færreste har noen glede av å lyve om hva de spiser på julaften.

Selv om man skulle klare å intervjue et antall tilfeldige personer, ville antallet som svarer positivt, likevel variere fra en gang til en annen. Men vi har vel en følelse av at jo flere vi spør, desto mindre ville estimatene variere fra gang til gang. De blir sannsynligvis mer treffsikre.

Men hvor treffsikre? Og med hvilken sannsynlighet?

For å svare på det behøves litt matematisk tenkning.

Vi kan i første omgang tenke oss at fem millioner små svarte kuler ligger i en gryte. Så kommer den allvitende Vårherre og farger et antall kuler hvite som svarer til de på julaften pinnekjøttspisende innbyggerne i Norge. Her gjøres ingen distinksjon mellom torsk og ribbe.

Matematikere gjør slike tankeleker hva enten de tror på Vårherre eller ei (om de er skapt i hans bilde eller de har skapt ham i sitt eget), akkurat som de kan tenke på Los Angeles som et punkt uten utstrekning, hvis den absurditeten er hensiktsmessig. I tankene er vi allmektige.

Men vi har ikke tid til å undersøke hver eneste kule for å se om den er svart eller hvit, så vi plukker ut et begrenset antall i blinde – tjue, seksti eller tusen. Vi tenker oss, slik f.eks. Snorre Valen har for vane, at noen har rørt i gryten. På den måten er de hvite kulene blitt jevnt, men tilfeldig fordelt blant de svarte, og vi bestreber oss på å plukke fra forskjellige tilfeldige steder.

Anta at vi plukker ut tjue kuler. Hvis vi gjør dette eksperimentet én gang, vil vi sitte igjen med et antall x hvite kuler mellom null og tjue. Vårt estimat for p blir da x delt på tjue.

Men dette estimatet er heftet med usikkerhet. La oss prøve å forstå den usikkerheten.

Vi tenker oss at eksperimentet gjentas et høyt antall ganger, kanskje en million ganger. Vi teller opp hvor mange ganger vi ender opp med hvert av tallene mellom én og tjue. De respektive tallenes andeler av den millionen kan så illustreres i et histogram.

Hvis det virkelig er slik at det er 25 % av befolkningen som spiser pinnekjøtt på julaften, forventer vi at den høyeste søylen i det histogrammet svarer til tallet 5, som er 25 % av 20, at de nest høyeste svarer til 4 og 6, og så videre. Hele histogrammet vil vise det man kaller en binomisk fordeling.

binomialfordeling_n=20_p=0,25

Det er mulig å beregne teoretisk hvordan verdiene i histogrammet over fremkommer. Til det behøves en lengre utredning det ikke er plass til her, som involverer kombinatorikk – på hvor mange måter er det mulig å plukke ut x elementer fra et større totalt antall y.

Det fiffige er at den profilen som histogrammet ville avtegne, svarer nokså bra til en såkalt normalfordeling, også kjent som en gausskurve. Denne kurven har som kjent form omtrent som en slags kirkeklokke.

Det er svært lite sannsynlig at vi plukker ut et antall hvite kuler som svarer til et punkt på kurven der verdien er nesten null, og det er svært sannsynlig at det antallet befinner seg i et intervall som svarer til mesteparten av arealet under kurven.

Normalfordelingen er i sin helhet definert ved middelverdien, toppunktet i kurven (5 i figuren over), samt det såkalte standardavviket, som angir avstanden mellom toppunktet og infleksjonspunktene (ca. 3 og ca. 7 i figuren over, dvs. standardavviket er ca. 2).

Den som tar et kurs i sannsynlighetsregning og statistikk ved et universitet, kan forhåpentligvis lære at standardavviket i normalfordelingen som tilnærmer dette histogrammet, er kvadratroten av np(1-p), hvor n i vårt tilfelle er 20. Hvis det virkelig er slik at p = 0,25 er standardavviket ca. 2.

En tommelfingerregel for normalfordelte variable, er at de har litt over 95 % sannsynlighet for å befinne seg innenfor et intervall definert ved middelverdien pluss/minus to standardavvik.

Dette innebærer enkelt fortalt – igjen må viktige detaljer utelates – at hvis vi spør tjue tilfeldige personer i Norge om hva de spiser på julaften, og fem av dem svarer pinnekjøtt, så kan vi med forholdsvis stor grad av sikkerhet si at en annen undersøkelse vil gi et resultat mellom tre og sju, slik at vi føler oss rimelig sikre på at den virkelige andelen er et sted mellom 15 % og 35 %, med 25 % som vårt beste estimat.

Om vi endelig vender tilbake til Utrops undersøkelse, var n = 65 og p = 0,35. Det gir et standardavvik på ca. 4. Om 23 av de 65 svarte bekreftende, kan man med høy grad av sikkerhet si at en tilsvarende undersøkelse ville resultere i et sted mellom 15 og 31 bekreftelser, dvs. at den virkelige andelen som frykter vold fra familien ved brudd på æreskodeks, er et sted mellom noen og tjue prosent og noen og førti prosent.

Det er et oppsiktsvekkende og viktig resultat uansett hvor i intervallet sannheten befinner seg.

At presisjonen ikke er den samme som for politiske meningsmålinger, er av begrenset interesse. For det behøves høy presisjon for å vite om høyre- eller venstresiden ligger an til å vinne et valg, mens det ikke behøves høy presisjon for å fastslå at altfor mange blir utsatt for vold fra familien.

Den eneste gyldige innvendingen som kan rettes mot Utrops undersøkelse, er dermed i hvilken grad minoritetsungdommene som svarte på den er tilfeldig utvalgt.

Den som måtte ønske å eksperimentere med tall selv, for å se hvor mange personer man må spørre for å oppnå denne eller hin grad av sikkerhet for at prosentandelen av befolkningen som ville svare bekreftende på et spørsmål, befinner seg i et større eller mindre intervall, kan gakke hen til en av de kalkulatorene på nettet som er spesiallaget for denslags utregninger, f.eks. denne.

Stiller man inn et sikkerhetsnivå på 99 % sannsynlighet nederst og plugger inn 23 bekreftende svar av 65 under «binomial», ser man at det såkalte konfidensintervallet for den reelle andelen er mellom 20,91 og 52,06 %, mens selve estimatet er 35,38 %.

Om vi skulle anta at svaret befinner seg i den nedre enden av intervallet, er det bare å avfeie en undersøkelse som med stor grad av sikkerhet sier at minst en femtedel av minoritetsungdommene i Oslo er redd for å bli utsatt for vold fra sin egen familie hvis de gjør ting som er brudd på æreskodene i deres egen klan, men som er fullstendig normalt for det store flertallet av norske ungdommer?

Svaret burde gi seg selv, men gjør det ikke. I et opplyst samfunn ville det gjort det. Vi er ikke der.