Et av de mest brukte faktaene om normalfordelingen er at ca 95% av alle verdiene observeres innen 2 standardavvik fra midten*.
Vi trenger altså å vite både gjennomsnittet og standardavvik et for å få full oversikt, men det er også alt vi tenger å vite!
Hvis jeg får vite at gjennomsnittlig fødselsvekt er 3590 g, så vet jeg at fødselsvekt for små og store nurk varierer rundt dette, men jeg aner ikke hvor stor variasjonen er.
Hvis jeg derimot også får vite at standardavviket er 570 g, så har jeg alt jeg trenger.
Da tenker jeg:
- Fødselsvekt er nok temmelig normalfordelt, for hvis ikke hadde ikke gjennomsnittet og standardavviket vært fornuftige oppsummeringstall (og jeg antar at de som forteller meg dette er fornuftige), og
- Ca 95% av de nyfødte veier mellom 2450 g og 4730 g (2 standardavvik* på hver side av gjennomsnittet)
Var din(e) barn innenfor dette intervallet? Jeg forventer at ca 95% av dere (som har barn) svarer «ja». 🙂
Og hvis jeg forteller deg at gjennomsnittshøyden for norske kvinner er 168,7 cm, og at standardavviket er 5,8 cm, kan du regne med at høyde er temmelig normalfordelt, og regne ut at ca 95%* av norske kvinner er mellom 157 cm og 180 cm (rundet av til nærmeste hele cm).
Dette er supernyttig å vite når du skal forstå statistikk. Og det er derfor jeg har skrevet både oppskrift til, og blogginnlegg om skjerfene som vi strikker nå.
OBS: Jeg har nå prøvd hardt å finne flere eller bedre eksempler enn fødselsvekt, høyde og IQ, men selv om gjennomsnittsverdier oppgis nærmest overalt, er standardavviket en sjelden gjest i avisspaltene. Tenk så lurt vi kan bli hvis standardavviket ikke oppgis! Hvis du har gode eksempler på lager, tar jeg gjerne imot dem!
Er du lærer? En måte å lære bort dette er å kjøpe et klassesett med appelsiner og bruke appelsinskrelleundervisningsopplegget (beskrevet her) som utgangspunkt for å skissere både normalfordelingen, gjennomsnittet (tyngdepunktet) og de 6 standardavvikene.
Ferdige ppt-slides finner du her. Jeg har prøvd det i flere aldersgrupper og tør påstå at det fungerer fra 2. klasse (de klarer stort sett å skrelle en appelsin, men det klarer ikke alle førsteklassinger) til universitetet.
Er du ikke lærer, men bare klar for å strikke deg bort til 2 standardavvik over gjennomsnittet? Da fortsetter rillene fra i går, men i den fargen du hadde før de midterste 68,2% av skjerfet:
En rille med 48 masker, deretter (husk at alle fellingene må være løse nok, så ikke kanten nederst på skjerfet bøyer seg)
47
46
45
44
43
42
41
40
39
38
37
36
35
34
2 x 33
32
31
30
29
2 x 28
27
26
25
2 x 24
23
2 x 22
21
2 x 20
19
2 x 18
17
2 x 16
2 x 15
2 x 14
2 x 13
2 x 12
2 x 11
Nå går det unna her! Og det beste er at selv om det fortsatt er 1/6 igjen av lengden på skjerfet, gjenstår bare litt over 2% av alle maskene. Dem tar vi i morgen. På gjensyn!
* I dette og de tidligere innleggene har jeg konsekvent sagt «Ca 95%» og «2 standardavvik».
I en teoretisk normalfordelingskurve vil nøyaktig 95,4% av verdiene være inntil 2 standardavvik fra gjennomsnittet, og nøyaktig 95% av verdiene være inntil 1,96 standardavvik fra gjennomsnittet.
Når vi statistikere gjør sannsynlighetsberegninger, er disse pirkete detaljene viktig.
Men observasjoner vi gjør i praksis er sjelden uendelig mange, og sjelden eksakt normalfordelte, og da gir det ikke mening å være så pirkete. For den generelle statistiske magefølelsen er det derfor mye nyttigere å tenke «ca 95%» og «ca 2 standardavvik».
Men: Hvis du også er en sånn pirkeperson som liker de eksakte tallene minst like godt som den pragmatiske tall-magefølelsen (hørte jeg «ja takk begge deler?»), er det bare å strikke ferdig skjerfet du holder på med og sette i gang med neste, for i dette skjerfet er det 1,96, 95%, 1,645 og 90% som gjelder!