Hvorfor gjør de ikke det? Hva bruker ekte statistikere i stedet? Og kan det strikkes?
Like før jul satt jeg på en mørk pub ved Oslo rådhus sammen med en hel gjeng statistikere. Kollega Susi hadde fått jobb på det prestisjefylte Harvard University, og det måtte feires! Jeg strikket appelsin (bare skallet gjensto), og kollegene drakk øl.
Da trådene var festet, ble det en liten fest for det også. Så sent var det. Statistikerne skålte, og myste på appelsinen over ølglassene.
Jeg, entusiastisk: -Se, som den ligner på et kakediagram! Når denne er ferdig, skal jeg strikke et ordentlig kakediagram!
Kollega, lett overbærende: -Ekte statistikere bruker ikke kakediagram.
Og det er faktisk helt sant. Kakediagrammer (som viser inndeling i grupper ved å la størrelsen på kakestykkene tilsvare størrelsen på en gruppe) er runde og pene, kule å strikke, og de tyter ut av enhver avis og årsrapport. Men statistisk sett er de trøblete.
For det første kan det være vanskelig å sammenligne flere kakediagrammer. Se på disse tre, for eksempel. Det er jammen ikke lett å oppsummere forskjellen på dem.
For det andre kan det være vanskelig å sammenligne selve kakestykkene også, spesielt hvis det er mange av dem. Denne kaka over fødselsstatistikken i Norge i perioden 2010-2014 (kakestykke nr 1 viser antall fødsler i januar, nr 2 viser antall fødsler i februar osv.) gjør det ikke lett å se hvilken måned det fødes flest barn.
Det vi ser er at kakestykkene er omtrent like store, altså at det fødes omtrent like mange barn hver måned.
Nyansene blir ofte borte for oss når vi bruker kakediagrammer, og vi blir lurt av både vinkler og fargebruken. Derfor: Ekte statistikere bruker ikke kakediagram!
Ekte statistikere bruker søylediagram (som like ofte kalles stolpediagram). Her et søylediagram over norske nyfødte babyer per måned, sammen med kakediagrammet som viser akkurat det samme (søylediagrammet til høyre). Plutselig ser vi forskjellene i stedet for likhetene, og det er lett plukke ut stolpe nr 7: juli som den beste babymåneden.
Så: Frem med pinnene, for dette kan selvfølgelig strikkes! Her er babyteppet som viser fødselsstatstikken i Norge for årene 2010-2014.
OBS: Oppskriften kommer i eget innlegg.
Nydelig babyteppe, Kathrine, og veldig god illustrasjon av søyler og kakestykker. Men i ditt eksempel er det mange grupper (12 mnd) og de er omtrent like store (nesten like mange barn blir født hver mnd). Hvis man derimot har tre-fire grupper og forskjellen mellom dem er ganske stor, synes jeg noen ganger det er lettere å forstå visuelt ut fra et kakediagram. Hva mener en ekte statistiker om det?
Den ekte statistikeren synes fortsatt at forskjellene kommer frem minst like bra i et søylediagram, men at det ikke er forbudt å bruke en kake, så lenge budskapet kommer tydelig frem. Det er det viktigste. Dette med at statistikk lyver er som kjent en myte. Men det man vil fortelle kan komme feil ut hvis den som forteller historien bruker feil type statistisk. Og her er det lettere å trå feil med kakediagram enn søylediagram.
Tja. Jeg mener nok at det finnes situasjoner hvor resultatene kommer best fram med kakediagram. For eksempel når man har Svært enig – ganske enig – ganske uenig – svært uenig – vet ikke ; da vil man i et kakediagram lett se om svært enig og ganske enig er over halvparten. Det kan være vanskeligere i et søylediagram (hvis man da ikke stabler søylene, og da er man nesten like langt).
Det jeg prøver å si er vel at noen ting, for eksempel 180 grader, er lett å lese…
Joda, det finnes tilfeller der et kakediagram kan være en grei grafisk presentasjon, men bortsett fra 180 grader, vil de fleste andre vinkler være vanskelig for de fleste å lese, spesielt hvis de står på skrå.