Matematik för årskurs 7-9/Statistik

Undersökningar

genomföra och analysera statistiska undersökningar

Här går vi igenom hur man ska göra en bra statistisk undersökning. Om ni vet vad som är en bra undersökning så kommer ni inse att det inte är så att alla är så bra. Det finns några viktiga principer när man gör en undersökning.

Man ska vara neutral. En fråga får inte vara tycker du bättre om snygga röda färger än fula blå när man vill veta folks favoritfärger.
Alla alternativ måste finnas. Man kan inte ha som alternativ: Gult, Blått och Grönt eftersom en del vill svara rött.
Man måste göra ett bra urval. Man får inte bara fråga sådana som man vet tycker bäst om rött.

Två alternativ

Den lättaste typen av frågor är sådana där det bara finns två alternativ. Till exempel ja/nej-frågor eller sådana där man måste välja bara ett alternativ. Till exempel: Vill du helst ha fotboll eller bandy på gympan.

Flervalsfrågor

I väldigt många typer av frågor finns det mer än ett alternativ. Det kan vara om man helt får välja vad man ska ha på gympan, då kanske man vill ha handboll istället för fotboll eller bandy. I sådana här frågor kan man göra på två sätt. Antingen så får den som svarar svara helt själv utan alternativ. eller så försöker man ha med alla vanliga alternativ men då kommer en del välja ett av de färdiga alternativen istället för något annat de kanske hellre hade valt. Man bör också då ha med ett övrigt alternativ.

Talsvar

I många typer av frågor så kan man tycka lite mittemellan där det inte är antingen eller. Det kan vara om man gillar hårdrock, det kan man ju göra mycket, en del, lite eller inte alls. Lättast i sådana frågor är att ha ca 5 alternativ plus ett som är att man inte svarar. Det kan ju finnas någon som inte vet vad hårdrock är för något.

Ej tal som svar

Chanser och risker

(Sannolikhet – utifrån data beräkna sannolikheter)

I sannolikhetskapitlet räknade vi på ungefär hur många utfall man bör få om vi vet sannolikheten. Att göra tvärtom är lite svårare.

Vi börjar med om man har väldigt många svar. Om man till exempel har kastat en tärning 1000 gånger och fått en 6:a på 500 av gångerna. Vad är då sannolikheten att få en 6:a. Då ställer man upp som i sannolikheten 500/1000 och får sannolikheten till 1/2 eller 0,5. Den tärningen är nog en fusktärning eftersom sannolikheten ska vara 1/6 eller 0,17.

Men om man bara testar tärningen 2 gånger och får 6:a 1 gång? Sannolikheten blir samma, dvs 1/2. Men nu är vi väldigt osäkra på resultatet eftersom det kan vara så att vi dessa två gånger kan ha haft tur som fick 6:a en av gångerna. Svaret är att vi inte vet sannolikheten men gissar att den är 1/2. Ju fler gånger vi kastar tärningen desto säkrare blir vi på svaret. Helt säker kan man aldrig bli. Med lite avancerade formler kan man räkna ut hur säker man är på sitt svar. Man brukar vara nöjd om man är mer än 95 % säker.

???

Lägesmått

Ofta är vi intresserade av det typiska eller genomsnittliga värdet för någon egenskap. Hur stor lön har folk i Sverige? Hur stor lön har folk i Kina? Det finns de som är rika och de som är fattiga, så något entydigt svar får vi inte, men vi kan välja ett sätt att räkna som fångar det väsentligaste. Beroende på vad vi är intresserade av kan vi välja att räkna på olika sätt. Ibland är det bra att se på flera olika mått.

Medelvärde

Det vanligaste lägesmåttet är medeltalet. Då tar vi värdet för var och en som vi undersökt, adderar dem och dividerar summan med hur många de var. Om vi räknat på lönerna får vi en medellön, som var och en skulle få om de skulle dela lönepengarna jämnt.

Ett enklare medeltal: $M={\frac {2+3+7+4}{4}}=4$

För att kunna räkna ett medelvärde måste det man räknar på vara något man kan dividera. Vi kan säga att kvinnor i Sverige i medeltal får 1,7 barn (enligt statistik år 2010), trots att ingen kvinna föder just det antalet, men vi kan inte räkna medeltal på ögonfärg.

Det vanliga medelvärdet, där vi adderar värdena, kallas för det aritmetiska medelvärdet. Det finns andra medelvärden, men de används bara i speciella sammanhang.

Ibland blir medeltalet missvisande. Om det i en by finns en miljardär och ett antal fattiga kan medelinkomsten bli tio gånger mer än vad de fattiga har. Då säger medeltalet väldigt litet om vad den typiska byinvånaren tjänar.

Median

Medianen anger det mellersta värdet. Vi ordnar värdena från det minsta till det största och plockar fram det mellersta. Om vi frågar fem personer är medianen då värdet för den tredje personen. Om antalet är jämnt tar vi medelvärdet för de två mellersta.

Ur den undersökta gruppen kommer minst hälften att ha ett värde större eller lika med, och minst hälften ett värde mindre eller lika med medianen.

För att räkna medianen krävs att värdena kan rangordnas.

Typvärde

Typvärdet anger vilket värde som är vanligast. Det kan till exempel användas för att beskriva det vanligaste skonumret i en klass.

Skonummerexemplet pekar på ett problem: bland vuxna har vi antagligen ett typvärde för män och ett för kvinnor, och vi kommer antagligen att få endera som typvärde.

Typvärdet används ofta för värden det inte går att räkna med, såsom då man frågar efter folks favoritsport. Ett problem är att gränsdragningen kan vara godtycklig: om de flesta tycker om någon friidrott, men olika grenar, beror typvärdet på hur grov indelning vi gör.

Spridningsmått

Som vi såg ovan ger lägesmåttet inte en fullständig bild av det vi mätt. Ofta vill vi veta hur stor spridningen kring lägesmåtten är.

Percentil

Ett sätt att visa hur fördelningen ser ut är att ange värden som en viss andel av gruppen vi undersökt når över.

Liksom för medianen ordnar vi värdena från det minsta till det största, men istället för att välja det mittersta delar vi gruppen i hundra delar. Den första percentilen är det värde som en procent av de undersökta ligger under eller lika med, den andra den som två procent ligger under eller lika med och så vidare. Den högsta (99:e) percentilen är det värde som bara en av hundra överskrider.

Kvartil

För kvartiler delar vi in värdena i fyra grupper, på motsvarande sätt som för median och percentiler. Kvartilerna är de tre gränserna. En fjärdedel av de undersökta ligger under eller lika med den första kvartilen (som motsvarar den 25:e percentilen), hälften under eller lika med den andra (som motsvarar medianen eller 50:e percentilen) och tre fjärdedelar under eller lika med den tredje kvartilen.

Standardavvikelse

Det vanligaste spridningsmåttet är standardavvikelsen. För varje värde räknar man skillnaden mellan värdet och medeltalet och höjer denna i kvadrat. Sedan tar man summan av dessa kvadrater, drar kvadratroten ur summan och dividerar med antalet observationer. För (3,4,5) blir standardavvikelsen

$s={\frac {\sqrt {(3-4)^{2}+(4-4)^{2}+(5-4)^{2}}}{3}}={\sqrt {2}}/3$

Konfidensintervall

Ett viktigt mått på hur säker man kan vara på sina resultat är konfidensintervallet. Om man har gjort undersökningen rätt kan man räkna ut hur stor risk det är att man fått sitt resultat av en slump och inte för att det på riktigt förhåller sig så. Också om vi lottat ut vem vi skall fråga kan vi ju ha råkat få med alla som har rött som favoritfärg och ingen av dem som har blått. Det är osannolikt, men hur osannolikt?

Konfidensintervallet räknas vanligen ut enligt hur stor standardavvikelsen är bland svaren eller mätvärdena, hur många man frågat och vilken slags mätning det är frågan om. Man brukar anta att värdena är normalfördelade eller varierar enligt någon annan välkänd fördelning.

När man frågat folk hur de tänker rösta i ett val är det vanligt att det står att osäkerheten är (t.ex.) två procentenheter. Det betyder att när man frågat så många människor (vanligen ett par tusen) så händer det en gång på tjugo att man råkat få med två procentenheter fler eller färre av ett visst partis anhängare. Om anhängarna är 25 % så borde man med 2000 tillfrågade ha fått med 500 av anhängarna, men man kan ju råka få med fler eller färre, och man måste räkna med att var tjugonde gång få fler än 540 eller färre än 460. (Var tjugonde kommer av att de som gjorde undersökningen ville vara 95 % säkra. Om man vill vara säkrare så måste man räkna med att felet kan vara större.)

Då man räknar med konfidensintervall måste man komma ihåg att de handlar om risken att man råkat fråga fler personer som har en viss åsikt. Om man valt dem man skall fråga på olämpligt sätt eller ställt frågan fel så kan felet vara mycket större – och det är svårt både att välja folk slumpmässigt och att ställa frågan på ett bra sätt. Det är mycket svårare att uppskatta hur stora sådana systematiska fel är.

Diagram, grafer och tabeller

Det finns flera olika sorters diagram som man kan använda för att visa statistik eftersom det kan vara mycket lättare att förstå då än om man bara ska läsa siffror. Olika diagram är bra för olika saker och de används för lite olika saker.

Stapeldiagram

Stolpdiagram

Stolpdiagram är en diagramtyp som genom höjden på stolparna visar hur ofta ett visst värde förekommer. Stolpdiagram är en variant på stapeldiagram. Men en stor skillnad mellan stolp- och stapeldiagram är att det i stolpdiagram enbart förekommer siffror som jämförs. Där kan det inte vara till exempel olika företags ökning i procent för både y och x axlarna måste visa siffror.

Cirkeldiagram

Cirkeldiagram används nästan enbart om man vill visa på andelar (procent). Då kan ett cirkeldiagram väldigt snabbt och enkelt visa vilken del som är störst men man får svårt att se hur stor den är. Om man till exempel ska visa vilken favoritfärg vissa har så är det ointressant om det bland dem man frågade var 5 eller 10 som hade blått som favoritfärg eftersom det beror på hur många man frågade.

Linjediagram

Histogram

Tabeller

Länkar

Genomgångar:

http://www.webbmatte.se/display_page.php?id=151&on_menu=808&page_id_to_fetch=2046 - Stolpdiagram på webbmatte.se
http://www.webbmatte.se/display_page.php?id=65&on_menu=395&page_id_to_fetch=1016 - Stolpdiagram på webbmatte.se

Videogenomgångar:

http://vimeo.com/15184776 - Film om tre sorters diagram (stapel, cirkel och linje) för åk 6