Central Tendens vs Dispersion
I beskrivande och inferentiell statistik används flera index för att beskriva en datamängd som motsvarar dess centrala tendens, spridning och skevhet: de tre viktigaste egenskaperna som bestämmer den relativa formen av fördelningen av en datamängd.
Vad är central tendens?
Central tendens hänvisar till och lokaliserar centrum för fördelningen av värden. Medelvärde, läge och median är de mest använda indexen för att beskriva den centrala tendensen hos en datamängd. Om en datamängd är symmetrisk, så sammanfaller både medianen och medelvärdet av datamängden med varandra.
Med tanke på en datamängd beräknas medelvärdet genom att ta summan av alla datavärden och sedan dividera det med antalet data. Till exempel mäts vikterna för 10 personer (i kilogram) till 70, 62, 65, 72, 80, 70, 63, 72, 77 och 79. Då kan medelvikten för de tio personerna (i kilogram) vara beräknas enligt följande. Summan av vikterna är 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Medelvärde=(summa) / (antal data)=710 / 10=71 (i kilogram). Det är underförstått att extremvärden (datapunkter som avviker från den normala trenden) tenderar att påverka medelvärdet. I närvaro av extremvärden kommer alltså inte medelvärdet ensamt att ge en korrekt bild av datamängden.
Medianen är den datapunkt som hittas i exakt mitten av datamängden. Ett sätt att beräkna medianen är att ordna datapunkterna i stigande ordning och sedan lokalisera datapunkten i mitten. Till exempel, om en gång beställt den tidigare datamängden ser ut som 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Därför är (70+72)/2=71 i mitten. Av detta framgår att medianen inte behöver finnas i datamängden. Medianen påverkas inte av förekomsten av extremvärden. Därför kommer medianen att fungera som ett bättre mått på central tendens i närvaro av extremvärden.
Läget är det vanligaste värdet i datauppsättningen. I det föregående exemplet förekommer båda värdet 70 och 72 två gånger och båda är alltså lägen. Detta visar att det i vissa distributioner finns mer än ett mod alt värde. Om det bara finns ett läge sägs datamängden vara unimodal, i detta fall är datamängden bimodal.
Vad är dispersion?
Dispersion är mängden spridning av data om distributionens centrum. Räckvidd och standardavvikelse är de mest använda måtten på spridning.
Området är helt enkelt det högsta värdet minus det lägsta värdet. I det föregående exemplet är det högsta värdet 80 och det lägsta värdet är 62, så intervallet är 80-62=18. Men intervallet ger inte en tillräcklig bild av spridningen.
För att beräkna standardavvikelsen beräknas först avvikelserna för datavärden från medelvärdet. Rotkvadratmedelvärdet av avvikelser kallas standardavvikelsen. I föregående exempel är respektive avvikelser från medelvärdet (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 och (79 – 71)=8. Summan av kvadrater av avvikelse är (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Standardavvikelsen är √(366/10)=6,05 (i kilogram). Såvida inte datamängden är kraftigt skev, kan man utifrån detta dra slutsatsen att majoriteten av data är i intervallet 71±6,05, och det är verkligen så i detta specifika exempel.
Vad är skillnaden mellan central tendens och spridning?
• Central tendens hänvisar till och lokaliserar centrum för fördelningen av värden
• Dispersion är mängden spridning av data om mitten av en datamängd.