Mean vs Median vs Mode
Medelvärde, median och läge är de primära måtten på central tendens som används i beskrivande statistik. De är helt olika varandra och de fall där de används för att sammanfatta uppgifterna är också olika.
Mean
Det aritmetiska medelvärdet är summan av datavärdena dividerat med antalet datavärden, dvs.
[latex]\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}=\frac{x_{1}+x_{2} +x_{3}+…+x_{n}}{n}[/latex]
Om data kommer från ett urvalsutrymme kallas det ett sampelmedelvärde ([latex]\bar{x} [/latex]), vilket är en beskrivande statistik för urvalet. Även om det är det mest använda beskrivande måttet för ett urval, är det inte en robust statistik. Den är mycket känslig för extremvärden och svängningar.
Tänk till exempel på medelinkomsten för invånarna i en viss stad. Eftersom alla datavärden summeras och sedan delas upp, påverkar inkomsten för en extremt rik person medelvärdet avsevärt. Därför är medelvärdena inte alltid en bra representation av data.
Också, i fallet med en alternerande signal, varierar strömmen som passerar genom ett element periodiskt från positiv riktning till negativ riktning och vice versa. Om vi tar den genomsnittliga strömmen som passerar genom elementet under en enda period, kommer det att ge en 0, vilket betyder att ingen ström har passerat genom elementet, vilket uppenbarligen inte är sant. Därför är aritmetiskt medelvärde inte heller i detta fall ett bra mått.
Det aritmetiska medelvärdet är en bra indikator när data är jämnt fördelad. För en normalfördelning är medelvärdet lika med moden och medianen. Den har också de lägsta residualerna när man tar hänsyn till rotmedelkvadratfelet; därför det bästa beskrivande måttet när det krävs att representera en datauppsättning med ett enda nummer.
Median
Värdena för den mittersta datapunkten efter att ha arrangerat alla datavärden i stigande ordning definieras som medianen för datamängden. Medianen är 2:a kvartilen, 5:e decilen och 50:e percentilen.
• Om antalet observationer (datapunkter) är udda, är medianen observationen exakt i mitten av den ordnade listan.
• Om antalet observationer (datapunkter) är jämnt, är medianen medelvärdet av de två mittersta observationerna i den ordnade listan.
Median delar upp observationen i två grupper; dvs en grupp (50 %) av värden högre och en grupp (50 %) av värden lägre än medianen. Medianer används specifikt i snedfördelningar och representerar data ganska bättre än det aritmetiska medelvärdet.
Läge
Mode är det mest förekommande talet i en uppsättning observationer. Läget för en datamängd beräknas genom att hitta frekvensen för varje element i uppsättningen.
• Om inget värde förekommer mer än en gång, har datamängden inget läge.
• Annars är alla värden som inträffar med den största frekvensen ett läge för datamängden.
Mer än 1 läge kan finnas i en uppsättning; Därför är läget inte en unik statistik för en datauppsättning. I en enhetlig fördelning finns det ett läge. Läget för en diskret sannolikhetsfördelning är den punkt där sannolikhetsmassfunktionen når sin högsta punkt. Med utgångspunkt från ovanstående tolkningar kan vi säga att globala maxima är lägen.
Överväg tillämpningen av alla tre åtgärderna på följande datamängd.
DATA: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
Mean=(1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25=8,12
Median=9 (13:e element)
Mode=9 (frekvens på 9=5)
Vad är skillnaden mellan medelvärde, median och läge?
• Aritmetiskt medelvärde är summan av värdena (observationer) delat med antalet observationer. Det är inte en robust statistik och starkt beroende av normalfördelningen inom den övervägda fördelningen. En enda extremvärde kan orsaka en signifikant förskjutning i medelvärdet vilket ger relativt missvisande värden. Begreppet kan utökas till geometriskt medelvärde, harmoniskt medelvärde, viktat medelvärde och så vidare.
• Median är mittvärdena i uppsättningen observationer, och den påverkas relativt sett mindre av extremvärden. Det kan ge en bra uppskattning som sammanfattande statistik i mycket skeva fall.
• Läget är de vanligaste observationsvärdena i datamängden. Om fördelningen är positiv skev, ligger läget åt vänster till medianen och, om det är negativt skevt, ligger läget rätt till medianen.
• Om positivt skevt är medelvärdet rätt till medianen; om negativt skevt medelvärde är till vänster om medianen.
• I normalfördelningen är alla tre, medelvärde, läge och median lika.