Video: Identifying multivariate outliers using Mahalanobis distance in SPSS 2024
Vid analys av data för dina infografier bör du vara medveten om att vissa datapunkter som kallas outliers - ligger så långt utanför normen som uppmärksamma sig själva. I de allvarligaste fallen kan de till och med skryta data och skapa en vilseledande bild av ämnet. Du måste känna igen när du har en outlier och sedan bestämma vad du ska göra om det.
Denna tabell innehåller ett enkelt exempel för att visa denna idé. De två dataseten representerar en studerandes betyg i åtta veckor på två veckovisa tentor; siffrorna är procentuellt korrekta på provet. Dataseten till vänster (den första tentamen) innehåller inte en outlier, men datasetet till höger (den andra tentamen) gör det. Den ena outlieren visas med fetstil.
Vecka | Grader (ingen outlier) | Graderingar (en outlier) |
---|---|---|
1 | 90% | 90% |
2 | 88% | 88% |
3 | 90% | 90% |
4 | 85% | 50% |
5 | 86% | 86% |
6 | 87% | 87% |
7 | 85% | 85% |
8 | 84% | 84% |
Genomsnittlig > 87% | 83% |
|
Vad gör en datalogistik i ett sådant fall? Här är några alternativ:
Kasta ut outlier.
-
Om du bara använder medelvärdet i din grafik och är oroad över att det är vilseledande, eliminera outlier som en avvikelse och beräkna sedan genomsnittet utan den veckan, som visas i figuren.
Om du går med det här alternativet, var noga med att lägga till en fotnot som förklarar allt: i det här fallet raderas en datapunkt. Alltid vara så transparent som möjligt.
Visa data som-är.
-
Om du bara använder medelvärdet i din grafik eller plottar all data i ett diagram, kan du alltid presentera data exakt som det kom till dig, som visas i följande bild. I det här fallet bör du lägga till en fotnot som ringer utlänkaren så att din läsare är fullt medveten om det.
Konstruera en "linje med bästa passform. "
-
Detta alternativ gäller endast om du ska skapa ett diagram som visar alla data. En linje med bästa passform - kallad även en linjär regression - är ett visuellt medelvärde av dina data: bokstavligen är den linje som representerar dina utspridda datapunkter bäst.