Innehållsförteckning:
- bredvid intervallet och medianen. Dessa kvartiler är respektive 25 procent och 75 procent kvantiler, vilka är siffrorna för vilka en fjärdedel och tre fjärdedelar av data är mindre. Du får dessa nummer med hjälp av quantile () -funktionen, så här:
Video: What makes us feel good about our work? | Dan Ariely 2024
Ett enskilt nummer berättar inte mycket om dina data. Ofta är det lika viktigt att veta spridningen av dina data. Du kan använda R för att titta på denna spridning med ett antal olika tillvägagångssätt.
Först kan du beräkna antingen variansen eller standardavvikelsen för att sammanfatta spridningen i ett enda nummer. För det har du de bekväma funktionerna var () för variansen och sd () för standardavvikelsen. Till exempel beräknar du standardavvikelsen för variabeln mpg i datarammsbilarna så här:
quantile,
eller percentil, berättar hur mycket av dina data ligger under ett visst värde. Den 50 procentiga kvantilen är till exempel inget annat än medianen. Igen har R några praktiska funktioner som hjälper dig att titta på kvantilerna. Hur man beräknar dataintervallet i R De mest använda kvantilerna är faktiskt 0% och 100% kvantiler. Du kan lika enkelt ringa dem till minsta och maximala, för det är vad de är. Du kan få både min () och max () funktioner tillsammans med funktionen range (). Denna funktion ger dig bekvämt utbudet av data. Så, för att veta mellan vilka två värden som alla milstolpar ligger, gör du helt enkelt följande:
>> intervall (bilar $ mpg) [1] 10. 4 33. 9
Hur man beräknar datakvartiler i R
Området ger dig fortfarande endast begränsad information. Ofta rapporterar statistiker det första och det tredjekvartilet
bredvid intervallet och medianen. Dessa kvartiler är respektive 25 procent och 75 procent kvantiler, vilka är siffrorna för vilka en fjärdedel och tre fjärdedelar av data är mindre. Du får dessa nummer med hjälp av quantile () -funktionen, så här:
Standardvärdet för probs-argumentet är en vektor som representerar minimumet (0), den första kvartilen (0. 25), medianen (0. 5), den tredje kvartil (0,75) och maximalt (1).
Alla dessa funktioner har ett argument na. rm som låter dig ta bort alla NA-värden innan du beräknar respektive statistik. Om du inte gör det här kommer någon vektor som innehåller NA att ha NA som ett resultat. Detta fungerar identiskt med na. rm-argumentet för summan () -funktionen.