Hur man beskriver varianternas data i R-dummies

Video: What makes us feel good about our work? | Dan Ariely 2024

Ett enskilt nummer berättar inte mycket om dina data. Ofta är det lika viktigt att veta spridningen av dina data. Du kan använda R för att titta på denna spridning med ett antal olika tillvägagångssätt.

Först kan du beräkna antingen variansen eller standardavvikelsen för att sammanfatta spridningen i ett enda nummer. För det har du de bekväma funktionerna var () för variansen och sd () för standardavvikelsen. Till exempel beräknar du standardavvikelsen för variabeln mpg i datarammsbilarna så här:

>> sd (bilar $ mpg) [1] 6. 026948

Vid sidan av medelvärdet och variationen kan du också titta på kvantilerna. A

quantile,

eller percentil, berättar hur mycket av dina data ligger under ett visst värde. Den 50 procentiga kvantilen är till exempel inget annat än medianen. Igen har R några praktiska funktioner som hjälper dig att titta på kvantilerna. Hur man beräknar dataintervallet i R De mest använda kvantilerna är faktiskt 0% och 100% kvantiler. Du kan lika enkelt ringa dem till minsta och maximala, för det är vad de är. Du kan få både min () och max () funktioner tillsammans med funktionen range (). Denna funktion ger dig bekvämt utbudet av data. Så, för att veta mellan vilka två värden som alla milstolpar ligger, gör du helt enkelt följande:

>> intervall (bilar $ mpg) [1] 10. 4 33. 9

Hur man beräknar datakvartiler i R

Området ger dig fortfarande endast begränsad information. Ofta rapporterar statistiker det första och det tredje

kvartilet

bredvid intervallet och medianen. Dessa kvartiler är respektive 25 procent och 75 procent kvantiler, vilka är siffrorna för vilka en fjärdedel och tre fjärdedelar av data är mindre. Du får dessa nummer med hjälp av quantile () -funktionen, så här:

>> quantil (bilar $ mpg) 0% 25% 50% 75% 100% 10. 400 15. 425 19. 200 22. 800 33. 900 Kvartilerna är inte desamma som nedre och övre gångjärnet beräknat i femtalssammanfattningen. De senare två är medianen av den nedre och övre halvan av dina data, och de skiljer sig något från de första och tredje kvartilerna. För att få fem nummerstatistik använder du funktionen fivenum (). Hur man går på hastighet med kvantilfunktionen i R

Funktionen quantile () kan ge dig vilken kvantil du vill ha. För det använder du probs-argumentet. Du ger proben (eller sannolikheter) som ett bråknummer. För 20 procentkvantilen använder du till exempel 0. 20 som ett argument för värdet.Detta argument tar också en vektor som ett värde, så du kan till exempel få 5 procent och 95 procent kvantiler så här: >> quantile (cars $ mpg, probs = c (0, 05, 0.95)) 5% 95% 11. 995 31. 300

Standardvärdet för probs-argumentet är en vektor som representerar minimumet (0), den första kvartilen (0. 25), medianen (0. 5), den tredje kvartil (0,75) och maximalt (1).

Alla dessa funktioner har ett argument na. rm som låter dig ta bort alla NA-värden innan du beräknar respektive statistik. Om du inte gör det här kommer någon vektor som innehåller NA att ha NA som ett resultat. Detta fungerar identiskt med na. rm-argumentet för summan () -funktionen.