Video: Week 8, continued 2024
För att ta reda på vilka data som kan beaktas när man arbetar i R, låt oss ta en titt på datasetet mtcars. Denna inbyggda dataset beskriver bränsleförbrukningen och tio olika designpunkter från 32 bilar från 1970-talet. Den innehåller totalt 11 variabler, men alla är numeriska.
Även om du kan arbeta med dataramen, kan vissa variabler konverteras till en faktor eftersom de har en begränsad mängd värden.
Om du inte vet hur många olika värden en variabel har kan du få denna information i två enkla steg:
-
Få de unika värdena för variabeln med unik () .
-
Få längden på den resulterande vektorn med användning av längd () .
Med funktionen sapply () kan du göra det för hela dataramen samtidigt. Du tillämpar en anonym funktion som kombinerar båda nämnda steg på hela dataramen, så här:
Du har 32 olika observationer i datasetet, så ingen av variablerna har bara unika värden.
När man behandlar en variabel som en faktor beror lite på situationen, men som en allmän regel undviker man mer än tio olika nivåer i en faktor och försöker ha minst fem värden per nivå.