Video: Calling All Cars: True Confessions / The Criminal Returns / One Pound Note 2024
Du måste hämta data i en form som algoritmen kan använda för att bygga en prediktiv analysmodell. För att göra det måste du ta lite tid att förstå data och veta strukturen i data. Skriv in funktionen för att ta reda på strukturen i data. Kommandot och dess produktion ser så här ut: >> str (autos) 'data. ram ': 398 obs. av 9 variabler: $ V1: num 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: num 3504 3693 3436 3433 3449 … $ V6: num 12 11. 5 11 12 10. 5 10 9 8 5 10 8 5 … $ V7: int 70 70 70 70 70 70 70 70 70 70 … $ V8: int 1 1 1 1 1 1 1 1 1 1 … $ V9: Faktor m / 305 nivåer "amc ambassador brougham", …:
50 37 232 15 162 142 55 224 242 2 …Från att titta på strukturen kan du berätta att det finns viss data förberedelse och städning att göra. Här är en lista över nödvändiga uppgifter:
-
Detta är inte absolut nödvändigt, men i det här exemplet är det bättre att använda kolumnnamn du kan förstå och komma ihåg.
Ändra datatypen för V4 (
-
hästkraft ) till en numerisk datatyp. I detta exempel är hästkraften ett kontinuerligt numeriskt värde och inte en teckendatatyp.
Hantera saknade värden.
-
Ändra attribut som har diskreta värden till faktorer.
-
Här har cylindrar, modellår och ursprung diskreta värden.
Kasta bort attributet V9 (
-
bilnamn ). Här bildar inte bilnamn värdet till den modell du skapar. Om ursprungsattributet inte gavs kan du ha härledt ursprunget från egenskapen för bilnamn.
c ("mpg", "cylindrar", "förskjutning", "hästkrafter" "vikt", "acceleration", "modelYear", "origin",
"carName")Därefter ändras datatypen för hästkrafter till numeriska med följande kod: >> autos $ horsepower <- som. numerisk (autos $ hästkrafter)
Programmet klagar för att inte alla värden i hästkrafter var strängrepresentationer av tal. Det fanns några saknade värden som representerades som "? " karaktär. Det är bra för nu eftersom R konverterar varje förekomst av? in i NA.
Ett vanligt sätt att hantera de saknade värdena för kontinuerliga variabler är att ersätta varje saknat värde med medelvärdet av hela kolumnen. Följande kodregel gör det: >> autos $ horsepower [är.na (autos $ horsepower)] <- mean (autos $ horsepower, na. rm = TRUE)
Det är viktigt att ha na. rm-TRUE i medelfunktionen. Det berättar funktionen att inte använda kolumner med nullvärden i beräkningen. Utan det kommer funktionen att återvända.
Ändra sedan attributen med diskreta värden till faktorer. Tre attribut har identifierats som diskreta. Följande tre rad kod ändrar attributen. >> Auto $ $ autos $ modelYear autos $ cylinders <- factor (autos $ cylinders)
Ta bort attributet från dataramen med den här raden av kod: >> autos $ carName <- nULL < Nu är du klar med att förbereda data för modelleringsprocessen. Följande är en vy av strukturen efter databehandlingsprocessen: >> str (autos) 'data. ram ': 398 obs. av 8 variabler: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ cylindrar: Faktor med 5 nivåer "3", "4", "5", "6", …:
5 5 5 5 5 5 5 5 5 5 … $ förskjutning: num 307 350 318 304 302 429 454 440 455 390 … $ hästkrafter: num 130 165 150 150 140 198 220 215 225 190 … $ vikt: num 3504 3693 3436 3433 3449 … $ acceleration: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelYear: Factor w / 13 levels "70", "71", "72", …:
1 1 1 1 1 1 1 1 1 1 … $ ursprung: Faktor w / 3 nivåer "1", "2", "3":
1 1 1 1 1 1 1 1 1 1 …