Video: Bygga en dator - så här gör du! 2024
För att kunna utföra en prediktiv analys måste du hämta data i en form som algoritmen kan använda för att bygga en modell. För att göra det måste du ta lite tid att förstå data och känna till dess struktur. Skriv in funktionen för att ta reda på strukturen i data. Så här ser det ut: >> str (frö) 'data. ram ': 210 obs. av 8 variabler: $ V1: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ V2: num 14. 8 14. 6 14. 1 13. 9 15 … $ V3: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ V4: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ V5: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ V6: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ V7: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ V8: int 1 1 1 1 1 1 1 1 1 1 …
När du tittar på strukturen kan du se att uppgifterna behöver ett förbehandlingssteg och ett bekvämlighetssteg:
-
Detta är inte absolut nödvändigt, men i det här exemplet är det mer lämpligt att använda kolumnnamn du kan förstå och komma ihåg. Ändra attributet med kategoriska värden till en faktor.
-
Etiketten har tre möjliga kategorier. För att byta namn på kolumnerna, skriv in följande kod: >> kolnamn (frö) <-
c ("area", "perimeter", "compactness", "length", "width" asymmetri "," length2 "," seedType ")
Ändra sedan attributet som har kategoriska värden till en faktor. Följande kod ändrar datatypen till en faktor:
>> frön $ seedType <- faktor (frön $ seedType)
Detta kommando avslutar utarbetandet av data för modelleringsprocessen. Nedan följer en uppfattning om strukturen efter databehandlingsprocessen: >> str (ogräs) 'data. ram ': 210 obs. av 8 variabler: $ area: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ perimeter: num 14. 8 14. 6 14. 1 13. 9 15 … $ kompaktitet: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ Längd: Num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ Bredd: Num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ asymmetri: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ length2: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ seedType: Factor w / 3 levels "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 …