Hur man förbereder data för förutsägbar analys - dummies

Video: You aren't at the mercy of your emotions -- your brain creates them | Lisa Feldman Barrett 2025

När du lär dig ett nytt programmeringsspråk är det vanligt att skriva "Hello World" -programmet. För maskininlärning och prediktiv analys, skapar en modell för att klassificera Iris dataset sitt "hello world" motsvarande program. Detta är ett ganska enkelt exempel, men det är mycket effektivt för att lära grunderna i maskininlärning och prediktiv analys.

Så här får du provdatasetet

För att skapa vår prediktiva modell måste du ladda ner provet Iris dataset. Denna dataset är fritt tillgänglig från många källor, särskilt vid akademiska institutioner som har maskininlärningsavdelningar. Lyckligtvis var folket tillräckligt bra för att inkludera några provdataset och data-laddningsfunktioner tillsammans med deras paket. För de här exemplen behöver du bara köra ett par enkla kodlinjer för att ladda data.

Så här mäter du dina data

Här är en observation och dess egenskaper från varje klass av Iris Flower-databasen.

Sepal Längd	Sepal Bredd	Kronbladslängd	Kronbladets bredd	Målgrupp / Etikett
5. 1	3. 5	1. 4	0. 2	Setosa (0)
7. 0	3. 2	4. 7	1. 4	Versicolor (1)
6. 3	3. 3	6. 0	2. 5	Virginica (2)

Iris Flower Dataset är en reell multivariat dataset av tre klasser av Iris-blomman ( Iris Setosa, Iris Virginica, och Iris Versicolor ) introducerad av Ronald Fisher i sin artikel 1936, "Användningen av flera mätningar i taxonomiska problem. "Denna dataset är mest känd för sin omfattande användning i akademin för maskininlärning och statistik.

Datasetet består av 150 sammanlagda fall, med 50 fall från var och en av de tre klasserna av Iris-blomman. Provet har 4 funktioner (även vanligtvis kallade attribut ), vilket är längd och breddsmätning av blomkål och kronblad.

Den intressanta delen av denna dataset är att de tre klasserna är något linjärt separerbara. Klassen Setosa kan separeras från de andra två klasserna genom att rita en rak linje i diagrammet mellan dem. Klasserna Virginica och Versicolor kan inte separeras helt med en rak linje - även om den är nära. Detta gör det till en perfekt kandidatdatasats för att göra klassificeringsanalys men inte så bra för analys av kluster.

Provdata var redan märkt. Den högra kolumnen (Etikett) ovan visar namnen på varje klass av Iris-blomman.Klassnamnet heter ett -märke eller ett mål; brukar det tilldelas en variabel som heter y . Det är i grunden resultatet eller resultatet av det som förutspås.

I statistik och modellering kallas den ofta som beroende variabel . Det beror på ingångarna som motsvarar käftens längd och bredd och till kronbladets längd och bredd.

Du kanske också vill veta vad som är annorlunda med den scikit preprocessed Iris dataseten, jämfört med den ursprungliga dataset. För att få reda på måste du hämta den ursprungliga datafilen. Du kan göra en Google-sökning efter iris dataset och ladda ner den eller visa den från någon av de akademiska institutionerna.

Resultatet som oftast kommer upp först är University of California Irvines (UCI) maskinlärande förvar av dataset. Iris dataset i sitt ursprungliga tillstånd från UCI-maskinlärningsförvaret finns på UCI: s webbplats.

Om du laddar ner den ska du kunna se den med vilken textredigerare som helst. När du tittar på data i filen märker du att det finns fem kolumner i varje rad. De första fyra kolumnerna är mätningarna (hänvisas till som funktionerna ) och den sista kolumnen är etiketten. Etiketten skiljer sig mellan original- och scikitversionerna av Iris-datasetet.

En annan skillnad är den första raden i datafilen. Den innehåller en rubrikrad som används av scikitdata-laddningsfunktionen. Det har ingen effekt på algoritmerna själva.

Normalisering av funktioner till siffror istället för att hålla dem som text gör det lättare för algoritmerna att bearbeta - och det är mycket mer minneseffektivt. Detta är särskilt tydligt om du kör mycket stora dataset med många funktioner - vilket ofta är fallet i reella scenarier.

Här är provdata från båda filerna. Alla datakolumnerna är desamma utom Col5. Observera att scikit har klassnamn med numeriska etiketter; Den ursprungliga filen har textetiketter.

Source	Col1	Col2	Col3	Col4	Col5
scikit	5. 1	3. 5	1. 4	0. 2	0
ursprungliga	5. 1	3. 5	1. 4	0. 2	Iris-setosa
scikit	7. 0	3. 2	4. 7	1. 4	1
ursprungliga	7. 0	3. 2	4. 7	1. 4	Iris-versicolor
scikit	6. 3	3. 3	6. 0	2. 5	2
ursprungliga	6. 3	3. 3	6. 0	2. 5	Iris-virginica