Hem Personliga finanser Hur man förbereder data för förutsägbar analys - dummies

Hur man förbereder data för förutsägbar analys - dummies

Innehållsförteckning:

Video: You aren't at the mercy of your emotions -- your brain creates them | Lisa Feldman Barrett 2025

Video: You aren't at the mercy of your emotions -- your brain creates them | Lisa Feldman Barrett 2025
Anonim

När du lär dig ett nytt programmeringsspråk är det vanligt att skriva "Hello World" -programmet. För maskininlärning och prediktiv analys, skapar en modell för att klassificera Iris dataset sitt "hello world" motsvarande program. Detta är ett ganska enkelt exempel, men det är mycket effektivt för att lära grunderna i maskininlärning och prediktiv analys.

Så här får du provdatasetet

För att skapa vår prediktiva modell måste du ladda ner provet Iris dataset. Denna dataset är fritt tillgänglig från många källor, särskilt vid akademiska institutioner som har maskininlärningsavdelningar. Lyckligtvis var folket tillräckligt bra för att inkludera några provdataset och data-laddningsfunktioner tillsammans med deras paket. För de här exemplen behöver du bara köra ett par enkla kodlinjer för att ladda data.

Så här mäter du dina data

Här är en observation och dess egenskaper från varje klass av Iris Flower-databasen.

Sepal Längd Sepal Bredd Kronbladslängd Kronbladets bredd Målgrupp / Etikett
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Iris Flower Dataset är en reell multivariat dataset av tre klasser av Iris-blomman ( Iris Setosa, Iris Virginica, och Iris Versicolor ) introducerad av Ronald Fisher i sin artikel 1936, "Användningen av flera mätningar i taxonomiska problem. "Denna dataset är mest känd för sin omfattande användning i akademin för maskininlärning och statistik.

Datasetet består av 150 sammanlagda fall, med 50 fall från var och en av de tre klasserna av Iris-blomman. Provet har 4 funktioner (även vanligtvis kallade attribut ), vilket är längd och breddsmätning av blomkål och kronblad.

Den intressanta delen av denna dataset är att de tre klasserna är något linjärt separerbara. Klassen Setosa kan separeras från de andra två klasserna genom att rita en rak linje i diagrammet mellan dem. Klasserna Virginica och Versicolor kan inte separeras helt med en rak linje - även om den är nära. Detta gör det till en perfekt kandidatdatasats för att göra klassificeringsanalys men inte så bra för analys av kluster.

Provdata var redan märkt. Den högra kolumnen (Etikett) ovan visar namnen på varje klass av Iris-blomman.Klassnamnet heter ett -märke eller ett mål; brukar det tilldelas en variabel som heter y . Det är i grunden resultatet eller resultatet av det som förutspås.

I statistik och modellering kallas den ofta som beroende variabel . Det beror på ingångarna som motsvarar käftens längd och bredd och till kronbladets längd och bredd.

Du kanske också vill veta vad som är annorlunda med den scikit preprocessed Iris dataseten, jämfört med den ursprungliga dataset. För att få reda på måste du hämta den ursprungliga datafilen. Du kan göra en Google-sökning efter iris dataset och ladda ner den eller visa den från någon av de akademiska institutionerna.

Resultatet som oftast kommer upp först är University of California Irvines (UCI) maskinlärande förvar av dataset. Iris dataset i sitt ursprungliga tillstånd från UCI-maskinlärningsförvaret finns på UCI: s webbplats.

Om du laddar ner den ska du kunna se den med vilken textredigerare som helst. När du tittar på data i filen märker du att det finns fem kolumner i varje rad. De första fyra kolumnerna är mätningarna (hänvisas till som funktionerna ) och den sista kolumnen är etiketten. Etiketten skiljer sig mellan original- och scikitversionerna av Iris-datasetet.

En annan skillnad är den första raden i datafilen. Den innehåller en rubrikrad som används av scikitdata-laddningsfunktionen. Det har ingen effekt på algoritmerna själva.

Normalisering av funktioner till siffror istället för att hålla dem som text gör det lättare för algoritmerna att bearbeta - och det är mycket mer minneseffektivt. Detta är särskilt tydligt om du kör mycket stora dataset med många funktioner - vilket ofta är fallet i reella scenarier.

Här är provdata från båda filerna. Alla datakolumnerna är desamma utom Col5. Observera att scikit har klassnamn med numeriska etiketter; Den ursprungliga filen har textetiketter.

Source Col1 Col2 Col3 Col4 Col5
scikit 5. 1 3. 5 1. 4 0. 2 0
ursprungliga 5. 1 3. 5 1. 4 0. 2 Iris-setosa
scikit 7. 0 3. 2 4. 7 1. 4 1
ursprungliga 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
scikit 6. 3 3. 3 6. 0 2. 5 2
ursprungliga 6. 3 3. 3 6. 0 2. 5 Iris-virginica
Hur man förbereder data för förutsägbar analys - dummies

Redaktörens val

Vad är en Java-karta? - dummies

Vad är en Java-karta? - dummies

Arrays och specialiserade listor gör det möjligt att utföra en fantastisk uppsättning uppgifter med Java. Det finns dock situationer där en Java-applikation behöver något som är mer relaterat till en databas, utan att egentligen ha allt databasbagage (som att behöva köpa en separat applikation). Till exempel kanske du vill kunna ...

Några få saker om Java Math - dummies

Några få saker om Java Math - dummies

Tro det eller inte, datorer - även de mest kraftfulla - Ha vissa begränsningar när det gäller att utföra matematiska beräkningar. Dessa begränsningar är vanligtvis obetydliga, men ibland slår de sig och biter på dig. Här är de saker du behöver se upp för när du gör matte i Java. Helhetsflöde Det grundläggande problemet ...

Vad är recursion i Java Programmering? - dummies

Vad är recursion i Java Programmering? - dummies

Rekursion är en grundläggande programmeringsteknik som du kan använda i Java, där en metod kallar sig för att lösa ett problem. En metod som använder denna teknik är rekursiv. Många programmeringsproblem kan lösas endast genom rekursion, och vissa problem som kan lösas med andra tekniker löses bättre genom rekursion. En av ...

Redaktörens val

4 Måste-inkludera i din blogg sidobardesign - dummies

4 Måste-inkludera i din blogg sidobardesign - dummies

Din bloggens sidofält är viktig fastighet som bör innehålla de element du vill ha mest. När du utformar din blogg sidofält kan du dra från en nästan oändlig lista över sidospårelement. Genom att välja noggrant vad som ska inkluderas (och vad som inte ska inkluderas) kan du ställa in din blogg från andra.

5 Användbara Wordpress Plugins - dummies

5 Användbara Wordpress Plugins - dummies

Om du bloggar på en självhävd plattform med WordPress-programvara, är det dags att anpassa din blogg med plug-ins - programvara som kan "anslutas" till din befintliga WordPress bloggprogramvara. Plug-ins gör det möjligt för dig att göra allt från funktionsbildspel i dina blogginlägg för att ansluta sociala medier till din webbplats. Här är fem användbara ...

7 Sätt att erövra Writer's Block som en Blogger - dummies

7 Sätt att erövra Writer's Block som en Blogger - dummies

Varje bloggare möter författarens block i ett tid eller annan. Om du är den typ av bloggare som sköter innehåll varje dag, kan författarens block vara stäverande. Kan du inte ta en paus för att få ditt skrivande mojo tillbaka? Prova en (eller flera) av dessa sju sätt att slå författarens block för att få dig tillbaka ...

Redaktörens val

10 Stora elektronikkomponentkällor - dummies

10 Stora elektronikkomponentkällor - dummies

Letar du efter några bra källor till dina elektroniska delar? Denna lista ger dig några fleråriga favoriter, både inom och utanför Nordamerika. Denna lista är inte uttömmande. Du hittar bokstavligen tusentals specialutbud för ny och begagnad elektronik. Plus, Amazon och eBay ger virtuella marknadsplatser för alla sorters säljare - ...

Elektronik Basics: Resistance - dummies

Elektronik Basics: Resistance - dummies

I elektronikvärlden är motståndet inte meningslöst. Faktum är att motstånd kan vara mycket användbart. Utan motstånd skulle elektronik inte vara möjligt. Elektronik handlar om att manipulera strömmen av ström, och ett av de mest grundläggande sätten att manipulera strömmen är att minska det genom resistans. Utan motstånd strömmar strömmen oreglerad och där ...

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

För att berätta för BASIC Stamp vad du vill göra i ditt digitala elektronikprojekt måste du programmera det. BASIC Stamp Windows Editor är den programvara som du använder på din dator för att skapa program som kan laddas ner till en BASIC Stamp-mikrokontroller. Denna programvara är tillgänglig gratis från Parallax webbplats. ...