Hem Personliga finanser Hur man förbereder data för förutsägbar analys - dummies

Hur man förbereder data för förutsägbar analys - dummies

Innehållsförteckning:

Video: You aren't at the mercy of your emotions -- your brain creates them | Lisa Feldman Barrett 2024

Video: You aren't at the mercy of your emotions -- your brain creates them | Lisa Feldman Barrett 2024
Anonim

När du lär dig ett nytt programmeringsspråk är det vanligt att skriva "Hello World" -programmet. För maskininlärning och prediktiv analys, skapar en modell för att klassificera Iris dataset sitt "hello world" motsvarande program. Detta är ett ganska enkelt exempel, men det är mycket effektivt för att lära grunderna i maskininlärning och prediktiv analys.

Så här får du provdatasetet

För att skapa vår prediktiva modell måste du ladda ner provet Iris dataset. Denna dataset är fritt tillgänglig från många källor, särskilt vid akademiska institutioner som har maskininlärningsavdelningar. Lyckligtvis var folket tillräckligt bra för att inkludera några provdataset och data-laddningsfunktioner tillsammans med deras paket. För de här exemplen behöver du bara köra ett par enkla kodlinjer för att ladda data.

Så här mäter du dina data

Här är en observation och dess egenskaper från varje klass av Iris Flower-databasen.

Sepal Längd Sepal Bredd Kronbladslängd Kronbladets bredd Målgrupp / Etikett
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Iris Flower Dataset är en reell multivariat dataset av tre klasser av Iris-blomman ( Iris Setosa, Iris Virginica, och Iris Versicolor ) introducerad av Ronald Fisher i sin artikel 1936, "Användningen av flera mätningar i taxonomiska problem. "Denna dataset är mest känd för sin omfattande användning i akademin för maskininlärning och statistik.

Datasetet består av 150 sammanlagda fall, med 50 fall från var och en av de tre klasserna av Iris-blomman. Provet har 4 funktioner (även vanligtvis kallade attribut ), vilket är längd och breddsmätning av blomkål och kronblad.

Den intressanta delen av denna dataset är att de tre klasserna är något linjärt separerbara. Klassen Setosa kan separeras från de andra två klasserna genom att rita en rak linje i diagrammet mellan dem. Klasserna Virginica och Versicolor kan inte separeras helt med en rak linje - även om den är nära. Detta gör det till en perfekt kandidatdatasats för att göra klassificeringsanalys men inte så bra för analys av kluster.

Provdata var redan märkt. Den högra kolumnen (Etikett) ovan visar namnen på varje klass av Iris-blomman.Klassnamnet heter ett -märke eller ett mål; brukar det tilldelas en variabel som heter y . Det är i grunden resultatet eller resultatet av det som förutspås.

I statistik och modellering kallas den ofta som beroende variabel . Det beror på ingångarna som motsvarar käftens längd och bredd och till kronbladets längd och bredd.

Du kanske också vill veta vad som är annorlunda med den scikit preprocessed Iris dataseten, jämfört med den ursprungliga dataset. För att få reda på måste du hämta den ursprungliga datafilen. Du kan göra en Google-sökning efter iris dataset och ladda ner den eller visa den från någon av de akademiska institutionerna.

Resultatet som oftast kommer upp först är University of California Irvines (UCI) maskinlärande förvar av dataset. Iris dataset i sitt ursprungliga tillstånd från UCI-maskinlärningsförvaret finns på UCI: s webbplats.

Om du laddar ner den ska du kunna se den med vilken textredigerare som helst. När du tittar på data i filen märker du att det finns fem kolumner i varje rad. De första fyra kolumnerna är mätningarna (hänvisas till som funktionerna ) och den sista kolumnen är etiketten. Etiketten skiljer sig mellan original- och scikitversionerna av Iris-datasetet.

En annan skillnad är den första raden i datafilen. Den innehåller en rubrikrad som används av scikitdata-laddningsfunktionen. Det har ingen effekt på algoritmerna själva.

Normalisering av funktioner till siffror istället för att hålla dem som text gör det lättare för algoritmerna att bearbeta - och det är mycket mer minneseffektivt. Detta är särskilt tydligt om du kör mycket stora dataset med många funktioner - vilket ofta är fallet i reella scenarier.

Här är provdata från båda filerna. Alla datakolumnerna är desamma utom Col5. Observera att scikit har klassnamn med numeriska etiketter; Den ursprungliga filen har textetiketter.

Source Col1 Col2 Col3 Col4 Col5
scikit 5. 1 3. 5 1. 4 0. 2 0
ursprungliga 5. 1 3. 5 1. 4 0. 2 Iris-setosa
scikit 7. 0 3. 2 4. 7 1. 4 1
ursprungliga 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
scikit 6. 3 3. 3 6. 0 2. 5 2
ursprungliga 6. 3 3. 3 6. 0 2. 5 Iris-virginica
Hur man förbereder data för förutsägbar analys - dummies

Redaktörens val

Fastighetsprofessionens grunder för fastighetslicensexamen - dummies

Fastighetsprofessionens grunder för fastighetslicensexamen - dummies

Fastighetsexamen kommer att förvänta dig att du har ett grundläggande grepp på fastighetsbranschen. Du tror att det bara är uppenbart att veta vad de viktigaste spelarna gör i en fastighetsaffär, men på grund av den terminologi de delar, blir skillnaderna mellan spelarna lite muddlade. Här är snabba beskrivningar ...

Kostnadsmetoden för fastighetslicensexamen - dummies

Kostnadsmetoden för fastighetslicensexamen - dummies

En metod för att uppskatta Värdet på fastigheter kallas kostnaden. Du måste känna till formeln för fastighetslicensexamen. Kostnadsmetoden baseras på tanken att komponenterna i en fastighet eller marken och byggnaderna kan läggas till för att komma fram till ...

Studie för fastighetslicensexamen - dummies

Studie för fastighetslicensexamen - dummies

När var sista gången du tog en multipelvalsexamen ? Eller, för den delen, någon examen? Det är troligt att det var länge sedan. Kanske överväger du huruvida du ska bli en fastighetsmäklare, men du är lite avskräckt av tanken på att du måste göra ett test. Vad du kan ...

Redaktörens val

Följer ett basketspel på tv - dummies

Följer ett basketspel på tv - dummies

Du kommer bli mycket mer ute av att titta på ett basketspel på TV - eller till och med leva - om du gör mer än att se bollen gå in i rammen. Kolla in dessa insider tips för att fånga den verkliga åtgärden och öka din njutning av sporten. Förutse nästa pass Försök att tänka som ...

Top 5 Fantasy Basketball League Sites - Dummies

Top 5 Fantasy Basketball League Sites - Dummies

Att hitta och gå med på en fantasy basketplats kan ibland vara skrämmande uppgift eftersom så många alternativ är tillgängliga och de flesta webbplatser ser lika ut. Bara för att webbplatser ser ut som det betyder inte nödvändigtvis att de mäter i värde. Vissa webbplatser erbjuder gratis ligor, andra betalade - och vissa webbplatser tillhandahåller bara standard liga ...

Tryck på motståndarna i Basket - Dummies

Tryck på motståndarna i Basket - Dummies

Pressen är kort för tryck. Ofta kallad en fullrättspress, det här är ett anfallande försvar som används på backen, där målet är att tvinga en omsättning. Vanligtvis används efter en gjord korg, svänger pressgruppen över motståndarna i backcourt; Om motståndarna lyckas få bollen förbi halvvägs (kallad brytning ...

Redaktörens val

Hur R beräknar oändliga, odefinierade och saknade värden - dummies

Hur R beräknar oändliga, odefinierade och saknade värden - dummies

Lyckligtvis kan R hantera dataanomalier som förvirrar några andra statistiska plattformar. I vissa fall har du inte reella värden att beräkna med. I de flesta verkliga dataset saknas faktiskt åtminstone några värden. Dessutom har vissa beräkningar oändlighet som ett resultat (som att dividera med noll) eller kan inte ...

Hur man lägger till linjer i en plot i R-dummies

Hur man lägger till linjer i en plot i R-dummies

I R, lägger du till rader i en plott på ett mycket liknande sätt att lägga till poäng, förutom att du använder funktionen linjer () för att uppnå detta. Men använd först lite R magi för att skapa en trendlinje genom data, kallad en regressionsmodell. Du använder lm () -funktionen för att uppskatta en linjär ...

Hur man lägger till en andra dimension i R-dummies

Hur man lägger till en andra dimension i R-dummies

Förutom vektorer kan R representera matriser som ett objekt du arbetar och beräknar med. Faktum är att R verkligen lyser när det gäller matrisberäkningar och -operationer. Vektorer är nära relaterade till en större klass av objekt, arrays. Arrayer har två mycket viktiga egenskaper: De innehåller bara en enda typ av värde. De har ...