Hem Personliga finanser Hur man förbereder data för förutsägbar analys - dummies

Hur man förbereder data för förutsägbar analys - dummies

Innehållsförteckning:

Video: You aren't at the mercy of your emotions -- your brain creates them | Lisa Feldman Barrett 2024

Video: You aren't at the mercy of your emotions -- your brain creates them | Lisa Feldman Barrett 2024
Anonim

När du lär dig ett nytt programmeringsspråk är det vanligt att skriva "Hello World" -programmet. För maskininlärning och prediktiv analys, skapar en modell för att klassificera Iris dataset sitt "hello world" motsvarande program. Detta är ett ganska enkelt exempel, men det är mycket effektivt för att lära grunderna i maskininlärning och prediktiv analys.

Så här får du provdatasetet

För att skapa vår prediktiva modell måste du ladda ner provet Iris dataset. Denna dataset är fritt tillgänglig från många källor, särskilt vid akademiska institutioner som har maskininlärningsavdelningar. Lyckligtvis var folket tillräckligt bra för att inkludera några provdataset och data-laddningsfunktioner tillsammans med deras paket. För de här exemplen behöver du bara köra ett par enkla kodlinjer för att ladda data.

Så här mäter du dina data

Här är en observation och dess egenskaper från varje klass av Iris Flower-databasen.

Sepal Längd Sepal Bredd Kronbladslängd Kronbladets bredd Målgrupp / Etikett
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Iris Flower Dataset är en reell multivariat dataset av tre klasser av Iris-blomman ( Iris Setosa, Iris Virginica, och Iris Versicolor ) introducerad av Ronald Fisher i sin artikel 1936, "Användningen av flera mätningar i taxonomiska problem. "Denna dataset är mest känd för sin omfattande användning i akademin för maskininlärning och statistik.

Datasetet består av 150 sammanlagda fall, med 50 fall från var och en av de tre klasserna av Iris-blomman. Provet har 4 funktioner (även vanligtvis kallade attribut ), vilket är längd och breddsmätning av blomkål och kronblad.

Den intressanta delen av denna dataset är att de tre klasserna är något linjärt separerbara. Klassen Setosa kan separeras från de andra två klasserna genom att rita en rak linje i diagrammet mellan dem. Klasserna Virginica och Versicolor kan inte separeras helt med en rak linje - även om den är nära. Detta gör det till en perfekt kandidatdatasats för att göra klassificeringsanalys men inte så bra för analys av kluster.

Provdata var redan märkt. Den högra kolumnen (Etikett) ovan visar namnen på varje klass av Iris-blomman.Klassnamnet heter ett -märke eller ett mål; brukar det tilldelas en variabel som heter y . Det är i grunden resultatet eller resultatet av det som förutspås.

I statistik och modellering kallas den ofta som beroende variabel . Det beror på ingångarna som motsvarar käftens längd och bredd och till kronbladets längd och bredd.

Du kanske också vill veta vad som är annorlunda med den scikit preprocessed Iris dataseten, jämfört med den ursprungliga dataset. För att få reda på måste du hämta den ursprungliga datafilen. Du kan göra en Google-sökning efter iris dataset och ladda ner den eller visa den från någon av de akademiska institutionerna.

Resultatet som oftast kommer upp först är University of California Irvines (UCI) maskinlärande förvar av dataset. Iris dataset i sitt ursprungliga tillstånd från UCI-maskinlärningsförvaret finns på UCI: s webbplats.

Om du laddar ner den ska du kunna se den med vilken textredigerare som helst. När du tittar på data i filen märker du att det finns fem kolumner i varje rad. De första fyra kolumnerna är mätningarna (hänvisas till som funktionerna ) och den sista kolumnen är etiketten. Etiketten skiljer sig mellan original- och scikitversionerna av Iris-datasetet.

En annan skillnad är den första raden i datafilen. Den innehåller en rubrikrad som används av scikitdata-laddningsfunktionen. Det har ingen effekt på algoritmerna själva.

Normalisering av funktioner till siffror istället för att hålla dem som text gör det lättare för algoritmerna att bearbeta - och det är mycket mer minneseffektivt. Detta är särskilt tydligt om du kör mycket stora dataset med många funktioner - vilket ofta är fallet i reella scenarier.

Här är provdata från båda filerna. Alla datakolumnerna är desamma utom Col5. Observera att scikit har klassnamn med numeriska etiketter; Den ursprungliga filen har textetiketter.

Source Col1 Col2 Col3 Col4 Col5
scikit 5. 1 3. 5 1. 4 0. 2 0
ursprungliga 5. 1 3. 5 1. 4 0. 2 Iris-setosa
scikit 7. 0 3. 2 4. 7 1. 4 1
ursprungliga 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
scikit 6. 3 3. 3 6. 0 2. 5 2
ursprungliga 6. 3 3. 3 6. 0 2. 5 Iris-virginica
Hur man förbereder data för förutsägbar analys - dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...