Hem Personliga finanser Klassificeringsalgoritmer Används i datavetenskap - dummies

Klassificeringsalgoritmer Används i datavetenskap - dummies

Anonim

Med klassificeringsalgoritmer tar du en befintlig databas och använd vad du vet om det för att skapa en prediktiv modell för klassificering av framtida datapunkter. Om ditt mål är att använda ditt dataset och dess kända undergrupper för att bygga en modell för att förutse kategorin av framtida datapunkter, vill du använda klassificeringsalgoritmer.

När du genomför övervakad klassificering bör du redan känna till dina datas underuppsatser - dessa delmängder heter kategorier . Klassificering hjälper dig att se hur bra dina data passar i datasetets fördefinierade kategorier så att du sedan kan bygga en prediktiv modell för att klassificera framtida datapunkter.

Figuren illustrerar hur det ser ut att klassificera Världsbankens inkomst- och utbildningsdatablad enligt kontinentskategorin.

Du kan se att de undergrupper som du kanske identifierar med en klusteringsteknik i vissa fall motsvarar kategorin kontinenter, men i andra fall gör de inte. Titta till exempel på det ena asiatiska landet mitt i de afrikanska datapunkterna. Det är Bhutan. Du kan använda data i denna dataset för att bygga en modell som skulle förutsäga en kontinentskategori för inkommande datapunkter.

Men om du introducerade en datapunkt för ett nytt land som visade statistik som liknar Bhutans, skulle det nya landet kunna kategoriseras som en del av den asiatiska kontinenten eller den afrikanska kontinenten, beroende på om hur du definierar din modell.

Föreställ dig nu en situation där din ursprungliga data inte innehåller Bhutan, och du använder modellen för att förutsäga Bhutans kontinent som en ny datapunkt. I detta scenario skulle modellen felaktigt förutsäga att Bhutan är en del av den afrikanska kontinenten.

Detta är ett exempel på modellöverfitting - situationer där en modell är så tätt passande till sin underliggande dataset, liksom bruset eller slumpmässigt fel som är inneboende i datasetet, att modellen fungerar dåligt som en förutsägelse för nya datapunkter.

För att undvika övermontering av dina modeller, dela upp dina data i en träningssats och en testuppsättning. Ett typiskt förhållande är att tilldela 80 procent av data till träningssatsen och resterande 20 procent i testuppsättningen. Bygg din modell med träningssatsen och använd sedan testsetet för att utvärdera modellen genom att låtsas att de testinställda datapunkterna är okända. Du kan utvärdera exaktheten av din modell genom att jämföra de kategorier som tilldelas dessa testinställda datapunkter enligt modellen till de sanna kategorierna.

Modellövergeneralisering kan också vara ett problem. Övergeneralisering är motsatt till överfitting: Det händer när en datavetenskapare försöker undvika - felaktig klassificering på grund av överfitting genom att göra en modell extremt generell. Modeller som är för generella slutar att tilldela varje kategori en låg grad av förtroende.

För att illustrera modellövergeneralisering, överväga igen Världsbankens inkomst- och utbildningsdatabaser. Om modellen använde närvaro av Bhutan för att tvivla på varje ny datapunkt i dess närliggande närhet, slutar du med en wishy-washy-modell som behandlar alla närliggande punkter som afrikansk men med liten sannolikhet. Denna modell skulle vara en dålig prediktiv artist.

En bra metafor för överfitting och övergeneralisering kan illustreras genom den välkända frasen "Om det går som en anka och pratar som en anka, så är det en anka. "Överfitting skulle göra denna fras till" Det är en anka om, och bara om det går och kvackar exakt på de sätt som jag personligen har sett en anka att gå och kvacka. Eftersom jag aldrig har observerat hur en australisk fläckig anka går och kvackar, måste en australisk fläckig anka inte riktigt vara en anka alls. "

I motsats skulle övergeneralisering säga," Om det rör sig på två ben och avger något högt nasalt ljud, är det en anka. Därför måste Fran Fine, Fran Dreschers karaktär i 90-talets amerikanska sitcom The Nanny vara en anka. "

Övervakad maskininlärning - den fina termen för klassificering - är lämplig i situationer där följande egenskaper är sanna:

  • Du känner till och förstår det dataset du analyserar.

  • Deluppsättningarna (kategorierna) i datasetet är definierade före tid och bestäms inte av data.

  • Du vill bygga en modell som korrelerar data inom sina fördefinierade kategorier så att modellen kan hjälpa till att förutse kategorin av framtida datapunkter.

När du gör klassificering ska du beakta följande punkter:

  • Modellprognoser är bara lika bra som modellens underliggande data. I Världsbankens dataexempel kan det vara så att om andra faktorer som livslängd eller energianvändning per capita skulle läggas till modellen, kan dess prediktiva styrka öka.

  • Modellprognoser är bara lika bra som kategoriseringen av den underliggande datasatsen. Vad gör du till exempel med länder som Ryssland som sträcker sig över två kontinenter? Skäljer du Nordafrika från Afrika söder om Sahara? Klämmer du Nordamerika in med Europa eftersom de tenderar att dela liknande attribut? Anser du att Centralamerika är en del av Nordamerika eller Sydamerika?

Det finns en konstant fara för övermontering och övergeneralisering. Ett lyckligt medium måste hittas mellan de två.

Klassificeringsalgoritmer Används i datavetenskap - dummies

Redaktörens val

Vad är en Java-karta? - dummies

Vad är en Java-karta? - dummies

Arrays och specialiserade listor gör det möjligt att utföra en fantastisk uppsättning uppgifter med Java. Det finns dock situationer där en Java-applikation behöver något som är mer relaterat till en databas, utan att egentligen ha allt databasbagage (som att behöva köpa en separat applikation). Till exempel kanske du vill kunna ...

Några få saker om Java Math - dummies

Några få saker om Java Math - dummies

Tro det eller inte, datorer - även de mest kraftfulla - Ha vissa begränsningar när det gäller att utföra matematiska beräkningar. Dessa begränsningar är vanligtvis obetydliga, men ibland slår de sig och biter på dig. Här är de saker du behöver se upp för när du gör matte i Java. Helhetsflöde Det grundläggande problemet ...

Vad är recursion i Java Programmering? - dummies

Vad är recursion i Java Programmering? - dummies

Rekursion är en grundläggande programmeringsteknik som du kan använda i Java, där en metod kallar sig för att lösa ett problem. En metod som använder denna teknik är rekursiv. Många programmeringsproblem kan lösas endast genom rekursion, och vissa problem som kan lösas med andra tekniker löses bättre genom rekursion. En av ...

Redaktörens val

4 Måste-inkludera i din blogg sidobardesign - dummies

4 Måste-inkludera i din blogg sidobardesign - dummies

Din bloggens sidofält är viktig fastighet som bör innehålla de element du vill ha mest. När du utformar din blogg sidofält kan du dra från en nästan oändlig lista över sidospårelement. Genom att välja noggrant vad som ska inkluderas (och vad som inte ska inkluderas) kan du ställa in din blogg från andra.

5 Användbara Wordpress Plugins - dummies

5 Användbara Wordpress Plugins - dummies

Om du bloggar på en självhävd plattform med WordPress-programvara, är det dags att anpassa din blogg med plug-ins - programvara som kan "anslutas" till din befintliga WordPress bloggprogramvara. Plug-ins gör det möjligt för dig att göra allt från funktionsbildspel i dina blogginlägg för att ansluta sociala medier till din webbplats. Här är fem användbara ...

7 Sätt att erövra Writer's Block som en Blogger - dummies

7 Sätt att erövra Writer's Block som en Blogger - dummies

Varje bloggare möter författarens block i ett tid eller annan. Om du är den typ av bloggare som sköter innehåll varje dag, kan författarens block vara stäverande. Kan du inte ta en paus för att få ditt skrivande mojo tillbaka? Prova en (eller flera) av dessa sju sätt att slå författarens block för att få dig tillbaka ...

Redaktörens val

10 Stora elektronikkomponentkällor - dummies

10 Stora elektronikkomponentkällor - dummies

Letar du efter några bra källor till dina elektroniska delar? Denna lista ger dig några fleråriga favoriter, både inom och utanför Nordamerika. Denna lista är inte uttömmande. Du hittar bokstavligen tusentals specialutbud för ny och begagnad elektronik. Plus, Amazon och eBay ger virtuella marknadsplatser för alla sorters säljare - ...

Elektronik Basics: Resistance - dummies

Elektronik Basics: Resistance - dummies

I elektronikvärlden är motståndet inte meningslöst. Faktum är att motstånd kan vara mycket användbart. Utan motstånd skulle elektronik inte vara möjligt. Elektronik handlar om att manipulera strömmen av ström, och ett av de mest grundläggande sätten att manipulera strömmen är att minska det genom resistans. Utan motstånd strömmar strömmen oreglerad och där ...

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

För att berätta för BASIC Stamp vad du vill göra i ditt digitala elektronikprojekt måste du programmera det. BASIC Stamp Windows Editor är den programvara som du använder på din dator för att skapa program som kan laddas ner till en BASIC Stamp-mikrokontroller. Denna programvara är tillgänglig gratis från Parallax webbplats. ...