Hem Personliga finanser Klassificeringsalgoritmer Används i datavetenskap - dummies

Klassificeringsalgoritmer Används i datavetenskap - dummies

Anonim

Med klassificeringsalgoritmer tar du en befintlig databas och använd vad du vet om det för att skapa en prediktiv modell för klassificering av framtida datapunkter. Om ditt mål är att använda ditt dataset och dess kända undergrupper för att bygga en modell för att förutse kategorin av framtida datapunkter, vill du använda klassificeringsalgoritmer.

När du genomför övervakad klassificering bör du redan känna till dina datas underuppsatser - dessa delmängder heter kategorier . Klassificering hjälper dig att se hur bra dina data passar i datasetets fördefinierade kategorier så att du sedan kan bygga en prediktiv modell för att klassificera framtida datapunkter.

Figuren illustrerar hur det ser ut att klassificera Världsbankens inkomst- och utbildningsdatablad enligt kontinentskategorin.

Du kan se att de undergrupper som du kanske identifierar med en klusteringsteknik i vissa fall motsvarar kategorin kontinenter, men i andra fall gör de inte. Titta till exempel på det ena asiatiska landet mitt i de afrikanska datapunkterna. Det är Bhutan. Du kan använda data i denna dataset för att bygga en modell som skulle förutsäga en kontinentskategori för inkommande datapunkter.

Men om du introducerade en datapunkt för ett nytt land som visade statistik som liknar Bhutans, skulle det nya landet kunna kategoriseras som en del av den asiatiska kontinenten eller den afrikanska kontinenten, beroende på om hur du definierar din modell.

Föreställ dig nu en situation där din ursprungliga data inte innehåller Bhutan, och du använder modellen för att förutsäga Bhutans kontinent som en ny datapunkt. I detta scenario skulle modellen felaktigt förutsäga att Bhutan är en del av den afrikanska kontinenten.

Detta är ett exempel på modellöverfitting - situationer där en modell är så tätt passande till sin underliggande dataset, liksom bruset eller slumpmässigt fel som är inneboende i datasetet, att modellen fungerar dåligt som en förutsägelse för nya datapunkter.

För att undvika övermontering av dina modeller, dela upp dina data i en träningssats och en testuppsättning. Ett typiskt förhållande är att tilldela 80 procent av data till träningssatsen och resterande 20 procent i testuppsättningen. Bygg din modell med träningssatsen och använd sedan testsetet för att utvärdera modellen genom att låtsas att de testinställda datapunkterna är okända. Du kan utvärdera exaktheten av din modell genom att jämföra de kategorier som tilldelas dessa testinställda datapunkter enligt modellen till de sanna kategorierna.

Modellövergeneralisering kan också vara ett problem. Övergeneralisering är motsatt till överfitting: Det händer när en datavetenskapare försöker undvika - felaktig klassificering på grund av överfitting genom att göra en modell extremt generell. Modeller som är för generella slutar att tilldela varje kategori en låg grad av förtroende.

För att illustrera modellövergeneralisering, överväga igen Världsbankens inkomst- och utbildningsdatabaser. Om modellen använde närvaro av Bhutan för att tvivla på varje ny datapunkt i dess närliggande närhet, slutar du med en wishy-washy-modell som behandlar alla närliggande punkter som afrikansk men med liten sannolikhet. Denna modell skulle vara en dålig prediktiv artist.

En bra metafor för överfitting och övergeneralisering kan illustreras genom den välkända frasen "Om det går som en anka och pratar som en anka, så är det en anka. "Överfitting skulle göra denna fras till" Det är en anka om, och bara om det går och kvackar exakt på de sätt som jag personligen har sett en anka att gå och kvacka. Eftersom jag aldrig har observerat hur en australisk fläckig anka går och kvackar, måste en australisk fläckig anka inte riktigt vara en anka alls. "

I motsats skulle övergeneralisering säga," Om det rör sig på två ben och avger något högt nasalt ljud, är det en anka. Därför måste Fran Fine, Fran Dreschers karaktär i 90-talets amerikanska sitcom The Nanny vara en anka. "

Övervakad maskininlärning - den fina termen för klassificering - är lämplig i situationer där följande egenskaper är sanna:

  • Du känner till och förstår det dataset du analyserar.

  • Deluppsättningarna (kategorierna) i datasetet är definierade före tid och bestäms inte av data.

  • Du vill bygga en modell som korrelerar data inom sina fördefinierade kategorier så att modellen kan hjälpa till att förutse kategorin av framtida datapunkter.

När du gör klassificering ska du beakta följande punkter:

  • Modellprognoser är bara lika bra som modellens underliggande data. I Världsbankens dataexempel kan det vara så att om andra faktorer som livslängd eller energianvändning per capita skulle läggas till modellen, kan dess prediktiva styrka öka.

  • Modellprognoser är bara lika bra som kategoriseringen av den underliggande datasatsen. Vad gör du till exempel med länder som Ryssland som sträcker sig över två kontinenter? Skäljer du Nordafrika från Afrika söder om Sahara? Klämmer du Nordamerika in med Europa eftersom de tenderar att dela liknande attribut? Anser du att Centralamerika är en del av Nordamerika eller Sydamerika?

Det finns en konstant fara för övermontering och övergeneralisering. Ett lyckligt medium måste hittas mellan de två.

Klassificeringsalgoritmer Används i datavetenskap - dummies

Redaktörens val

Fastighetsprofessionens grunder för fastighetslicensexamen - dummies

Fastighetsprofessionens grunder för fastighetslicensexamen - dummies

Fastighetsexamen kommer att förvänta dig att du har ett grundläggande grepp på fastighetsbranschen. Du tror att det bara är uppenbart att veta vad de viktigaste spelarna gör i en fastighetsaffär, men på grund av den terminologi de delar, blir skillnaderna mellan spelarna lite muddlade. Här är snabba beskrivningar ...

Kostnadsmetoden för fastighetslicensexamen - dummies

Kostnadsmetoden för fastighetslicensexamen - dummies

En metod för att uppskatta Värdet på fastigheter kallas kostnaden. Du måste känna till formeln för fastighetslicensexamen. Kostnadsmetoden baseras på tanken att komponenterna i en fastighet eller marken och byggnaderna kan läggas till för att komma fram till ...

Studie för fastighetslicensexamen - dummies

Studie för fastighetslicensexamen - dummies

När var sista gången du tog en multipelvalsexamen ? Eller, för den delen, någon examen? Det är troligt att det var länge sedan. Kanske överväger du huruvida du ska bli en fastighetsmäklare, men du är lite avskräckt av tanken på att du måste göra ett test. Vad du kan ...

Redaktörens val

Följer ett basketspel på tv - dummies

Följer ett basketspel på tv - dummies

Du kommer bli mycket mer ute av att titta på ett basketspel på TV - eller till och med leva - om du gör mer än att se bollen gå in i rammen. Kolla in dessa insider tips för att fånga den verkliga åtgärden och öka din njutning av sporten. Förutse nästa pass Försök att tänka som ...

Top 5 Fantasy Basketball League Sites - Dummies

Top 5 Fantasy Basketball League Sites - Dummies

Att hitta och gå med på en fantasy basketplats kan ibland vara skrämmande uppgift eftersom så många alternativ är tillgängliga och de flesta webbplatser ser lika ut. Bara för att webbplatser ser ut som det betyder inte nödvändigtvis att de mäter i värde. Vissa webbplatser erbjuder gratis ligor, andra betalade - och vissa webbplatser tillhandahåller bara standard liga ...

Tryck på motståndarna i Basket - Dummies

Tryck på motståndarna i Basket - Dummies

Pressen är kort för tryck. Ofta kallad en fullrättspress, det här är ett anfallande försvar som används på backen, där målet är att tvinga en omsättning. Vanligtvis används efter en gjord korg, svänger pressgruppen över motståndarna i backcourt; Om motståndarna lyckas få bollen förbi halvvägs (kallad brytning ...

Redaktörens val

Hur R beräknar oändliga, odefinierade och saknade värden - dummies

Hur R beräknar oändliga, odefinierade och saknade värden - dummies

Lyckligtvis kan R hantera dataanomalier som förvirrar några andra statistiska plattformar. I vissa fall har du inte reella värden att beräkna med. I de flesta verkliga dataset saknas faktiskt åtminstone några värden. Dessutom har vissa beräkningar oändlighet som ett resultat (som att dividera med noll) eller kan inte ...

Hur man lägger till linjer i en plot i R-dummies

Hur man lägger till linjer i en plot i R-dummies

I R, lägger du till rader i en plott på ett mycket liknande sätt att lägga till poäng, förutom att du använder funktionen linjer () för att uppnå detta. Men använd först lite R magi för att skapa en trendlinje genom data, kallad en regressionsmodell. Du använder lm () -funktionen för att uppskatta en linjär ...

Hur man lägger till en andra dimension i R-dummies

Hur man lägger till en andra dimension i R-dummies

Förutom vektorer kan R representera matriser som ett objekt du arbetar och beräknar med. Faktum är att R verkligen lyser när det gäller matrisberäkningar och -operationer. Vektorer är nära relaterade till en större klass av objekt, arrays. Arrayer har två mycket viktiga egenskaper: De innehåller bara en enda typ av värde. De har ...