Hem Personliga finanser Klassificeringsalgoritmer Används i datavetenskap - dummies

Klassificeringsalgoritmer Används i datavetenskap - dummies

Anonim

Med klassificeringsalgoritmer tar du en befintlig databas och använd vad du vet om det för att skapa en prediktiv modell för klassificering av framtida datapunkter. Om ditt mål är att använda ditt dataset och dess kända undergrupper för att bygga en modell för att förutse kategorin av framtida datapunkter, vill du använda klassificeringsalgoritmer.

När du genomför övervakad klassificering bör du redan känna till dina datas underuppsatser - dessa delmängder heter kategorier . Klassificering hjälper dig att se hur bra dina data passar i datasetets fördefinierade kategorier så att du sedan kan bygga en prediktiv modell för att klassificera framtida datapunkter.

Figuren illustrerar hur det ser ut att klassificera Världsbankens inkomst- och utbildningsdatablad enligt kontinentskategorin.

Du kan se att de undergrupper som du kanske identifierar med en klusteringsteknik i vissa fall motsvarar kategorin kontinenter, men i andra fall gör de inte. Titta till exempel på det ena asiatiska landet mitt i de afrikanska datapunkterna. Det är Bhutan. Du kan använda data i denna dataset för att bygga en modell som skulle förutsäga en kontinentskategori för inkommande datapunkter.

Men om du introducerade en datapunkt för ett nytt land som visade statistik som liknar Bhutans, skulle det nya landet kunna kategoriseras som en del av den asiatiska kontinenten eller den afrikanska kontinenten, beroende på om hur du definierar din modell.

Föreställ dig nu en situation där din ursprungliga data inte innehåller Bhutan, och du använder modellen för att förutsäga Bhutans kontinent som en ny datapunkt. I detta scenario skulle modellen felaktigt förutsäga att Bhutan är en del av den afrikanska kontinenten.

Detta är ett exempel på modellöverfitting - situationer där en modell är så tätt passande till sin underliggande dataset, liksom bruset eller slumpmässigt fel som är inneboende i datasetet, att modellen fungerar dåligt som en förutsägelse för nya datapunkter.

För att undvika övermontering av dina modeller, dela upp dina data i en träningssats och en testuppsättning. Ett typiskt förhållande är att tilldela 80 procent av data till träningssatsen och resterande 20 procent i testuppsättningen. Bygg din modell med träningssatsen och använd sedan testsetet för att utvärdera modellen genom att låtsas att de testinställda datapunkterna är okända. Du kan utvärdera exaktheten av din modell genom att jämföra de kategorier som tilldelas dessa testinställda datapunkter enligt modellen till de sanna kategorierna.

Modellövergeneralisering kan också vara ett problem. Övergeneralisering är motsatt till överfitting: Det händer när en datavetenskapare försöker undvika - felaktig klassificering på grund av överfitting genom att göra en modell extremt generell. Modeller som är för generella slutar att tilldela varje kategori en låg grad av förtroende.

För att illustrera modellövergeneralisering, överväga igen Världsbankens inkomst- och utbildningsdatabaser. Om modellen använde närvaro av Bhutan för att tvivla på varje ny datapunkt i dess närliggande närhet, slutar du med en wishy-washy-modell som behandlar alla närliggande punkter som afrikansk men med liten sannolikhet. Denna modell skulle vara en dålig prediktiv artist.

En bra metafor för överfitting och övergeneralisering kan illustreras genom den välkända frasen "Om det går som en anka och pratar som en anka, så är det en anka. "Överfitting skulle göra denna fras till" Det är en anka om, och bara om det går och kvackar exakt på de sätt som jag personligen har sett en anka att gå och kvacka. Eftersom jag aldrig har observerat hur en australisk fläckig anka går och kvackar, måste en australisk fläckig anka inte riktigt vara en anka alls. "

I motsats skulle övergeneralisering säga," Om det rör sig på två ben och avger något högt nasalt ljud, är det en anka. Därför måste Fran Fine, Fran Dreschers karaktär i 90-talets amerikanska sitcom The Nanny vara en anka. "

Övervakad maskininlärning - den fina termen för klassificering - är lämplig i situationer där följande egenskaper är sanna:

  • Du känner till och förstår det dataset du analyserar.

  • Deluppsättningarna (kategorierna) i datasetet är definierade före tid och bestäms inte av data.

  • Du vill bygga en modell som korrelerar data inom sina fördefinierade kategorier så att modellen kan hjälpa till att förutse kategorin av framtida datapunkter.

När du gör klassificering ska du beakta följande punkter:

  • Modellprognoser är bara lika bra som modellens underliggande data. I Världsbankens dataexempel kan det vara så att om andra faktorer som livslängd eller energianvändning per capita skulle läggas till modellen, kan dess prediktiva styrka öka.

  • Modellprognoser är bara lika bra som kategoriseringen av den underliggande datasatsen. Vad gör du till exempel med länder som Ryssland som sträcker sig över två kontinenter? Skäljer du Nordafrika från Afrika söder om Sahara? Klämmer du Nordamerika in med Europa eftersom de tenderar att dela liknande attribut? Anser du att Centralamerika är en del av Nordamerika eller Sydamerika?

Det finns en konstant fara för övermontering och övergeneralisering. Ett lyckligt medium måste hittas mellan de två.

Klassificeringsalgoritmer Används i datavetenskap - dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...