Med klassificeringsalgoritmer tar du en befintlig databas och använd vad du vet om det för att skapa en prediktiv modell för klassificering av framtida datapunkter. Om ditt mål är att använda ditt dataset och dess kända undergrupper för att bygga en modell för att förutse kategorin av framtida datapunkter, vill du använda klassificeringsalgoritmer.
När du genomför övervakad klassificering bör du redan känna till dina datas underuppsatser - dessa delmängder heter kategorier . Klassificering hjälper dig att se hur bra dina data passar i datasetets fördefinierade kategorier så att du sedan kan bygga en prediktiv modell för att klassificera framtida datapunkter.
Figuren illustrerar hur det ser ut att klassificera Världsbankens inkomst- och utbildningsdatablad enligt kontinentskategorin.
Du kan se att de undergrupper som du kanske identifierar med en klusteringsteknik i vissa fall motsvarar kategorin kontinenter, men i andra fall gör de inte. Titta till exempel på det ena asiatiska landet mitt i de afrikanska datapunkterna. Det är Bhutan. Du kan använda data i denna dataset för att bygga en modell som skulle förutsäga en kontinentskategori för inkommande datapunkter.
Men om du introducerade en datapunkt för ett nytt land som visade statistik som liknar Bhutans, skulle det nya landet kunna kategoriseras som en del av den asiatiska kontinenten eller den afrikanska kontinenten, beroende på om hur du definierar din modell.
Föreställ dig nu en situation där din ursprungliga data inte innehåller Bhutan, och du använder modellen för att förutsäga Bhutans kontinent som en ny datapunkt. I detta scenario skulle modellen felaktigt förutsäga att Bhutan är en del av den afrikanska kontinenten.
Detta är ett exempel på modellöverfitting - situationer där en modell är så tätt passande till sin underliggande dataset, liksom bruset eller slumpmässigt fel som är inneboende i datasetet, att modellen fungerar dåligt som en förutsägelse för nya datapunkter.
För att undvika övermontering av dina modeller, dela upp dina data i en träningssats och en testuppsättning. Ett typiskt förhållande är att tilldela 80 procent av data till träningssatsen och resterande 20 procent i testuppsättningen. Bygg din modell med träningssatsen och använd sedan testsetet för att utvärdera modellen genom att låtsas att de testinställda datapunkterna är okända. Du kan utvärdera exaktheten av din modell genom att jämföra de kategorier som tilldelas dessa testinställda datapunkter enligt modellen till de sanna kategorierna.
Modellövergeneralisering kan också vara ett problem. Övergeneralisering är motsatt till överfitting: Det händer när en datavetenskapare försöker undvika - felaktig klassificering på grund av överfitting genom att göra en modell extremt generell. Modeller som är för generella slutar att tilldela varje kategori en låg grad av förtroende.
För att illustrera modellövergeneralisering, överväga igen Världsbankens inkomst- och utbildningsdatabaser. Om modellen använde närvaro av Bhutan för att tvivla på varje ny datapunkt i dess närliggande närhet, slutar du med en wishy-washy-modell som behandlar alla närliggande punkter som afrikansk men med liten sannolikhet. Denna modell skulle vara en dålig prediktiv artist.
En bra metafor för överfitting och övergeneralisering kan illustreras genom den välkända frasen "Om det går som en anka och pratar som en anka, så är det en anka. "Överfitting skulle göra denna fras till" Det är en anka om, och bara om det går och kvackar exakt på de sätt som jag personligen har sett en anka att gå och kvacka. Eftersom jag aldrig har observerat hur en australisk fläckig anka går och kvackar, måste en australisk fläckig anka inte riktigt vara en anka alls. "
I motsats skulle övergeneralisering säga," Om det rör sig på två ben och avger något högt nasalt ljud, är det en anka. Därför måste Fran Fine, Fran Dreschers karaktär i 90-talets amerikanska sitcom The Nanny vara en anka. "
Övervakad maskininlärning - den fina termen för klassificering - är lämplig i situationer där följande egenskaper är sanna:
-
Du känner till och förstår det dataset du analyserar.
-
Deluppsättningarna (kategorierna) i datasetet är definierade före tid och bestäms inte av data.
-
Du vill bygga en modell som korrelerar data inom sina fördefinierade kategorier så att modellen kan hjälpa till att förutse kategorin av framtida datapunkter.
När du gör klassificering ska du beakta följande punkter:
-
Modellprognoser är bara lika bra som modellens underliggande data. I Världsbankens dataexempel kan det vara så att om andra faktorer som livslängd eller energianvändning per capita skulle läggas till modellen, kan dess prediktiva styrka öka.
-
Modellprognoser är bara lika bra som kategoriseringen av den underliggande datasatsen. Vad gör du till exempel med länder som Ryssland som sträcker sig över två kontinenter? Skäljer du Nordafrika från Afrika söder om Sahara? Klämmer du Nordamerika in med Europa eftersom de tenderar att dela liknande attribut? Anser du att Centralamerika är en del av Nordamerika eller Sydamerika?
Det finns en konstant fara för övermontering och övergeneralisering. Ett lyckligt medium måste hittas mellan de två.