Video: Grunderna för riktigt bra wedgar 2024
När du har alla verktyg och data som behövs för att börja skapa en prediktiv modell börjar roligt. Generellt innebär skapandet av en inlärningsmodell för klassificeringsuppgifter följande steg:
-
Ladda data.
-
Välj en klassificering.
-
Träna modellen.
-
Visualisera modellen.
-
Testa modellen.
-
Utvärdera modellen.
Både logistikregression och Support Vector Machine (SVM) klassificeringsmodeller fungerar ganska bra med hjälp av Iris dataset.
Sepal Längd | Sepal Bredd | Kronbladslängd | Kronbladets bredd | Målgrupp / Etikett |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
Den logistiska regressionsmodellen med parameter C = 1 var perfekt i sina förutsägelser, medan SVM-modellen och den logistiska regressionsmodellen med C = 150 saknade endast en förutsägelse. Den höga noggrannheten hos båda modellerna är faktiskt ett resultat av att ha en liten dataset som har datapunkter som är ganska nära linjärt separerbara.
Intressant, den logistiska regressionsmodellen med C = 150 hade en snyggare beslutsplan än den med C = 1, men det fungerade inte bättre. Det är inte så stor sak, med tanke på att testuppsättningen är så liten. Om en annan slumpmässig delning mellan träningsuppsättning och testuppsättning hade valts kunde resultaten lätt ha varit annorlunda.
Detta avslöjar en annan källa till komplexitet som växer upp i modellutvärdering: effekten av provtagning, och hur man väljer utbildnings- och testuppsättningar kan påverka modellens resultat. Kors-valideringsteknik kan bidra till att minimera effekten av slumpmässig provtagning på modellens prestanda.
För ett större dataset med icke-linjärt separerbar data, förväntar du dig att resultaten avviker ännu mer. Dessutom blir det svårare att välja lämplig modell på grund av dataens komplexitet och storlek. Var beredd att spendera mycket tid på att ställa in dina parametrar för att få en perfekt passform.
När du skapar prediktiva modeller, prova några algoritmer och uttömmande parametrar tills du hittar det som passar bäst för dina data. Jämför sedan deras utdata mot varandra.