Lära känna gränserna för bias i maskinlärande - dummies

Video: What does my headscarf mean to you? | Yassmin Abdel-Magied 2025

Maskininlärning beror mycket på in-sample data. Denna del av dina data är viktig eftersom du vill upptäcka världens synvinkel och som med alla synvinklar kan det vara fel, förvrängt eller bara bara partiell. Du vet också att du behöver ett exemplar utanför provet för att kontrollera om lärandeprocessen fungerar. Dessa aspekter utgör emellertid bara en del av bilden.

När du gör en maskininlärningsalgoritm arbetar med data för att gissa ett visst svar, spelar du effektivt en spelning, och den spelningen är inte bara på grund av det prov du använder för att lära dig. Det finns mer. Föreställ dig för närvarande att du har fri tillgång till lämpliga, opartiska, in-sample data, så data är inte problemet. Istället måste du koncentrera dig på metoden för att lära och förutse.

Först måste du tänka på att du satsar på att algoritmen rimligen kan gissa svaret. Du kan inte alltid göra detta antagande eftersom det inte går att bestämma vissa svar, oavsett vad du vet i förväg.

Du kan till exempel inte helt bestämma människors beteende genom att känna till deras tidigare historia och beteende. Kanske är en slumpmässig effekt involverad i det generativa processen med vårt beteende (till exempel den irrationella delen av oss), eller kanske kommer frågan upp till fri vilja (problemet är också en filosofisk / religiös, och det finns många diskreta åsikter). Följaktligen kan du bara gissa vissa typer av svar, och för många andra, till exempel när du försöker förutse folks beteende måste du acceptera en viss grad av osäkerhet som med lycka är acceptabel för dina ändamål.

För det andra måste du överväga att du satsar på att förhållandet mellan informationen du har och det svar du vill förutsäga kan uttryckas som en matematisk formel av något slag och att din maskininlärning algoritmen kan faktiskt gissa den formeln. Kapaciteten hos din algoritm för att gissa den matematiska formeln bakom ett svar är inbyggt inbäddat i algoritmens muttrar och bultar.

Vissa algoritmer kan gissa nästan allting; andra har faktiskt en begränsad uppsättning alternativ. Utbudet av möjliga matematiska formuleringar som en algoritm kan gissa är uppsättningen av sina möjliga hypoteser. Följaktligen är en hypotes en enda algoritm, specificerad i alla dess parametrar och därför kapabel till en enda, specifik formulering.

Matematiken är fantastisk. Det kan beskriva mycket av den verkliga världen genom att använda en viss enkel notering, och det är kärnan i maskininlärning eftersom en inlärningsalgoritm har en viss förmåga att representera en matematisk formulering.Vissa algoritmer, såsom linjär regression, använder uttryckligen en specifik matematisk formulering för att representera hur ett svar (till exempel priset på ett hus) hänför sig till en uppsättning av prediktiv information (såsom marknadsinformation, husplats, boendets yta, och så vidare).

Vissa formuleringar är så komplexa och invecklade att även om de representerar dem på papper är möjligt, gör det i praktiken för svårt. Några andra sofistikerade algoritmer, såsom beslutsträd, har ingen explicit matematisk formulering, men är så anpassningsbara att de enkelt kan sättas till ett stort antal formuleringar. Tänk på en enkel och lättförklarad formulering. Den linjära regressionen är bara en linje i ett koordinatutrymme som ges av svaret och alla prediktorer. I det enklaste exemplet kan du få ett svar, y och en enda prediktor, x, med en formulering av

y = β ₁ x ₁ + β ₀

I en enkel situation av ett svar som förutses av en enda funktion är en sådan modell perfekt när din data ordnar sig som en linje. Men vad händer om det inte gör det och istället formar sig som en kurva? För att representera situationen, observera bara följande tvådimensionella representationer.

Exempel på en linjär modell som kämpar för att kartlägga en kurvfunktion.

När punkter liknar en linje eller ett moln, inträffar något fel när du bestämmer dig för att resultatet är en rak linje; Därför är kartläggningen som tillhandahålls av den föregående formuleringen på något sätt oklara. Felet visas emellertid inte systematiskt men ganska slumpmässigt eftersom vissa punkter ligger över den mappade raden och andra är under den. Situationen med det krökta, formade punktmolnet är annorlunda, för denna gång är linjen ibland exakt men vid andra tillfällen är det systematiskt fel. Ibland är poäng alltid över linjen; ibland är de under den.

Med tanke på enkelheten i kartläggningen av svaret tenderar din algoritm att systematiskt överskatta eller underskatta de reella reglerna bakom data som representerar dess bias. Förspänningen är karakteristisk för enklare algoritmer som inte kan uttrycka komplexa matematiska formuleringar.