Hem Personliga finanser Lära känna gränserna för bias i maskinlärande - dummies

Lära känna gränserna för bias i maskinlärande - dummies

Video: What does my headscarf mean to you? | Yassmin Abdel-Magied 2025

Video: What does my headscarf mean to you? | Yassmin Abdel-Magied 2025
Anonim

Maskininlärning beror mycket på in-sample data. Denna del av dina data är viktig eftersom du vill upptäcka världens synvinkel och som med alla synvinklar kan det vara fel, förvrängt eller bara bara partiell. Du vet också att du behöver ett exemplar utanför provet för att kontrollera om lärandeprocessen fungerar. Dessa aspekter utgör emellertid bara en del av bilden.

När du gör en maskininlärningsalgoritm arbetar med data för att gissa ett visst svar, spelar du effektivt en spelning, och den spelningen är inte bara på grund av det prov du använder för att lära dig. Det finns mer. Föreställ dig för närvarande att du har fri tillgång till lämpliga, opartiska, in-sample data, så data är inte problemet. Istället måste du koncentrera dig på metoden för att lära och förutse.

Först måste du tänka på att du satsar på att algoritmen rimligen kan gissa svaret. Du kan inte alltid göra detta antagande eftersom det inte går att bestämma vissa svar, oavsett vad du vet i förväg.

Du kan till exempel inte helt bestämma människors beteende genom att känna till deras tidigare historia och beteende. Kanske är en slumpmässig effekt involverad i det generativa processen med vårt beteende (till exempel den irrationella delen av oss), eller kanske kommer frågan upp till fri vilja (problemet är också en filosofisk / religiös, och det finns många diskreta åsikter). Följaktligen kan du bara gissa vissa typer av svar, och för många andra, till exempel när du försöker förutse folks beteende måste du acceptera en viss grad av osäkerhet som med lycka är acceptabel för dina ändamål.

För det andra måste du överväga att du satsar på att förhållandet mellan informationen du har och det svar du vill förutsäga kan uttryckas som en matematisk formel av något slag och att din maskininlärning algoritmen kan faktiskt gissa den formeln. Kapaciteten hos din algoritm för att gissa den matematiska formeln bakom ett svar är inbyggt inbäddat i algoritmens muttrar och bultar.

Vissa algoritmer kan gissa nästan allting; andra har faktiskt en begränsad uppsättning alternativ. Utbudet av möjliga matematiska formuleringar som en algoritm kan gissa är uppsättningen av sina möjliga hypoteser. Följaktligen är en hypotes en enda algoritm, specificerad i alla dess parametrar och därför kapabel till en enda, specifik formulering.

Matematiken är fantastisk. Det kan beskriva mycket av den verkliga världen genom att använda en viss enkel notering, och det är kärnan i maskininlärning eftersom en inlärningsalgoritm har en viss förmåga att representera en matematisk formulering.Vissa algoritmer, såsom linjär regression, använder uttryckligen en specifik matematisk formulering för att representera hur ett svar (till exempel priset på ett hus) hänför sig till en uppsättning av prediktiv information (såsom marknadsinformation, husplats, boendets yta, och så vidare).

Vissa formuleringar är så komplexa och invecklade att även om de representerar dem på papper är möjligt, gör det i praktiken för svårt. Några andra sofistikerade algoritmer, såsom beslutsträd, har ingen explicit matematisk formulering, men är så anpassningsbara att de enkelt kan sättas till ett stort antal formuleringar. Tänk på en enkel och lättförklarad formulering. Den linjära regressionen är bara en linje i ett koordinatutrymme som ges av svaret och alla prediktorer. I det enklaste exemplet kan du få ett svar, y och en enda prediktor, x, med en formulering av

y = β 1 x 1 + β 0

I en enkel situation av ett svar som förutses av en enda funktion är en sådan modell perfekt när din data ordnar sig som en linje. Men vad händer om det inte gör det och istället formar sig som en kurva? För att representera situationen, observera bara följande tvådimensionella representationer.

Exempel på en linjär modell som kämpar för att kartlägga en kurvfunktion.

När punkter liknar en linje eller ett moln, inträffar något fel när du bestämmer dig för att resultatet är en rak linje; Därför är kartläggningen som tillhandahålls av den föregående formuleringen på något sätt oklara. Felet visas emellertid inte systematiskt men ganska slumpmässigt eftersom vissa punkter ligger över den mappade raden och andra är under den. Situationen med det krökta, formade punktmolnet är annorlunda, för denna gång är linjen ibland exakt men vid andra tillfällen är det systematiskt fel. Ibland är poäng alltid över linjen; ibland är de under den.

Med tanke på enkelheten i kartläggningen av svaret tenderar din algoritm att systematiskt överskatta eller underskatta de reella reglerna bakom data som representerar dess bias. Förspänningen är karakteristisk för enklare algoritmer som inte kan uttrycka komplexa matematiska formuleringar.

Lära känna gränserna för bias i maskinlärande - dummies

Redaktörens val

Vad är en Java-karta? - dummies

Vad är en Java-karta? - dummies

Arrays och specialiserade listor gör det möjligt att utföra en fantastisk uppsättning uppgifter med Java. Det finns dock situationer där en Java-applikation behöver något som är mer relaterat till en databas, utan att egentligen ha allt databasbagage (som att behöva köpa en separat applikation). Till exempel kanske du vill kunna ...

Några få saker om Java Math - dummies

Några få saker om Java Math - dummies

Tro det eller inte, datorer - även de mest kraftfulla - Ha vissa begränsningar när det gäller att utföra matematiska beräkningar. Dessa begränsningar är vanligtvis obetydliga, men ibland slår de sig och biter på dig. Här är de saker du behöver se upp för när du gör matte i Java. Helhetsflöde Det grundläggande problemet ...

Vad är recursion i Java Programmering? - dummies

Vad är recursion i Java Programmering? - dummies

Rekursion är en grundläggande programmeringsteknik som du kan använda i Java, där en metod kallar sig för att lösa ett problem. En metod som använder denna teknik är rekursiv. Många programmeringsproblem kan lösas endast genom rekursion, och vissa problem som kan lösas med andra tekniker löses bättre genom rekursion. En av ...

Redaktörens val

4 Måste-inkludera i din blogg sidobardesign - dummies

4 Måste-inkludera i din blogg sidobardesign - dummies

Din bloggens sidofält är viktig fastighet som bör innehålla de element du vill ha mest. När du utformar din blogg sidofält kan du dra från en nästan oändlig lista över sidospårelement. Genom att välja noggrant vad som ska inkluderas (och vad som inte ska inkluderas) kan du ställa in din blogg från andra.

5 Användbara Wordpress Plugins - dummies

5 Användbara Wordpress Plugins - dummies

Om du bloggar på en självhävd plattform med WordPress-programvara, är det dags att anpassa din blogg med plug-ins - programvara som kan "anslutas" till din befintliga WordPress bloggprogramvara. Plug-ins gör det möjligt för dig att göra allt från funktionsbildspel i dina blogginlägg för att ansluta sociala medier till din webbplats. Här är fem användbara ...

7 Sätt att erövra Writer's Block som en Blogger - dummies

7 Sätt att erövra Writer's Block som en Blogger - dummies

Varje bloggare möter författarens block i ett tid eller annan. Om du är den typ av bloggare som sköter innehåll varje dag, kan författarens block vara stäverande. Kan du inte ta en paus för att få ditt skrivande mojo tillbaka? Prova en (eller flera) av dessa sju sätt att slå författarens block för att få dig tillbaka ...

Redaktörens val

10 Stora elektronikkomponentkällor - dummies

10 Stora elektronikkomponentkällor - dummies

Letar du efter några bra källor till dina elektroniska delar? Denna lista ger dig några fleråriga favoriter, både inom och utanför Nordamerika. Denna lista är inte uttömmande. Du hittar bokstavligen tusentals specialutbud för ny och begagnad elektronik. Plus, Amazon och eBay ger virtuella marknadsplatser för alla sorters säljare - ...

Elektronik Basics: Resistance - dummies

Elektronik Basics: Resistance - dummies

I elektronikvärlden är motståndet inte meningslöst. Faktum är att motstånd kan vara mycket användbart. Utan motstånd skulle elektronik inte vara möjligt. Elektronik handlar om att manipulera strömmen av ström, och ett av de mest grundläggande sätten att manipulera strömmen är att minska det genom resistans. Utan motstånd strömmar strömmen oreglerad och där ...

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

För att berätta för BASIC Stamp vad du vill göra i ditt digitala elektronikprojekt måste du programmera det. BASIC Stamp Windows Editor är den programvara som du använder på din dator för att skapa program som kan laddas ner till en BASIC Stamp-mikrokontroller. Denna programvara är tillgänglig gratis från Parallax webbplats. ...