Hem Personliga finanser Lära känna gränserna för bias i maskinlärande - dummies

Lära känna gränserna för bias i maskinlärande - dummies

Video: What does my headscarf mean to you? | Yassmin Abdel-Magied 2024

Video: What does my headscarf mean to you? | Yassmin Abdel-Magied 2024
Anonim

Maskininlärning beror mycket på in-sample data. Denna del av dina data är viktig eftersom du vill upptäcka världens synvinkel och som med alla synvinklar kan det vara fel, förvrängt eller bara bara partiell. Du vet också att du behöver ett exemplar utanför provet för att kontrollera om lärandeprocessen fungerar. Dessa aspekter utgör emellertid bara en del av bilden.

När du gör en maskininlärningsalgoritm arbetar med data för att gissa ett visst svar, spelar du effektivt en spelning, och den spelningen är inte bara på grund av det prov du använder för att lära dig. Det finns mer. Föreställ dig för närvarande att du har fri tillgång till lämpliga, opartiska, in-sample data, så data är inte problemet. Istället måste du koncentrera dig på metoden för att lära och förutse.

Först måste du tänka på att du satsar på att algoritmen rimligen kan gissa svaret. Du kan inte alltid göra detta antagande eftersom det inte går att bestämma vissa svar, oavsett vad du vet i förväg.

Du kan till exempel inte helt bestämma människors beteende genom att känna till deras tidigare historia och beteende. Kanske är en slumpmässig effekt involverad i det generativa processen med vårt beteende (till exempel den irrationella delen av oss), eller kanske kommer frågan upp till fri vilja (problemet är också en filosofisk / religiös, och det finns många diskreta åsikter). Följaktligen kan du bara gissa vissa typer av svar, och för många andra, till exempel när du försöker förutse folks beteende måste du acceptera en viss grad av osäkerhet som med lycka är acceptabel för dina ändamål.

För det andra måste du överväga att du satsar på att förhållandet mellan informationen du har och det svar du vill förutsäga kan uttryckas som en matematisk formel av något slag och att din maskininlärning algoritmen kan faktiskt gissa den formeln. Kapaciteten hos din algoritm för att gissa den matematiska formeln bakom ett svar är inbyggt inbäddat i algoritmens muttrar och bultar.

Vissa algoritmer kan gissa nästan allting; andra har faktiskt en begränsad uppsättning alternativ. Utbudet av möjliga matematiska formuleringar som en algoritm kan gissa är uppsättningen av sina möjliga hypoteser. Följaktligen är en hypotes en enda algoritm, specificerad i alla dess parametrar och därför kapabel till en enda, specifik formulering.

Matematiken är fantastisk. Det kan beskriva mycket av den verkliga världen genom att använda en viss enkel notering, och det är kärnan i maskininlärning eftersom en inlärningsalgoritm har en viss förmåga att representera en matematisk formulering.Vissa algoritmer, såsom linjär regression, använder uttryckligen en specifik matematisk formulering för att representera hur ett svar (till exempel priset på ett hus) hänför sig till en uppsättning av prediktiv information (såsom marknadsinformation, husplats, boendets yta, och så vidare).

Vissa formuleringar är så komplexa och invecklade att även om de representerar dem på papper är möjligt, gör det i praktiken för svårt. Några andra sofistikerade algoritmer, såsom beslutsträd, har ingen explicit matematisk formulering, men är så anpassningsbara att de enkelt kan sättas till ett stort antal formuleringar. Tänk på en enkel och lättförklarad formulering. Den linjära regressionen är bara en linje i ett koordinatutrymme som ges av svaret och alla prediktorer. I det enklaste exemplet kan du få ett svar, y och en enda prediktor, x, med en formulering av

y = β 1 x 1 + β 0

I en enkel situation av ett svar som förutses av en enda funktion är en sådan modell perfekt när din data ordnar sig som en linje. Men vad händer om det inte gör det och istället formar sig som en kurva? För att representera situationen, observera bara följande tvådimensionella representationer.

Exempel på en linjär modell som kämpar för att kartlägga en kurvfunktion.

När punkter liknar en linje eller ett moln, inträffar något fel när du bestämmer dig för att resultatet är en rak linje; Därför är kartläggningen som tillhandahålls av den föregående formuleringen på något sätt oklara. Felet visas emellertid inte systematiskt men ganska slumpmässigt eftersom vissa punkter ligger över den mappade raden och andra är under den. Situationen med det krökta, formade punktmolnet är annorlunda, för denna gång är linjen ibland exakt men vid andra tillfällen är det systematiskt fel. Ibland är poäng alltid över linjen; ibland är de under den.

Med tanke på enkelheten i kartläggningen av svaret tenderar din algoritm att systematiskt överskatta eller underskatta de reella reglerna bakom data som representerar dess bias. Förspänningen är karakteristisk för enklare algoritmer som inte kan uttrycka komplexa matematiska formuleringar.

Lära känna gränserna för bias i maskinlärande - dummies

Redaktörens val

Organisera e-postmarknadsföring innehåll för att matcha dina mål - dummies

Organisera e-postmarknadsföring innehåll för att matcha dina mål - dummies

När du utvecklar e-postmarknadsföring innehåll, överväga hur din publik kommer att uppleva dina avsikter. E-postmeddelanden ger större mening åt dina framtidsutsikter och kunder när innehållet du skapar och levererar är knutet samman under kända teman. När din tid är begränsad kan du bli frestad att skapa e-postinnehåll som passar ditt schema bättre ...

Nya formulärinmatningstyper i HTML5 - dummies

Nya formulärinmatningstyper i HTML5 - dummies

HTML-formulär är centrerade kring det ödmjuka men flexibla inmatningselementet . HTML5 lägger till ett antal väldigt användbara former av inmatning som hjälper till att göra HTML till ett mer modernt användargränssnitt. Även om stöd för dessa taggar inte är universellt är det säkert att börja använda dem nu. Varje webbläsare (även IE6) som inte förstår den avancerade ...

Utföra visuell designtest på en ny webbplats - dummies

Utföra visuell designtest på en ny webbplats - dummies

Det visuella designteamet för en webbplats kan skapa några olika "look and feel" -alternativ och testa dem med användare. Den här designen kallas perfekt för att passera en hemsida och en inre eller undersida av din webbplats, men de är inte 100 procent korrekta när det gäller ...

Redaktörens val

Objektiv till dina digitala SLR-dummies

Objektiv till dina digitala SLR-dummies

Zoomlinser är inte den enda typen av linser som är tillgängliga för din dSLR . Du borde veta hur de skiljer sig från de andra alternativen. Här är några av alternativen till zoomlinser i allmänhet och vanliga zoomlinser i synnerhet. Prime-objektiv En primärlins har en fast brännvidd. En lins med fast fokusering ...

Hur man skapar bra belysning för din digitala fotografi - dummies

Hur man skapar bra belysning för din digitala fotografi - dummies

Ja, du kan återskapa bra belysning om du vet vad du gör. Och ingenting kan förstöra ett foto snabbare än dålig belysning. Du kan göra många förbättringar till ett utmanande ämne helt enkelt genom att använda bra belysningsteknik. Din farbrors skalliga huvud, en tonåring som är mindre än perfekt, en hård upplyst strandplats, en droppe ...

ÖKa bildförstoring med telekonverterare - dummies

ÖKa bildförstoring med telekonverterare - dummies

En telekonverter är en sekundärlins som du placerar mellan din lins och kamerokroppen (precis som förlängningsröret). En telekonverter tar emot bilden som skapats av din lins och ger en förstorad version av den till kamerans digitala sensor. Detta kan vara ett användbart verktyg i makrofotografering men kan också vara ...

Redaktörens val

Undvik hack på sårbara trådlösa arbetsstationer - dummies

Undvik hack på sårbara trådlösa arbetsstationer - dummies

Trådlösa arbetsstationer har massor av säkerhetsproblem och kan vara inriktade på hackar - från svaga lösenord till opatchade säkerhetshål till lagring av WEP- och WPA-krypteringsnycklar lokalt. De flesta av de kända trådlösa klientens sårbarheter har blivit patchade av sina respektive leverantörer, men du vet aldrig om alla dina trådlösa system är ...

Grundläggande Mac Network Settings - dummies

Grundläggande Mac Network Settings - dummies

De flesta nätverksinställningarna på en Mac är automatiska. Om du föredrar kan du titta på och ändra standardnätverksinställningarna genom att följa dessa steg: