Hem Personliga finanser Identifiera saknade data för maskinlärande - dummies

Identifiera saknade data för maskinlärande - dummies

Video: Data Analysis in R by Dustin Tran 2025

Video: Data Analysis in R by Dustin Tran 2025
Anonim

Även om du har tillräckligt med exempel för att träna både enkla och komplexa maskininlärningsalgoritmer måste de presentera kompletta värden i funktionerna utan eventuella saknade data. Att ha ett ofullständigt exempel gör att alla signaler inom och mellan funktioner omöjliggörs. Saknade värden gör det också svårt för algoritmen att lära sig under träning. Du måste göra något om de saknade data.

Ofta kan du ignorera saknade värden eller reparera dem genom att gissa ett sannolikt ersättningsvärde. Men för många saknade värden gör vi osäkra förutsägelser eftersom saknad information skulle kunna dölja eventuella siffror. Följaktligen är de mer saknade värdena i funktionerna, desto mer variabel och pryder förutsägelserna.

Som ett första steg, räkna antalet saknade fall i varje variabel. När en variabel har för många saknade fall kan du behöva släppa det från tränings- och testdatasetet. En bra tumregel är att släppa en variabel om mer än 90 procent av dess instanser saknas.

Vissa inlärningsalgoritmer vet inte hur man hanterar saknade värden och rapporterar fel i både tränings- och testfaser, medan andra modeller behandlar dem som nollvärden, vilket medför en underskattning av det förutspådda värdet eller sannolikheten (det är bara som om en del av formeln inte fungerar ordentligt). Följaktligen måste du ersätta alla saknade värden i din datamatris med något lämpligt värde för maskininlärning att hända korrekt.

Det finns många orsaker för saknade data, men det viktigaste är att uppgifterna saknas slumpmässigt eller i en viss ordning. Slumpmässig saknad data är idealisk eftersom du kan gissa dess värde med hjälp av ett enkelt medelvärde, en median eller en annan maskininlärningsalgoritm, utan för många bekymmer. Vissa fall innehåller en stark bias mot vissa typer av exempel.

Tänk exempelvis på att studera inkomst av en befolkning. Rika människor (av beskattningsskäl, förmodligen) tenderar att dölja sin sanna inkomst genom att rapportera till dig att de inte vet. Dåliga människor kan å andra sidan säga att de inte vill anmäla sin inkomst av rädsla för negativ bedömning. Om du saknar information från vissa grupper av befolkningen kan det vara svårt och vilseledande att reparera de saknade uppgifterna eftersom du kanske tror att sådana fall är som de andra.

Istället är de ganska annorlunda. Därför kan du inte bara använda medelvärden för att ersätta de saknade värdena - du måste använda komplexa metoder och ställa dem noga.Dessutom är det svårt att identifiera fall som saknas slumpmässigt, eftersom det krävs en närmare granskning av hur saknade värden är associerade med andra variabler i datasetet.

När data saknas slumpmässigt kan du enkelt reparera de tomma värdena eftersom du får tips om sitt verkliga värde från andra variabler. När data saknas slumpmässigt kan du inte få bra tips från annan tillgänglig information om du inte förstår dataförbundet med det saknade fallet.

Om du måste räkna ut saknade intäkter i dina data och det saknas eftersom personen är rik, kan du inte ersätta det saknade värdet med ett enkelt medel eftersom du ersätter den med en medelinkomst. Istället borde du använda ett genomsnitt av de rika människornas inkomst som ersättare.

När data saknas slumpmässigt är det faktum att värdet saknas informativt eftersom det hjälper till att spåra den saknade gruppen. Du kan lämna syftet att leta efter anledningen till att det saknas i din maskininlärningsalgoritm genom att bygga en ny binär funktion som rapporterar när värdet på en variabel saknas. Följaktligen kommer maskininlärningsalgoritmen att räkna ut det bästa värdet att använda som ersättning av sig själv.

Identifiera saknade data för maskinlärande - dummies

Redaktörens val

Vad är en Java-karta? - dummies

Vad är en Java-karta? - dummies

Arrays och specialiserade listor gör det möjligt att utföra en fantastisk uppsättning uppgifter med Java. Det finns dock situationer där en Java-applikation behöver något som är mer relaterat till en databas, utan att egentligen ha allt databasbagage (som att behöva köpa en separat applikation). Till exempel kanske du vill kunna ...

Några få saker om Java Math - dummies

Några få saker om Java Math - dummies

Tro det eller inte, datorer - även de mest kraftfulla - Ha vissa begränsningar när det gäller att utföra matematiska beräkningar. Dessa begränsningar är vanligtvis obetydliga, men ibland slår de sig och biter på dig. Här är de saker du behöver se upp för när du gör matte i Java. Helhetsflöde Det grundläggande problemet ...

Vad är recursion i Java Programmering? - dummies

Vad är recursion i Java Programmering? - dummies

Rekursion är en grundläggande programmeringsteknik som du kan använda i Java, där en metod kallar sig för att lösa ett problem. En metod som använder denna teknik är rekursiv. Många programmeringsproblem kan lösas endast genom rekursion, och vissa problem som kan lösas med andra tekniker löses bättre genom rekursion. En av ...

Redaktörens val

4 Måste-inkludera i din blogg sidobardesign - dummies

4 Måste-inkludera i din blogg sidobardesign - dummies

Din bloggens sidofält är viktig fastighet som bör innehålla de element du vill ha mest. När du utformar din blogg sidofält kan du dra från en nästan oändlig lista över sidospårelement. Genom att välja noggrant vad som ska inkluderas (och vad som inte ska inkluderas) kan du ställa in din blogg från andra.

5 Användbara Wordpress Plugins - dummies

5 Användbara Wordpress Plugins - dummies

Om du bloggar på en självhävd plattform med WordPress-programvara, är det dags att anpassa din blogg med plug-ins - programvara som kan "anslutas" till din befintliga WordPress bloggprogramvara. Plug-ins gör det möjligt för dig att göra allt från funktionsbildspel i dina blogginlägg för att ansluta sociala medier till din webbplats. Här är fem användbara ...

7 Sätt att erövra Writer's Block som en Blogger - dummies

7 Sätt att erövra Writer's Block som en Blogger - dummies

Varje bloggare möter författarens block i ett tid eller annan. Om du är den typ av bloggare som sköter innehåll varje dag, kan författarens block vara stäverande. Kan du inte ta en paus för att få ditt skrivande mojo tillbaka? Prova en (eller flera) av dessa sju sätt att slå författarens block för att få dig tillbaka ...

Redaktörens val

10 Stora elektronikkomponentkällor - dummies

10 Stora elektronikkomponentkällor - dummies

Letar du efter några bra källor till dina elektroniska delar? Denna lista ger dig några fleråriga favoriter, både inom och utanför Nordamerika. Denna lista är inte uttömmande. Du hittar bokstavligen tusentals specialutbud för ny och begagnad elektronik. Plus, Amazon och eBay ger virtuella marknadsplatser för alla sorters säljare - ...

Elektronik Basics: Resistance - dummies

Elektronik Basics: Resistance - dummies

I elektronikvärlden är motståndet inte meningslöst. Faktum är att motstånd kan vara mycket användbart. Utan motstånd skulle elektronik inte vara möjligt. Elektronik handlar om att manipulera strömmen av ström, och ett av de mest grundläggande sätten att manipulera strömmen är att minska det genom resistans. Utan motstånd strömmar strömmen oreglerad och där ...

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

För att berätta för BASIC Stamp vad du vill göra i ditt digitala elektronikprojekt måste du programmera det. BASIC Stamp Windows Editor är den programvara som du använder på din dator för att skapa program som kan laddas ner till en BASIC Stamp-mikrokontroller. Denna programvara är tillgänglig gratis från Parallax webbplats. ...