Hem Personliga finanser Saknas värden i dina data - dummies

Saknas värden i dina data - dummies

Innehållsförteckning:

Video: Innosurvey – att bygga organisationer som skapar värde genom data science 2025

Video: Innosurvey – att bygga organisationer som skapar värde genom data science 2025
Anonim

Ett av de vanligaste och mest utsökta dataproblemen att hantera saknas data. Filer kan vara ofullständiga eftersom poster tappades eller en lagringsenhet fylldes upp. Eller vissa datafält kanske inte innehåller några data för vissa poster. Det första av dessa problem kan diagnostiseras genom att bara verifiera antalet poster för filer. Det andra problemet är svårare att hantera.

För att uttrycka det i enkla termer, när du hittar ett fält som innehåller saknade värden, har du två val:

  • Ignorera det.

  • Stick något i fältet.

Ignorera problemet

I vissa fall kan du helt enkelt hitta ett enda fält med ett stort antal saknade värden. Om så är fallet, det enklaste att göra är att bara ignorera fältet. Ta inte med det i din analys.

Ett annat sätt att ignorera problemet är att ignorera posten. Ta bort raden med de saknade data. Det kan vara meningsfullt om det bara finns några fågelskivor. Men om det finns flera datafält med betydande antal saknade värden, kan det här sättet krympa ditt rekordtal till en oacceptabel nivå.

En annan sak att se upp för innan du bara raderar poster är ett tecken på ett mönster. Antag att du analyserar en dataset relaterad till kreditkortsaldon rikstäckande. Det kan hända att du hittar en hel massa poster som visar $ 0. 00 saldon (kanske omkring hälften av skivorna). Detta är inte i sig en indikation på saknade data. Men om alla poster från, säger, Kalifornien visar $ 0. 00 saldon, vilket indikerar ett potentiellt saknat värderingsproblem. Och det är inte en som skulle vara bra att lösa genom att radera alla poster från den största staten i landet. I det här fallet är det förmodligen ett systemproblem och indikerar att en ny fil ska skapas.

Generellt är borttagning av poster en enkel men inte idealisk lösning på problem med saksvärde. Om problemet är relativt litet och det finns inget urskiljbart mönster för utelämnandena, så kan det vara okej att jettize de förekommande skivorna och fortsätta. Men ofta är en mer highbrow-strategi berättigad.

Fyll i de saknade uppgifterna

Fyll i de saknade uppgifterna för att göra en utbildad gissning om vad som skulle ha varit i det området. Det finns bra och dåliga sätt att göra detta. Ett enkelt (men dåligt) tillvägagångssätt är att ersätta de saknade värdena med medeltalet av de icke-missade. I icke-numeriska fält kan du frestas att fylla i de saknade dokumenten med det vanligaste värdet i de andra posterna (läget).

Dessa tillvägagångssätt används tyvärr ofta ofta i vissa företagsapplikationer.Men de anses allmänt av statistiker som dåliga idéer. För det första är hela poängen med att göra statistisk analys att hitta data som skiljer ett resultat från en annan. Genom att ersätta alla saknade poster med samma värde har du inte differentierat någonting.

Den mer avancerade metoden är att försöka hitta ett sätt att förutsäga på ett meningsfullt sätt vilket värde som ska fyllas i på varje post som saknar ett värde. Det här innebär att titta på de fullständiga dokumenten och försöka hitta ledtrådar om vad det saknade värdet kan vara.

Antag att du analyserar en demografisk fil för att förutsäga sannolika köpare av en av dina produkter. I den filen har du bland annat information om civilstånd, antal barn och antal bilar. Av någon anledning saknas antalet autofält i en tredjedel av posterna.

Genom att analysera de andra två fälten - civilstånd och antal barn - kan du upptäcka några mönster. Enstaka personer tenderar att ha en bil. Giftiga människor utan barn har en tendens till att ha två bilar. Gift personer med mer än ett barn kan vara mer benägna att ha tre bilar. På så sätt kan du gissa på de saknade värdena på ett sätt som faktiskt skiljer poster. Mer om detta tillvägagångssätt att komma.

Det finns en allmän term i statistik och databehandling som refererar till tvivelaktiga uppgifter. Termen bullrig används för att beskriva data som är opålitliga, korrupta eller på annat sätt mindre än orörda. Saknade data är bara ett exempel på detta. En detaljerad beskrivning av tekniker för att städa upp bullriga data i allmänhet ligger utanför ramen för denna bok. Faktum är att detta är ett aktivt forskningsområde inom statistisk teori. Det faktum att allt ljud inte är lika lätt att upptäcka som saknade värden gör det besvärligt att hantera.

Saknas värden i dina data - dummies

Redaktörens val

Vad är en Java-karta? - dummies

Vad är en Java-karta? - dummies

Arrays och specialiserade listor gör det möjligt att utföra en fantastisk uppsättning uppgifter med Java. Det finns dock situationer där en Java-applikation behöver något som är mer relaterat till en databas, utan att egentligen ha allt databasbagage (som att behöva köpa en separat applikation). Till exempel kanske du vill kunna ...

Några få saker om Java Math - dummies

Några få saker om Java Math - dummies

Tro det eller inte, datorer - även de mest kraftfulla - Ha vissa begränsningar när det gäller att utföra matematiska beräkningar. Dessa begränsningar är vanligtvis obetydliga, men ibland slår de sig och biter på dig. Här är de saker du behöver se upp för när du gör matte i Java. Helhetsflöde Det grundläggande problemet ...

Vad är recursion i Java Programmering? - dummies

Vad är recursion i Java Programmering? - dummies

Rekursion är en grundläggande programmeringsteknik som du kan använda i Java, där en metod kallar sig för att lösa ett problem. En metod som använder denna teknik är rekursiv. Många programmeringsproblem kan lösas endast genom rekursion, och vissa problem som kan lösas med andra tekniker löses bättre genom rekursion. En av ...

Redaktörens val

4 Måste-inkludera i din blogg sidobardesign - dummies

4 Måste-inkludera i din blogg sidobardesign - dummies

Din bloggens sidofält är viktig fastighet som bör innehålla de element du vill ha mest. När du utformar din blogg sidofält kan du dra från en nästan oändlig lista över sidospårelement. Genom att välja noggrant vad som ska inkluderas (och vad som inte ska inkluderas) kan du ställa in din blogg från andra.

5 Användbara Wordpress Plugins - dummies

5 Användbara Wordpress Plugins - dummies

Om du bloggar på en självhävd plattform med WordPress-programvara, är det dags att anpassa din blogg med plug-ins - programvara som kan "anslutas" till din befintliga WordPress bloggprogramvara. Plug-ins gör det möjligt för dig att göra allt från funktionsbildspel i dina blogginlägg för att ansluta sociala medier till din webbplats. Här är fem användbara ...

7 Sätt att erövra Writer's Block som en Blogger - dummies

7 Sätt att erövra Writer's Block som en Blogger - dummies

Varje bloggare möter författarens block i ett tid eller annan. Om du är den typ av bloggare som sköter innehåll varje dag, kan författarens block vara stäverande. Kan du inte ta en paus för att få ditt skrivande mojo tillbaka? Prova en (eller flera) av dessa sju sätt att slå författarens block för att få dig tillbaka ...

Redaktörens val

10 Stora elektronikkomponentkällor - dummies

10 Stora elektronikkomponentkällor - dummies

Letar du efter några bra källor till dina elektroniska delar? Denna lista ger dig några fleråriga favoriter, både inom och utanför Nordamerika. Denna lista är inte uttömmande. Du hittar bokstavligen tusentals specialutbud för ny och begagnad elektronik. Plus, Amazon och eBay ger virtuella marknadsplatser för alla sorters säljare - ...

Elektronik Basics: Resistance - dummies

Elektronik Basics: Resistance - dummies

I elektronikvärlden är motståndet inte meningslöst. Faktum är att motstånd kan vara mycket användbart. Utan motstånd skulle elektronik inte vara möjligt. Elektronik handlar om att manipulera strömmen av ström, och ett av de mest grundläggande sätten att manipulera strömmen är att minska det genom resistans. Utan motstånd strömmar strömmen oreglerad och där ...

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

För att berätta för BASIC Stamp vad du vill göra i ditt digitala elektronikprojekt måste du programmera det. BASIC Stamp Windows Editor är den programvara som du använder på din dator för att skapa program som kan laddas ner till en BASIC Stamp-mikrokontroller. Denna programvara är tillgänglig gratis från Parallax webbplats. ...