Hem Personliga finanser Saknas värden i dina data - dummies

Saknas värden i dina data - dummies

Innehållsförteckning:

Video: Innosurvey – att bygga organisationer som skapar värde genom data science 2025

Video: Innosurvey – att bygga organisationer som skapar värde genom data science 2025
Anonim

Ett av de vanligaste och mest utsökta dataproblemen att hantera saknas data. Filer kan vara ofullständiga eftersom poster tappades eller en lagringsenhet fylldes upp. Eller vissa datafält kanske inte innehåller några data för vissa poster. Det första av dessa problem kan diagnostiseras genom att bara verifiera antalet poster för filer. Det andra problemet är svårare att hantera.

För att uttrycka det i enkla termer, när du hittar ett fält som innehåller saknade värden, har du två val:

  • Ignorera det.

  • Stick något i fältet.

Ignorera problemet

I vissa fall kan du helt enkelt hitta ett enda fält med ett stort antal saknade värden. Om så är fallet, det enklaste att göra är att bara ignorera fältet. Ta inte med det i din analys.

Ett annat sätt att ignorera problemet är att ignorera posten. Ta bort raden med de saknade data. Det kan vara meningsfullt om det bara finns några fågelskivor. Men om det finns flera datafält med betydande antal saknade värden, kan det här sättet krympa ditt rekordtal till en oacceptabel nivå.

En annan sak att se upp för innan du bara raderar poster är ett tecken på ett mönster. Antag att du analyserar en dataset relaterad till kreditkortsaldon rikstäckande. Det kan hända att du hittar en hel massa poster som visar $ 0. 00 saldon (kanske omkring hälften av skivorna). Detta är inte i sig en indikation på saknade data. Men om alla poster från, säger, Kalifornien visar $ 0. 00 saldon, vilket indikerar ett potentiellt saknat värderingsproblem. Och det är inte en som skulle vara bra att lösa genom att radera alla poster från den största staten i landet. I det här fallet är det förmodligen ett systemproblem och indikerar att en ny fil ska skapas.

Generellt är borttagning av poster en enkel men inte idealisk lösning på problem med saksvärde. Om problemet är relativt litet och det finns inget urskiljbart mönster för utelämnandena, så kan det vara okej att jettize de förekommande skivorna och fortsätta. Men ofta är en mer highbrow-strategi berättigad.

Fyll i de saknade uppgifterna

Fyll i de saknade uppgifterna för att göra en utbildad gissning om vad som skulle ha varit i det området. Det finns bra och dåliga sätt att göra detta. Ett enkelt (men dåligt) tillvägagångssätt är att ersätta de saknade värdena med medeltalet av de icke-missade. I icke-numeriska fält kan du frestas att fylla i de saknade dokumenten med det vanligaste värdet i de andra posterna (läget).

Dessa tillvägagångssätt används tyvärr ofta ofta i vissa företagsapplikationer.Men de anses allmänt av statistiker som dåliga idéer. För det första är hela poängen med att göra statistisk analys att hitta data som skiljer ett resultat från en annan. Genom att ersätta alla saknade poster med samma värde har du inte differentierat någonting.

Den mer avancerade metoden är att försöka hitta ett sätt att förutsäga på ett meningsfullt sätt vilket värde som ska fyllas i på varje post som saknar ett värde. Det här innebär att titta på de fullständiga dokumenten och försöka hitta ledtrådar om vad det saknade värdet kan vara.

Antag att du analyserar en demografisk fil för att förutsäga sannolika köpare av en av dina produkter. I den filen har du bland annat information om civilstånd, antal barn och antal bilar. Av någon anledning saknas antalet autofält i en tredjedel av posterna.

Genom att analysera de andra två fälten - civilstånd och antal barn - kan du upptäcka några mönster. Enstaka personer tenderar att ha en bil. Giftiga människor utan barn har en tendens till att ha två bilar. Gift personer med mer än ett barn kan vara mer benägna att ha tre bilar. På så sätt kan du gissa på de saknade värdena på ett sätt som faktiskt skiljer poster. Mer om detta tillvägagångssätt att komma.

Det finns en allmän term i statistik och databehandling som refererar till tvivelaktiga uppgifter. Termen bullrig används för att beskriva data som är opålitliga, korrupta eller på annat sätt mindre än orörda. Saknade data är bara ett exempel på detta. En detaljerad beskrivning av tekniker för att städa upp bullriga data i allmänhet ligger utanför ramen för denna bok. Faktum är att detta är ett aktivt forskningsområde inom statistisk teori. Det faktum att allt ljud inte är lika lätt att upptäcka som saknade värden gör det besvärligt att hantera.

Saknas värden i dina data - dummies

Redaktörens val

Skapa multimediamixfiler med InDesign CS5 - dummies

Skapa multimediamixfiler med InDesign CS5 - dummies

Du kan exportera InDesign Creative Suite 5-dokument till Flash SWF så att de kan ses med hjälp av Flash Player eller redigeras med hjälp av Flash Professional. Sidövergångar kan användas och du kan också använda en interaktiv sidflip som inte är tillgänglig inom Acrobat. Gör så här för att exportera ditt InDesign-dokument till Flash:

Skapa text på ett sökväg i en InDesign CS5-publikation - dummies

Skapa text på ett sökväg i en InDesign CS5-publikation - dummies

Genom att placera text på en väg I en InDesign Creative Suite 5-publikation kan du kurva den längs en linje eller form. Text på en sökväg är särskilt användbar när du vill skapa intressanta titlingseffekter på en sida. Använd pennverktyget för att skapa en sökväg på sidan. Skapa minst en ...

Skapa textramar i InDesign CS5 - dummies

Skapa textramar i InDesign CS5 - dummies

Textramar innehåller vilken text du lägger till i en InDesign Creative Suite 5-publikation . Du kan skapa en ny textram i en InDesign CS5-publikation på många olika sätt: med verktyget Typ, Ramverktyg eller genom att skriva en form. Textramar skapas ibland automatiskt när du importerar text till en publikation. Skapa ...

Redaktörens val

Word 2010 Tangentbordsgenvägar - dummies

Word 2010 Tangentbordsgenvägar - dummies

Word 2010 erbjuder ett antal användbara kortkommandon för att snabbt utföra uppgifter. Här är några genvägar för vanlig Word-formatering, redigering och fil- och dokumentuppgifter. Word 2010 Formateringsgenvägar Kommando Genväg Band Plats Fet Ctrl + B Hemflik, Fontgrupp Kursiv Ctrl + I Hemflik, Teckengrupp Understruken Ctrl + U Hemflik, Teckengrupp Center Ctrl + E ...

Word 2007 För Dummies Cheat Sheet - Dummies

Word 2007 För Dummies Cheat Sheet - Dummies

Word 2007 ser annorlunda ut, men erbjuder fortfarande de praktiska Word-staplarna som Tangentbordsgenvägar som hjälper dig att skapa, formatera, infoga saker och flytta igenom dina Word-dokument. Och Word 2007 erbjuder också ett par nya funktioner för att hjälpa dig att hantera din ordbehandling med lätthet.

Word 2010 Ribbon Commands - dummies

Word 2010 Ribbon Commands - dummies

ÄR du vilse i bandet? Om du nyligen har uppgraderat från Word 2003 kan det vara utmanande att använda Word 2010-bandet för att utföra vanliga Word-operationer. För att göra övergången lättare, är här kommandona för Word 2010 för vanliga kommandon för Word 2003. Word 2003 Command Equivalent Word 2010 Kommandofil → Ny fil ...

Redaktörens val

Hur man använder SketchUps Push / Pull Tool - dummies

Hur man använder SketchUps Push / Pull Tool - dummies

Push / Pull-verktyget är en enkel varelse; Använd den för att extrudera platta ytor i 3D-former. Det fungerar (som allt annat i SketchUp) genom att klicka. Du klickar på ett ansikte en gång för att börja skjuta / dra den, flytta markören tills du gillar vad du ser och klicka sedan igen för att sluta trycka / dra. Det är allt. Push / Pull fungerar bara ...

Hur man använder SketchUps skuggningsfunktion - dummies

Hur man använder SketchUps skuggningsfunktion - dummies

Du ska använda en av SketchUps bästa funktioner: Skuggor. När du aktiverar Shadows aktiverar du SketchUps inbyggda sol. Skuggorna du ser i ditt modelleringsfönster är exakta för vilken tid och plats du ställer in. I det här exemplet är det dock inte oroande om noggrannhet. Gå igenom dessa steg för att låta ...

Hur man använder SketchUps stämpelverktyg - dummies

Hur man använder SketchUps stämpelverktyg - dummies

Så småningom kan du behöva plunka ner en byggnad (eller någon annan struktur) på terrängen som du har skapat kärleksfullt i SketchUp. Stämpelverktyget ger ett enkelt sätt att - du gissade det - stämpla ett byggfotavtryck i en terrängyta, skapa en platt "pad" för att sitta på. Detta verktyg ger också ...