Hem Personliga finanser Saknas värden i dina data - dummies

Saknas värden i dina data - dummies

Innehållsförteckning:

Video: Innosurvey – att bygga organisationer som skapar värde genom data science 2025

Video: Innosurvey – att bygga organisationer som skapar värde genom data science 2025
Anonim

Ett av de vanligaste och mest utsökta dataproblemen att hantera saknas data. Filer kan vara ofullständiga eftersom poster tappades eller en lagringsenhet fylldes upp. Eller vissa datafält kanske inte innehåller några data för vissa poster. Det första av dessa problem kan diagnostiseras genom att bara verifiera antalet poster för filer. Det andra problemet är svårare att hantera.

För att uttrycka det i enkla termer, när du hittar ett fält som innehåller saknade värden, har du två val:

  • Ignorera det.

  • Stick något i fältet.

Ignorera problemet

I vissa fall kan du helt enkelt hitta ett enda fält med ett stort antal saknade värden. Om så är fallet, det enklaste att göra är att bara ignorera fältet. Ta inte med det i din analys.

Ett annat sätt att ignorera problemet är att ignorera posten. Ta bort raden med de saknade data. Det kan vara meningsfullt om det bara finns några fågelskivor. Men om det finns flera datafält med betydande antal saknade värden, kan det här sättet krympa ditt rekordtal till en oacceptabel nivå.

En annan sak att se upp för innan du bara raderar poster är ett tecken på ett mönster. Antag att du analyserar en dataset relaterad till kreditkortsaldon rikstäckande. Det kan hända att du hittar en hel massa poster som visar $ 0. 00 saldon (kanske omkring hälften av skivorna). Detta är inte i sig en indikation på saknade data. Men om alla poster från, säger, Kalifornien visar $ 0. 00 saldon, vilket indikerar ett potentiellt saknat värderingsproblem. Och det är inte en som skulle vara bra att lösa genom att radera alla poster från den största staten i landet. I det här fallet är det förmodligen ett systemproblem och indikerar att en ny fil ska skapas.

Generellt är borttagning av poster en enkel men inte idealisk lösning på problem med saksvärde. Om problemet är relativt litet och det finns inget urskiljbart mönster för utelämnandena, så kan det vara okej att jettize de förekommande skivorna och fortsätta. Men ofta är en mer highbrow-strategi berättigad.

Fyll i de saknade uppgifterna

Fyll i de saknade uppgifterna för att göra en utbildad gissning om vad som skulle ha varit i det området. Det finns bra och dåliga sätt att göra detta. Ett enkelt (men dåligt) tillvägagångssätt är att ersätta de saknade värdena med medeltalet av de icke-missade. I icke-numeriska fält kan du frestas att fylla i de saknade dokumenten med det vanligaste värdet i de andra posterna (läget).

Dessa tillvägagångssätt används tyvärr ofta ofta i vissa företagsapplikationer.Men de anses allmänt av statistiker som dåliga idéer. För det första är hela poängen med att göra statistisk analys att hitta data som skiljer ett resultat från en annan. Genom att ersätta alla saknade poster med samma värde har du inte differentierat någonting.

Den mer avancerade metoden är att försöka hitta ett sätt att förutsäga på ett meningsfullt sätt vilket värde som ska fyllas i på varje post som saknar ett värde. Det här innebär att titta på de fullständiga dokumenten och försöka hitta ledtrådar om vad det saknade värdet kan vara.

Antag att du analyserar en demografisk fil för att förutsäga sannolika köpare av en av dina produkter. I den filen har du bland annat information om civilstånd, antal barn och antal bilar. Av någon anledning saknas antalet autofält i en tredjedel av posterna.

Genom att analysera de andra två fälten - civilstånd och antal barn - kan du upptäcka några mönster. Enstaka personer tenderar att ha en bil. Giftiga människor utan barn har en tendens till att ha två bilar. Gift personer med mer än ett barn kan vara mer benägna att ha tre bilar. På så sätt kan du gissa på de saknade värdena på ett sätt som faktiskt skiljer poster. Mer om detta tillvägagångssätt att komma.

Det finns en allmän term i statistik och databehandling som refererar till tvivelaktiga uppgifter. Termen bullrig används för att beskriva data som är opålitliga, korrupta eller på annat sätt mindre än orörda. Saknade data är bara ett exempel på detta. En detaljerad beskrivning av tekniker för att städa upp bullriga data i allmänhet ligger utanför ramen för denna bok. Faktum är att detta är ett aktivt forskningsområde inom statistisk teori. Det faktum att allt ljud inte är lika lätt att upptäcka som saknade värden gör det besvärligt att hantera.

Saknas värden i dina data - dummies

Redaktörens val

Hur man skapar en webbplats i Dreamweaver - dummies

Hur man skapar en webbplats i Dreamweaver - dummies

Definierar en Dreamweaver-webbplats mer smidigt om du har filer du planerar att använda på din webbplats organiserade i en mapp - med, om du vill, undermappar för bilder, video och kanske andra element som ljud. Med dina filer separerade i en organiserad mappstruktur är du redo att definiera en Dreamweaver-webbplats. ...

Hur man skapar en HTML-sida med Dreamweavers nya dokumentfönster - dummies

Hur man skapar en HTML-sida med Dreamweavers nya dokumentfönster - dummies

Du kan skapa en HTML-sida ny HTML-sida genom att använda Dreamweaver's New Document-fönstret, som erbjuder fler alternativ än Välkommen-skärmen, inklusive tillgång till alla mallar du har skapat med Dreamweaver, samt en samling av förutformade layouter, vilket kan ge dig en början på dina design. Du kan skapa många typer av filer ...

Hur man skapar en layout med en kolumn i Dreamweaver - dummies

Hur man skapar en layout med en kolumn i Dreamweaver - dummies

Innan du dyka in för att skapa en komplicerad vätskegriddesign i Dreamweaver, överväg att prova en enklare. Börja med att skapa en enkel vätskegridlayout med en kolumn, följ dessa enkla instruktioner: Välj Arkiv → Nytt. Fönstret Ny dokument öppnas. Obs! Se till att du har slutfört installationsprocessen innan du börjar arbeta med en ny vätska ...

Redaktörens val

Hur man använder Urklippspanel i Excel 2010 - dummies

Hur man använder Urklippspanel i Excel 2010 - dummies

Office Urklipp kan lagra flera nedskärningar och kopior från alla Microsoft Office-program som körs under Windows, inte bara Excel 2010. I Excel betyder det att du kan fortsätta klistra in saker från Office Clipboard i en arbetsbok även efter avslutad flyttning eller kopiering. Använd följande tekniker för att arbeta med ...

Hur man använder referensfunktioner i Excel 2016 - dummies

Hur man använder referensfunktioner i Excel 2016 - dummies

Referensfunktionerna i Excel 2016 på Lookup & Reference Kommandoknappens rullgardinsmeny på Formulas-fliken i bandet är utformad för att specifikt hantera olika aspekter av cellreferenser i arbetsbladet. Denna grupp av funktioner inkluderar: ADRESS för att returnera en cellreferens som en textinmatning i en cell i ...

Hur man använder Sparklines i Excel 2016 - dummies

Hur man använder Sparklines i Excel 2016 - dummies

Excel 2016 stöder en speciell typ av informationsgrafik kallad sparkline som representerar trender eller variationer i samlade data. Sparklines är små grafer i allmänhet om storleken på texten som omger dem. I Excel 2016 är kalkylblad höjden på kalkylbladscellerna, vars data de representerar och kan vara någon av de ...

Redaktörens val

Hur man undviker analysfel på Miller Analogies Test - dummies

Hur man undviker analysfel på Miller Analogies Test - dummies

Miller Analogies Testwriters är bra på att komponera frågor som är subtilt utformade för att lura dig. Du kan undvika vanliga analogfällor på MAT, om du har en plan för attack och en metod för att lösa dem. I allmänhet är den senare frågan i MAT, desto mer sannolikt är det ...

Hur man registrerar sig för MAT (Miller Analogies Test) - dummies

Hur man registrerar sig för MAT (Miller Analogies Test) - dummies

Efter att ha beslutat att ta Miller Analogies Test (MAT), du måste hitta en plats att faktiskt ta provet. Mer än 600 CTC, eller kontrollerade testcenter, administrerar matvaran i hela USA och Kanada, och även utomlands. För att hitta ett testcenter, gå till Miller Analogies Test-webbplatsen och leta efter en ...