Hem Personliga finanser Ser dina data korrekt ut? - dummies

Ser dina data korrekt ut? - dummies

Innehållsförteckning:

Video: Excel Tutorial - Beginner 2025

Video: Excel Tutorial - Beginner 2025
Anonim

De flesta dataset kommer med någon form av metadata, som i huvudsak är en beskrivning av data i fil. Metadata innehåller typiskt beskrivningar av formatet, viss indikation av vilka värden som finns i varje datafält och vad dessa värden betyder.

När du möter en ny dataset, ta aldrig metadata till nominellt värde. Själva karaktären hos stora data kräver att systemen som genererar den hålls igång så mycket som möjligt. Därför är det inte alltid en topprioritet att uppdatera metadata för dessa system när förändringar genomförs. Du måste bekräfta att uppgifterna verkligen är som metadata påståenden.

Kontrollera dina källor

Så uppenbart som det låter är det viktigt att du har förtroende för var dina data kommer ifrån. Detta är särskilt viktigt när du köper data. Tusentals leverantörer där ute erbjuder alla tänkbara data. Och de är inte lika lika trovärdiga.

Innan du köper data, försök förstå exakt var och hur säljaren samlar den. Mysteriousness och vagueness är röda flaggor.

Ta inte leverantörer på sitt ord. Lita inte enbart på kundnöjdhetspost på webbplatsen eller hos kundens referenser från leverantören. Om möjligt, försök spåra någon som använder eller har använt data.

Om dina data kommer från interna system är det fortfarande viktigt att utvärdera källorna. Olika system har olika syften och fokuserar därför på olika data. De kan också samla in data vid olika tidpunkter.

Det är exempelvis inte ovanligt att vissa hotellkedjor bokar bokningar i ett separat system från den som de använder vid receptionen när gästerna checkar in. Det är möjligt att gästerna kan få Ett rabatterat erbjudande mellan bokning och incheckning. Detta innebär att rumspriset i bokningssystemet kanske inte matchar priset i receptionen. Dessutom kan bokningen bli avbokad och aldrig göra det till receptionen!

Anta nu att du utför en analys av hotellinkomster per stad. Det är ganska viktigt att du vet att din rumsprisdata kommer från receptionen i stället för bokningssystemet. Men vad händer om du försöker analysera hur många reservationer som genererades av ditt företags Super Bowl-reklam? I det här fallet vill du se data från bokningssystemet.

Hotellexemplet illustrerar att även egentligen rena data kan vara problematiska. Även om uppgifterna är korrekta och exakt vad det innebär att vara, kan timing vara ett problem.Data ändras över tiden.

Verifiering av format

Som nämnts tidigare i det här kapitlet, är en av de saker som dina metadata ger dig en indikation på hur data formateras. Med formaterad, menar vi hur varje enskilt dataelement ser ut. Är "Produktkod" ett tecken eller ett tal? Är "Startdatum" ett datum eller är det verkligen en datetime frimärke?

Datatyper är viktiga för statistisk analys eftersom de dikterar vilken statistik och statistik som kan tillämpas på vilka dataelement. Om du försöker ta medelvärdet för ett teckenfält som "Förnamn" kommer du att få ett felmeddelande varje gång.

Vanligtvis är denna typ av metadata ganska korrekt. Det lagras generellt av det system som håller data och kan genereras automatiskt. Verifiering av formatet är generellt ganska enkelt. Sådan kontroll är i huvudsak en biprodukt av validering av dataområden som diskuteras i följande avsnitt. Men det finns fall där det kan vara lite svårare.

Vi har sett ett sådant scenario mer än vi bryr oss om att återkalla. Det händer ibland att när ett system är först utformat, försöker utvecklingsgruppen att lägga lite flexibilitet i datastrukturerna för att tillgodose framtida förbättringar. Ibland lägger de bara en massa tomma (och breda) alfanumeriska datakolumner i slutet av varje post. Dessa hjälpkolumner används initialt inte för någonting.

Analytiker kommer alltid att fel på sidan om att begära mer data istället för några än mindre - ofta, alla data. Detta faktum, i kombination med behovet av att få data snabbt, resulterar ibland i en datadump. Denna dump innehåller i allmänhet hjälpkolumnerna. I dessa fall berättar metadata dig något som "Fält 1-11" är formaterade som "200 alfanumeriska tecken. "

Sådan information är praktiskt taget användbar. För att göra det förnuftigt för ett datafält som det här måste du ganska mycket få dina händer smutsiga. Det finns inte mycket du kan göra förutom sidan genom några tiotal poster och försöker göra en informerad gissning om vad som faktiskt är i fältet. I de flesta fall tenderar dessa fält att vara tomma. Men inte alltid. Den goda nyheten är att om fältet faktiskt används, borde du kunna hitta en programmerare någonstans som vet vad den används för.

Skriva in dina data

Ett av de mest kritiska stegen när det gäller att utföra en statistisk analys är att se till att dina data är vad den menar att vara. Statistiska förfaranden kommer alltid att krascha om du inte ger dem giltig information om dataformat. Men dessa förfaranden är i stor utsträckning blind för problem med dataens giltighet.

Förstå hur ett datafält är formaterat räcker inte. Innan du byter dataset till en statistisk procedur måste du förstå vad uppgifterna egentligen är i vart och ett av de fält du använder.

De flesta uppgifterna faller i en av fyra kategorier: nominellt, ordinärt, intervall och förhållande.Datatypen bestämmer vilken typ av statistik och statistiska procedurer som kan tillämpas på vissa datafält. Du kan inte ta ett genomsnitt av ett fält som "Efternamn", till exempel.

Förvirrande datatyper med dataformat är lätt (och alldeles för vanligt). Att veta om ett datafält är ett tecken, heltal eller kontinuerligt berättar inte datatypen.

Teckenfält används ibland som platshållare för data som kan fångas i framtida utgåvor av ett system. Det finns inget för att förhindra att ett sådant fält används för att fånga pengar eller annan numerisk data.

Det vanligaste datatypsfelet innebär att ett numeriskt fält, särskilt ett heltalvärdefält, faktiskt innehåller numeriska ordinal data. Det är extremt vanligt för företagen att använda numeriska koder ( nominell data) för att representera produkter, regioner, butiker och olika andra enheter.

Flygbolagets flygkoder är ett exempel. Folkräkningsområdena är en annan. Även kreditkort och sociala avgifter lagras vanligen som heltal. Men alla dessa enheter är bara identifierare. De är nominella variabler. Det genomsnittliga kreditkortsnummeret i en banks portfölj är en meningslös statistik.

Ser dina data korrekt ut? - dummies

Redaktörens val

Vad är en Java-karta? - dummies

Vad är en Java-karta? - dummies

Arrays och specialiserade listor gör det möjligt att utföra en fantastisk uppsättning uppgifter med Java. Det finns dock situationer där en Java-applikation behöver något som är mer relaterat till en databas, utan att egentligen ha allt databasbagage (som att behöva köpa en separat applikation). Till exempel kanske du vill kunna ...

Några få saker om Java Math - dummies

Några få saker om Java Math - dummies

Tro det eller inte, datorer - även de mest kraftfulla - Ha vissa begränsningar när det gäller att utföra matematiska beräkningar. Dessa begränsningar är vanligtvis obetydliga, men ibland slår de sig och biter på dig. Här är de saker du behöver se upp för när du gör matte i Java. Helhetsflöde Det grundläggande problemet ...

Vad är recursion i Java Programmering? - dummies

Vad är recursion i Java Programmering? - dummies

Rekursion är en grundläggande programmeringsteknik som du kan använda i Java, där en metod kallar sig för att lösa ett problem. En metod som använder denna teknik är rekursiv. Många programmeringsproblem kan lösas endast genom rekursion, och vissa problem som kan lösas med andra tekniker löses bättre genom rekursion. En av ...

Redaktörens val

4 Måste-inkludera i din blogg sidobardesign - dummies

4 Måste-inkludera i din blogg sidobardesign - dummies

Din bloggens sidofält är viktig fastighet som bör innehålla de element du vill ha mest. När du utformar din blogg sidofält kan du dra från en nästan oändlig lista över sidospårelement. Genom att välja noggrant vad som ska inkluderas (och vad som inte ska inkluderas) kan du ställa in din blogg från andra.

5 Användbara Wordpress Plugins - dummies

5 Användbara Wordpress Plugins - dummies

Om du bloggar på en självhävd plattform med WordPress-programvara, är det dags att anpassa din blogg med plug-ins - programvara som kan "anslutas" till din befintliga WordPress bloggprogramvara. Plug-ins gör det möjligt för dig att göra allt från funktionsbildspel i dina blogginlägg för att ansluta sociala medier till din webbplats. Här är fem användbara ...

7 Sätt att erövra Writer's Block som en Blogger - dummies

7 Sätt att erövra Writer's Block som en Blogger - dummies

Varje bloggare möter författarens block i ett tid eller annan. Om du är den typ av bloggare som sköter innehåll varje dag, kan författarens block vara stäverande. Kan du inte ta en paus för att få ditt skrivande mojo tillbaka? Prova en (eller flera) av dessa sju sätt att slå författarens block för att få dig tillbaka ...

Redaktörens val

10 Stora elektronikkomponentkällor - dummies

10 Stora elektronikkomponentkällor - dummies

Letar du efter några bra källor till dina elektroniska delar? Denna lista ger dig några fleråriga favoriter, både inom och utanför Nordamerika. Denna lista är inte uttömmande. Du hittar bokstavligen tusentals specialutbud för ny och begagnad elektronik. Plus, Amazon och eBay ger virtuella marknadsplatser för alla sorters säljare - ...

Elektronik Basics: Resistance - dummies

Elektronik Basics: Resistance - dummies

I elektronikvärlden är motståndet inte meningslöst. Faktum är att motstånd kan vara mycket användbart. Utan motstånd skulle elektronik inte vara möjligt. Elektronik handlar om att manipulera strömmen av ström, och ett av de mest grundläggande sätten att manipulera strömmen är att minska det genom resistans. Utan motstånd strömmar strömmen oreglerad och där ...

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

För att berätta för BASIC Stamp vad du vill göra i ditt digitala elektronikprojekt måste du programmera det. BASIC Stamp Windows Editor är den programvara som du använder på din dator för att skapa program som kan laddas ner till en BASIC Stamp-mikrokontroller. Denna programvara är tillgänglig gratis från Parallax webbplats. ...