Hem Personliga finanser Ser dina data korrekt ut? - dummies

Ser dina data korrekt ut? - dummies

Innehållsförteckning:

Video: Excel Tutorial - Beginner 2024

Video: Excel Tutorial - Beginner 2024
Anonim

De flesta dataset kommer med någon form av metadata, som i huvudsak är en beskrivning av data i fil. Metadata innehåller typiskt beskrivningar av formatet, viss indikation av vilka värden som finns i varje datafält och vad dessa värden betyder.

När du möter en ny dataset, ta aldrig metadata till nominellt värde. Själva karaktären hos stora data kräver att systemen som genererar den hålls igång så mycket som möjligt. Därför är det inte alltid en topprioritet att uppdatera metadata för dessa system när förändringar genomförs. Du måste bekräfta att uppgifterna verkligen är som metadata påståenden.

Kontrollera dina källor

Så uppenbart som det låter är det viktigt att du har förtroende för var dina data kommer ifrån. Detta är särskilt viktigt när du köper data. Tusentals leverantörer där ute erbjuder alla tänkbara data. Och de är inte lika lika trovärdiga.

Innan du köper data, försök förstå exakt var och hur säljaren samlar den. Mysteriousness och vagueness är röda flaggor.

Ta inte leverantörer på sitt ord. Lita inte enbart på kundnöjdhetspost på webbplatsen eller hos kundens referenser från leverantören. Om möjligt, försök spåra någon som använder eller har använt data.

Om dina data kommer från interna system är det fortfarande viktigt att utvärdera källorna. Olika system har olika syften och fokuserar därför på olika data. De kan också samla in data vid olika tidpunkter.

Det är exempelvis inte ovanligt att vissa hotellkedjor bokar bokningar i ett separat system från den som de använder vid receptionen när gästerna checkar in. Det är möjligt att gästerna kan få Ett rabatterat erbjudande mellan bokning och incheckning. Detta innebär att rumspriset i bokningssystemet kanske inte matchar priset i receptionen. Dessutom kan bokningen bli avbokad och aldrig göra det till receptionen!

Anta nu att du utför en analys av hotellinkomster per stad. Det är ganska viktigt att du vet att din rumsprisdata kommer från receptionen i stället för bokningssystemet. Men vad händer om du försöker analysera hur många reservationer som genererades av ditt företags Super Bowl-reklam? I det här fallet vill du se data från bokningssystemet.

Hotellexemplet illustrerar att även egentligen rena data kan vara problematiska. Även om uppgifterna är korrekta och exakt vad det innebär att vara, kan timing vara ett problem.Data ändras över tiden.

Verifiering av format

Som nämnts tidigare i det här kapitlet, är en av de saker som dina metadata ger dig en indikation på hur data formateras. Med formaterad, menar vi hur varje enskilt dataelement ser ut. Är "Produktkod" ett tecken eller ett tal? Är "Startdatum" ett datum eller är det verkligen en datetime frimärke?

Datatyper är viktiga för statistisk analys eftersom de dikterar vilken statistik och statistik som kan tillämpas på vilka dataelement. Om du försöker ta medelvärdet för ett teckenfält som "Förnamn" kommer du att få ett felmeddelande varje gång.

Vanligtvis är denna typ av metadata ganska korrekt. Det lagras generellt av det system som håller data och kan genereras automatiskt. Verifiering av formatet är generellt ganska enkelt. Sådan kontroll är i huvudsak en biprodukt av validering av dataområden som diskuteras i följande avsnitt. Men det finns fall där det kan vara lite svårare.

Vi har sett ett sådant scenario mer än vi bryr oss om att återkalla. Det händer ibland att när ett system är först utformat, försöker utvecklingsgruppen att lägga lite flexibilitet i datastrukturerna för att tillgodose framtida förbättringar. Ibland lägger de bara en massa tomma (och breda) alfanumeriska datakolumner i slutet av varje post. Dessa hjälpkolumner används initialt inte för någonting.

Analytiker kommer alltid att fel på sidan om att begära mer data istället för några än mindre - ofta, alla data. Detta faktum, i kombination med behovet av att få data snabbt, resulterar ibland i en datadump. Denna dump innehåller i allmänhet hjälpkolumnerna. I dessa fall berättar metadata dig något som "Fält 1-11" är formaterade som "200 alfanumeriska tecken. "

Sådan information är praktiskt taget användbar. För att göra det förnuftigt för ett datafält som det här måste du ganska mycket få dina händer smutsiga. Det finns inte mycket du kan göra förutom sidan genom några tiotal poster och försöker göra en informerad gissning om vad som faktiskt är i fältet. I de flesta fall tenderar dessa fält att vara tomma. Men inte alltid. Den goda nyheten är att om fältet faktiskt används, borde du kunna hitta en programmerare någonstans som vet vad den används för.

Skriva in dina data

Ett av de mest kritiska stegen när det gäller att utföra en statistisk analys är att se till att dina data är vad den menar att vara. Statistiska förfaranden kommer alltid att krascha om du inte ger dem giltig information om dataformat. Men dessa förfaranden är i stor utsträckning blind för problem med dataens giltighet.

Förstå hur ett datafält är formaterat räcker inte. Innan du byter dataset till en statistisk procedur måste du förstå vad uppgifterna egentligen är i vart och ett av de fält du använder.

De flesta uppgifterna faller i en av fyra kategorier: nominellt, ordinärt, intervall och förhållande.Datatypen bestämmer vilken typ av statistik och statistiska procedurer som kan tillämpas på vissa datafält. Du kan inte ta ett genomsnitt av ett fält som "Efternamn", till exempel.

Förvirrande datatyper med dataformat är lätt (och alldeles för vanligt). Att veta om ett datafält är ett tecken, heltal eller kontinuerligt berättar inte datatypen.

Teckenfält används ibland som platshållare för data som kan fångas i framtida utgåvor av ett system. Det finns inget för att förhindra att ett sådant fält används för att fånga pengar eller annan numerisk data.

Det vanligaste datatypsfelet innebär att ett numeriskt fält, särskilt ett heltalvärdefält, faktiskt innehåller numeriska ordinal data. Det är extremt vanligt för företagen att använda numeriska koder ( nominell data) för att representera produkter, regioner, butiker och olika andra enheter.

Flygbolagets flygkoder är ett exempel. Folkräkningsområdena är en annan. Även kreditkort och sociala avgifter lagras vanligen som heltal. Men alla dessa enheter är bara identifierare. De är nominella variabler. Det genomsnittliga kreditkortsnummeret i en banks portfölj är en meningslös statistik.

Ser dina data korrekt ut? - dummies

Redaktörens val

Fastighetsprofessionens grunder för fastighetslicensexamen - dummies

Fastighetsprofessionens grunder för fastighetslicensexamen - dummies

Fastighetsexamen kommer att förvänta dig att du har ett grundläggande grepp på fastighetsbranschen. Du tror att det bara är uppenbart att veta vad de viktigaste spelarna gör i en fastighetsaffär, men på grund av den terminologi de delar, blir skillnaderna mellan spelarna lite muddlade. Här är snabba beskrivningar ...

Kostnadsmetoden för fastighetslicensexamen - dummies

Kostnadsmetoden för fastighetslicensexamen - dummies

En metod för att uppskatta Värdet på fastigheter kallas kostnaden. Du måste känna till formeln för fastighetslicensexamen. Kostnadsmetoden baseras på tanken att komponenterna i en fastighet eller marken och byggnaderna kan läggas till för att komma fram till ...

Studie för fastighetslicensexamen - dummies

Studie för fastighetslicensexamen - dummies

När var sista gången du tog en multipelvalsexamen ? Eller, för den delen, någon examen? Det är troligt att det var länge sedan. Kanske överväger du huruvida du ska bli en fastighetsmäklare, men du är lite avskräckt av tanken på att du måste göra ett test. Vad du kan ...

Redaktörens val

Följer ett basketspel på tv - dummies

Följer ett basketspel på tv - dummies

Du kommer bli mycket mer ute av att titta på ett basketspel på TV - eller till och med leva - om du gör mer än att se bollen gå in i rammen. Kolla in dessa insider tips för att fånga den verkliga åtgärden och öka din njutning av sporten. Förutse nästa pass Försök att tänka som ...

Top 5 Fantasy Basketball League Sites - Dummies

Top 5 Fantasy Basketball League Sites - Dummies

Att hitta och gå med på en fantasy basketplats kan ibland vara skrämmande uppgift eftersom så många alternativ är tillgängliga och de flesta webbplatser ser lika ut. Bara för att webbplatser ser ut som det betyder inte nödvändigtvis att de mäter i värde. Vissa webbplatser erbjuder gratis ligor, andra betalade - och vissa webbplatser tillhandahåller bara standard liga ...

Tryck på motståndarna i Basket - Dummies

Tryck på motståndarna i Basket - Dummies

Pressen är kort för tryck. Ofta kallad en fullrättspress, det här är ett anfallande försvar som används på backen, där målet är att tvinga en omsättning. Vanligtvis används efter en gjord korg, svänger pressgruppen över motståndarna i backcourt; Om motståndarna lyckas få bollen förbi halvvägs (kallad brytning ...

Redaktörens val

Hur R beräknar oändliga, odefinierade och saknade värden - dummies

Hur R beräknar oändliga, odefinierade och saknade värden - dummies

Lyckligtvis kan R hantera dataanomalier som förvirrar några andra statistiska plattformar. I vissa fall har du inte reella värden att beräkna med. I de flesta verkliga dataset saknas faktiskt åtminstone några värden. Dessutom har vissa beräkningar oändlighet som ett resultat (som att dividera med noll) eller kan inte ...

Hur man lägger till linjer i en plot i R-dummies

Hur man lägger till linjer i en plot i R-dummies

I R, lägger du till rader i en plott på ett mycket liknande sätt att lägga till poäng, förutom att du använder funktionen linjer () för att uppnå detta. Men använd först lite R magi för att skapa en trendlinje genom data, kallad en regressionsmodell. Du använder lm () -funktionen för att uppskatta en linjär ...

Hur man lägger till en andra dimension i R-dummies

Hur man lägger till en andra dimension i R-dummies

Förutom vektorer kan R representera matriser som ett objekt du arbetar och beräknar med. Faktum är att R verkligen lyser när det gäller matrisberäkningar och -operationer. Vektorer är nära relaterade till en större klass av objekt, arrays. Arrayer har två mycket viktiga egenskaper: De innehåller bara en enda typ av värde. De har ...