Innehållsförteckning:
Video: Excel Tutorial - Beginner 2024
De flesta dataset kommer med någon form av metadata, som i huvudsak är en beskrivning av data i fil. Metadata innehåller typiskt beskrivningar av formatet, viss indikation av vilka värden som finns i varje datafält och vad dessa värden betyder.
När du möter en ny dataset, ta aldrig metadata till nominellt värde. Själva karaktären hos stora data kräver att systemen som genererar den hålls igång så mycket som möjligt. Därför är det inte alltid en topprioritet att uppdatera metadata för dessa system när förändringar genomförs. Du måste bekräfta att uppgifterna verkligen är som metadata påståenden.
Kontrollera dina källor
Så uppenbart som det låter är det viktigt att du har förtroende för var dina data kommer ifrån. Detta är särskilt viktigt när du köper data. Tusentals leverantörer där ute erbjuder alla tänkbara data. Och de är inte lika lika trovärdiga.
Innan du köper data, försök förstå exakt var och hur säljaren samlar den. Mysteriousness och vagueness är röda flaggor.
Ta inte leverantörer på sitt ord. Lita inte enbart på kundnöjdhetspost på webbplatsen eller hos kundens referenser från leverantören. Om möjligt, försök spåra någon som använder eller har använt data.
Om dina data kommer från interna system är det fortfarande viktigt att utvärdera källorna. Olika system har olika syften och fokuserar därför på olika data. De kan också samla in data vid olika tidpunkter.
Det är exempelvis inte ovanligt att vissa hotellkedjor bokar bokningar i ett separat system från den som de använder vid receptionen när gästerna checkar in. Det är möjligt att gästerna kan få Ett rabatterat erbjudande mellan bokning och incheckning. Detta innebär att rumspriset i bokningssystemet kanske inte matchar priset i receptionen. Dessutom kan bokningen bli avbokad och aldrig göra det till receptionen!
Anta nu att du utför en analys av hotellinkomster per stad. Det är ganska viktigt att du vet att din rumsprisdata kommer från receptionen i stället för bokningssystemet. Men vad händer om du försöker analysera hur många reservationer som genererades av ditt företags Super Bowl-reklam? I det här fallet vill du se data från bokningssystemet.
Hotellexemplet illustrerar att även egentligen rena data kan vara problematiska. Även om uppgifterna är korrekta och exakt vad det innebär att vara, kan timing vara ett problem.Data ändras över tiden.
Verifiering av format
Som nämnts tidigare i det här kapitlet, är en av de saker som dina metadata ger dig en indikation på hur data formateras. Med formaterad, menar vi hur varje enskilt dataelement ser ut. Är "Produktkod" ett tecken eller ett tal? Är "Startdatum" ett datum eller är det verkligen en datetime frimärke?
Datatyper är viktiga för statistisk analys eftersom de dikterar vilken statistik och statistik som kan tillämpas på vilka dataelement. Om du försöker ta medelvärdet för ett teckenfält som "Förnamn" kommer du att få ett felmeddelande varje gång.
Vanligtvis är denna typ av metadata ganska korrekt. Det lagras generellt av det system som håller data och kan genereras automatiskt. Verifiering av formatet är generellt ganska enkelt. Sådan kontroll är i huvudsak en biprodukt av validering av dataområden som diskuteras i följande avsnitt. Men det finns fall där det kan vara lite svårare.
Vi har sett ett sådant scenario mer än vi bryr oss om att återkalla. Det händer ibland att när ett system är först utformat, försöker utvecklingsgruppen att lägga lite flexibilitet i datastrukturerna för att tillgodose framtida förbättringar. Ibland lägger de bara en massa tomma (och breda) alfanumeriska datakolumner i slutet av varje post. Dessa hjälpkolumner används initialt inte för någonting.
Analytiker kommer alltid att fel på sidan om att begära mer data istället för några än mindre - ofta, alla data. Detta faktum, i kombination med behovet av att få data snabbt, resulterar ibland i en datadump. Denna dump innehåller i allmänhet hjälpkolumnerna. I dessa fall berättar metadata dig något som "Fält 1-11" är formaterade som "200 alfanumeriska tecken. "
Sådan information är praktiskt taget användbar. För att göra det förnuftigt för ett datafält som det här måste du ganska mycket få dina händer smutsiga. Det finns inte mycket du kan göra förutom sidan genom några tiotal poster och försöker göra en informerad gissning om vad som faktiskt är i fältet. I de flesta fall tenderar dessa fält att vara tomma. Men inte alltid. Den goda nyheten är att om fältet faktiskt används, borde du kunna hitta en programmerare någonstans som vet vad den används för.
Skriva in dina data
Ett av de mest kritiska stegen när det gäller att utföra en statistisk analys är att se till att dina data är vad den menar att vara. Statistiska förfaranden kommer alltid att krascha om du inte ger dem giltig information om dataformat. Men dessa förfaranden är i stor utsträckning blind för problem med dataens giltighet.
Förstå hur ett datafält är formaterat räcker inte. Innan du byter dataset till en statistisk procedur måste du förstå vad uppgifterna egentligen är i vart och ett av de fält du använder.
De flesta uppgifterna faller i en av fyra kategorier: nominellt, ordinärt, intervall och förhållande.Datatypen bestämmer vilken typ av statistik och statistiska procedurer som kan tillämpas på vissa datafält. Du kan inte ta ett genomsnitt av ett fält som "Efternamn", till exempel.
Förvirrande datatyper med dataformat är lätt (och alldeles för vanligt). Att veta om ett datafält är ett tecken, heltal eller kontinuerligt berättar inte datatypen.
Teckenfält används ibland som platshållare för data som kan fångas i framtida utgåvor av ett system. Det finns inget för att förhindra att ett sådant fält används för att fånga pengar eller annan numerisk data.
Det vanligaste datatypsfelet innebär att ett numeriskt fält, särskilt ett heltalvärdefält, faktiskt innehåller numeriska ordinal data. Det är extremt vanligt för företagen att använda numeriska koder ( nominell data) för att representera produkter, regioner, butiker och olika andra enheter.
Flygbolagets flygkoder är ett exempel. Folkräkningsområdena är en annan. Även kreditkort och sociala avgifter lagras vanligen som heltal. Men alla dessa enheter är bara identifierare. De är nominella variabler. Det genomsnittliga kreditkortsnummeret i en banks portfölj är en meningslös statistik.