Hem Personliga finanser Ser dina data korrekt ut? - dummies

Ser dina data korrekt ut? - dummies

Innehållsförteckning:

Video: Excel Tutorial - Beginner 2024

Video: Excel Tutorial - Beginner 2024
Anonim

De flesta dataset kommer med någon form av metadata, som i huvudsak är en beskrivning av data i fil. Metadata innehåller typiskt beskrivningar av formatet, viss indikation av vilka värden som finns i varje datafält och vad dessa värden betyder.

När du möter en ny dataset, ta aldrig metadata till nominellt värde. Själva karaktären hos stora data kräver att systemen som genererar den hålls igång så mycket som möjligt. Därför är det inte alltid en topprioritet att uppdatera metadata för dessa system när förändringar genomförs. Du måste bekräfta att uppgifterna verkligen är som metadata påståenden.

Kontrollera dina källor

Så uppenbart som det låter är det viktigt att du har förtroende för var dina data kommer ifrån. Detta är särskilt viktigt när du köper data. Tusentals leverantörer där ute erbjuder alla tänkbara data. Och de är inte lika lika trovärdiga.

Innan du köper data, försök förstå exakt var och hur säljaren samlar den. Mysteriousness och vagueness är röda flaggor.

Ta inte leverantörer på sitt ord. Lita inte enbart på kundnöjdhetspost på webbplatsen eller hos kundens referenser från leverantören. Om möjligt, försök spåra någon som använder eller har använt data.

Om dina data kommer från interna system är det fortfarande viktigt att utvärdera källorna. Olika system har olika syften och fokuserar därför på olika data. De kan också samla in data vid olika tidpunkter.

Det är exempelvis inte ovanligt att vissa hotellkedjor bokar bokningar i ett separat system från den som de använder vid receptionen när gästerna checkar in. Det är möjligt att gästerna kan få Ett rabatterat erbjudande mellan bokning och incheckning. Detta innebär att rumspriset i bokningssystemet kanske inte matchar priset i receptionen. Dessutom kan bokningen bli avbokad och aldrig göra det till receptionen!

Anta nu att du utför en analys av hotellinkomster per stad. Det är ganska viktigt att du vet att din rumsprisdata kommer från receptionen i stället för bokningssystemet. Men vad händer om du försöker analysera hur många reservationer som genererades av ditt företags Super Bowl-reklam? I det här fallet vill du se data från bokningssystemet.

Hotellexemplet illustrerar att även egentligen rena data kan vara problematiska. Även om uppgifterna är korrekta och exakt vad det innebär att vara, kan timing vara ett problem.Data ändras över tiden.

Verifiering av format

Som nämnts tidigare i det här kapitlet, är en av de saker som dina metadata ger dig en indikation på hur data formateras. Med formaterad, menar vi hur varje enskilt dataelement ser ut. Är "Produktkod" ett tecken eller ett tal? Är "Startdatum" ett datum eller är det verkligen en datetime frimärke?

Datatyper är viktiga för statistisk analys eftersom de dikterar vilken statistik och statistik som kan tillämpas på vilka dataelement. Om du försöker ta medelvärdet för ett teckenfält som "Förnamn" kommer du att få ett felmeddelande varje gång.

Vanligtvis är denna typ av metadata ganska korrekt. Det lagras generellt av det system som håller data och kan genereras automatiskt. Verifiering av formatet är generellt ganska enkelt. Sådan kontroll är i huvudsak en biprodukt av validering av dataområden som diskuteras i följande avsnitt. Men det finns fall där det kan vara lite svårare.

Vi har sett ett sådant scenario mer än vi bryr oss om att återkalla. Det händer ibland att när ett system är först utformat, försöker utvecklingsgruppen att lägga lite flexibilitet i datastrukturerna för att tillgodose framtida förbättringar. Ibland lägger de bara en massa tomma (och breda) alfanumeriska datakolumner i slutet av varje post. Dessa hjälpkolumner används initialt inte för någonting.

Analytiker kommer alltid att fel på sidan om att begära mer data istället för några än mindre - ofta, alla data. Detta faktum, i kombination med behovet av att få data snabbt, resulterar ibland i en datadump. Denna dump innehåller i allmänhet hjälpkolumnerna. I dessa fall berättar metadata dig något som "Fält 1-11" är formaterade som "200 alfanumeriska tecken. "

Sådan information är praktiskt taget användbar. För att göra det förnuftigt för ett datafält som det här måste du ganska mycket få dina händer smutsiga. Det finns inte mycket du kan göra förutom sidan genom några tiotal poster och försöker göra en informerad gissning om vad som faktiskt är i fältet. I de flesta fall tenderar dessa fält att vara tomma. Men inte alltid. Den goda nyheten är att om fältet faktiskt används, borde du kunna hitta en programmerare någonstans som vet vad den används för.

Skriva in dina data

Ett av de mest kritiska stegen när det gäller att utföra en statistisk analys är att se till att dina data är vad den menar att vara. Statistiska förfaranden kommer alltid att krascha om du inte ger dem giltig information om dataformat. Men dessa förfaranden är i stor utsträckning blind för problem med dataens giltighet.

Förstå hur ett datafält är formaterat räcker inte. Innan du byter dataset till en statistisk procedur måste du förstå vad uppgifterna egentligen är i vart och ett av de fält du använder.

De flesta uppgifterna faller i en av fyra kategorier: nominellt, ordinärt, intervall och förhållande.Datatypen bestämmer vilken typ av statistik och statistiska procedurer som kan tillämpas på vissa datafält. Du kan inte ta ett genomsnitt av ett fält som "Efternamn", till exempel.

Förvirrande datatyper med dataformat är lätt (och alldeles för vanligt). Att veta om ett datafält är ett tecken, heltal eller kontinuerligt berättar inte datatypen.

Teckenfält används ibland som platshållare för data som kan fångas i framtida utgåvor av ett system. Det finns inget för att förhindra att ett sådant fält används för att fånga pengar eller annan numerisk data.

Det vanligaste datatypsfelet innebär att ett numeriskt fält, särskilt ett heltalvärdefält, faktiskt innehåller numeriska ordinal data. Det är extremt vanligt för företagen att använda numeriska koder ( nominell data) för att representera produkter, regioner, butiker och olika andra enheter.

Flygbolagets flygkoder är ett exempel. Folkräkningsområdena är en annan. Även kreditkort och sociala avgifter lagras vanligen som heltal. Men alla dessa enheter är bara identifierare. De är nominella variabler. Det genomsnittliga kreditkortsnummeret i en banks portfölj är en meningslös statistik.

Ser dina data korrekt ut? - dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...