8 Bästa praxis i datapreparation - dummies

Statistiska programvarupaket är extremt kraftfulla idag, men de kan inte övervinna data med dålig kvalitet. Följande är en checklista över saker du behöver göra innan du går ut för att bygga statistiska modeller.

Kontrollera datformat

Din analys börjar alltid med en rå datafil. Rådatafiler finns i många olika former och storlekar. Mainframe-data är annorlunda än PC-data, kalkylbladdata formateras annorlunda än webbdata, och så vidare. Och i en tid med stora data kommer du säkert att möta data från en rad olika källor. Ditt första steg i analysen av dina data är att du kan läsa de filer du har fått.

Du måste faktiskt titta på vad varje fält innehåller. Det är till exempel inte klokt att lita på att bara ett fält är listat som ett teckenfält innehåller det faktiskt teckendata.

Verifiera datatyper

Alla data faller i en av fyra kategorier som påverkar vilken typ av statistik du lämpligen kan tillämpa på det:

Nominella data är i huvudsak bara ett namn eller en identifierare.
Ordinaldata sätter poster i ordning från lägsta till högsta.
Intervalldata representerar värden där skillnaderna mellan dem är jämförbara.
Ratiodata är som intervalldata förutom att det också tillåter ett värde på 0.

Det är viktigt att förstå vilka kategorier dina data faller in innan du matar in den i den statistiska programvaran. Annars riskerar du att sluta med helt snyggt gibberish.

Grafikera dina data

Att få en känsla av hur din data distribueras är viktig. Du kan köra statistiska rutiner tills du är blå i ansiktet, men ingen av dem ger dig så mycket inblick i vad dina data ser ut som en enkel graf.

Verifiera datakontrollen

När du är bekväm att data är formaterad på samma sätt som du vill, måste du se till att det är korrekt och det är vettigt. Det här steget kräver att du har viss kunskap om ämnesområdet du arbetar med.

Det är inte riktigt ett snitt och torkat tillvägagångssätt för att verifiera datakontrollen. Grundtanken är att formulera några egenskaper som du tycker att uppgifterna ska visa och testa data för att se om dessa egenskaper håller. Är aktiekurserna alltid positiva? Matchar alla produktkoder listan med giltiga? I huvudsak försöker du ta reda på om data verkligen är vad du har fått höra det är.

Identifiera utjämnare

Outliers är datapunkter som inte är krångliga med resten av data. De är antingen mycket stora eller mycket små värden jämfört med resten av datasetet.

Outliers är problematiska eftersom de allvarligt kan äventyra statistik och statistiska förfaranden. En enda outlier kan ha en enorm inverkan på värdet av medelvärdet. Eftersom medelvärdet är tänkt att representera centrum för data, i en mening, gör den här outlieren medelvärdet värdelös.

När man står inför outliers är den vanligaste strategin att ta bort dem. I vissa fall kan du dock ta hänsyn till dem. I dessa fall är det vanligtvis önskvärt att göra din analys två gånger - en gång med outliers inkluderade och en gång med outliers exkluderade. Detta gör att du kan utvärdera vilken metod som ger mer användbara resultat.

Hantera saknade värden

Saknade värden är ett av de vanligaste (och irriterande) dataproblem som du kommer att stöta på. Din första impuls kan vara att släppa poster med saknade värden från din analys. Problemet med detta är att saknade värden ofta inte är slumpmässiga små datalysningar.

Kontrollera dina antaganden om hur data distribueras

Många statistiska förfaranden beror på antagandet att data distribueras på ett visst sätt. Om det antagandet inte är fallet, lider noggrannheten i dina förutsägelser.

Det vanligaste antagandet för modelleringsteknikerna som diskuteras i denna bok är att data distribueras normalt.

Eller inte. I de fall där uppgifterna inte distribueras som du behöver det ska allt inte nödvändigtvis gå förlorat. Det finns olika sätt att omvandla data för att få fördelningen till den form du behöver den.

Ett av de bästa sätten att verifiera riktigheten hos en statistisk modell är att faktiskt testa den mot data när den är byggd. Ett sätt att göra det är att slumpmässigt dela upp datasetet i två filer. Du kan kalla dessa filer Analys och test, respektive.

Du måste dela upp data slumpmässigt för att vara effektiv. Du kan inte bara dela upp datasetet i den övre halvan och den undre halvan, till exempel. Nästan alla datafiler sorteras på något sätt - efter datum om inget annat. Detta introducerar systematiska mönster som kommer att ge olika delar av filen olika statistiska egenskaper. När du delar upp filen slumpmässigt ger du varje rekord lika stor chans att vara i endera filen. Figurativt sänder du ett mynt för varje post för att bestämma vilken fil den går in i. Slumpmässighet ger båda filerna samma statistiska egenskaper som originaldata.

När du har delat datauppsättningen, lägg till testfilen. Fortsätt sedan bygga din prediktiva modell med hjälp av analysfilen. När modellen är byggd, applicera den på testfilen och se hur den gör det.

Testmodeller på detta sätt hjälper till att skydda mot ett fenomen som kallas övermontering . I huvudsak är det möjligt för statistiska förfaranden att memorera datafilen istället för att upptäcka meningsfulla relationer bland variablerna. Om övermontering uppstår testar modellen ganska dåligt mot testfilen.

Säkerhetskopiera och dokumentera allt du gör

Eftersom statistisk programvara blir så enkel att använda, är det en bit kaka för att börja generera rapporter och grafer, för att inte tala om datafiler.Du kan köra procedurer bokstavligen med en knapptryckning. Du kan skapa flera dussingrafer baserat på olika datatransformationer om några minuter. Det gör det ganska lätt att förlora vad du har gjort, och varför.

Det är viktigt att du håller en skriftlig rekord av vad du ska göra. Grafer ska vara märkta med namnet (och versionen) av de data som användes för att skapa dem. Statistiska procedurer som du bygger måste sparas och dokumenteras.

Det är också viktigt att säkerhetskopiera dina datafiler. Under din analys kommer du sannolikt att skapa flera versioner av dina data som speglar olika korrigeringar och omvandlingar av variabler. Du bör spara procedurerna som skapade dessa versioner. De ska också dokumenteras på ett sätt som beskriver vilka omvandlingar du har gjort och varför.

Dokumentation är inte någons favorituppgift, men vi talar om erfarenhet när vi uppmanar dig starkt att inte lita på ditt minne när det gäller dina analysprojekt.

Genom att arbeta genom de just beskrivna stegen maximerar du pålitligheten hos dina statistiska modeller. I många fall är prep-arbetet faktiskt mer tidskrävande än den faktiska modellbyggnaden. Men det är nödvändigt. Och du kommer tacka dig till sist för att arbeta med det metodiskt.