Hem Personliga finanser 8 Bästa praxis i datapreparation - dummies

8 Bästa praxis i datapreparation - dummies

Innehållsförteckning:

Video: Moneyball (2011) Movie Trailer - HD - Brad Pitt 2025

Video: Moneyball (2011) Movie Trailer - HD - Brad Pitt 2025
Anonim

Statistiska programvarupaket är extremt kraftfulla idag, men de kan inte övervinna data med dålig kvalitet. Följande är en checklista över saker du behöver göra innan du går ut för att bygga statistiska modeller.

Kontrollera datformat

Din analys börjar alltid med en rå datafil. Rådatafiler finns i många olika former och storlekar. Mainframe-data är annorlunda än PC-data, kalkylbladdata formateras annorlunda än webbdata, och så vidare. Och i en tid med stora data kommer du säkert att möta data från en rad olika källor. Ditt första steg i analysen av dina data är att du kan läsa de filer du har fått.

Du måste faktiskt titta på vad varje fält innehåller. Det är till exempel inte klokt att lita på att bara ett fält är listat som ett teckenfält innehåller det faktiskt teckendata.

Verifiera datatyper

Alla data faller i en av fyra kategorier som påverkar vilken typ av statistik du lämpligen kan tillämpa på det:

  • Nominella data är i huvudsak bara ett namn eller en identifierare.

  • Ordinaldata sätter poster i ordning från lägsta till högsta.

  • Intervalldata representerar värden där skillnaderna mellan dem är jämförbara.

  • Ratiodata är som intervalldata förutom att det också tillåter ett värde på 0.

Det är viktigt att förstå vilka kategorier dina data faller in innan du matar in den i den statistiska programvaran. Annars riskerar du att sluta med helt snyggt gibberish.

Grafikera dina data

Att få en känsla av hur din data distribueras är viktig. Du kan köra statistiska rutiner tills du är blå i ansiktet, men ingen av dem ger dig så mycket inblick i vad dina data ser ut som en enkel graf.

Verifiera datakontrollen

När du är bekväm att data är formaterad på samma sätt som du vill, måste du se till att det är korrekt och det är vettigt. Det här steget kräver att du har viss kunskap om ämnesområdet du arbetar med.

Det är inte riktigt ett snitt och torkat tillvägagångssätt för att verifiera datakontrollen. Grundtanken är att formulera några egenskaper som du tycker att uppgifterna ska visa och testa data för att se om dessa egenskaper håller. Är aktiekurserna alltid positiva? Matchar alla produktkoder listan med giltiga? I huvudsak försöker du ta reda på om data verkligen är vad du har fått höra det är.

Identifiera utjämnare

Outliers är datapunkter som inte är krångliga med resten av data. De är antingen mycket stora eller mycket små värden jämfört med resten av datasetet.

Outliers är problematiska eftersom de allvarligt kan äventyra statistik och statistiska förfaranden. En enda outlier kan ha en enorm inverkan på värdet av medelvärdet. Eftersom medelvärdet är tänkt att representera centrum för data, i en mening, gör den här outlieren medelvärdet värdelös.

När man står inför outliers är den vanligaste strategin att ta bort dem. I vissa fall kan du dock ta hänsyn till dem. I dessa fall är det vanligtvis önskvärt att göra din analys två gånger - en gång med outliers inkluderade och en gång med outliers exkluderade. Detta gör att du kan utvärdera vilken metod som ger mer användbara resultat.

Hantera saknade värden

Saknade värden är ett av de vanligaste (och irriterande) dataproblem som du kommer att stöta på. Din första impuls kan vara att släppa poster med saknade värden från din analys. Problemet med detta är att saknade värden ofta inte är slumpmässiga små datalysningar.

Kontrollera dina antaganden om hur data distribueras

Många statistiska förfaranden beror på antagandet att data distribueras på ett visst sätt. Om det antagandet inte är fallet, lider noggrannheten i dina förutsägelser.

Det vanligaste antagandet för modelleringsteknikerna som diskuteras i denna bok är att data distribueras normalt.

Eller inte. I de fall där uppgifterna inte distribueras som du behöver det ska allt inte nödvändigtvis gå förlorat. Det finns olika sätt att omvandla data för att få fördelningen till den form du behöver den.

Ett av de bästa sätten att verifiera riktigheten hos en statistisk modell är att faktiskt testa den mot data när den är byggd. Ett sätt att göra det är att slumpmässigt dela upp datasetet i två filer. Du kan kalla dessa filer Analys och test, respektive.

Du måste dela upp data slumpmässigt för att vara effektiv. Du kan inte bara dela upp datasetet i den övre halvan och den undre halvan, till exempel. Nästan alla datafiler sorteras på något sätt - efter datum om inget annat. Detta introducerar systematiska mönster som kommer att ge olika delar av filen olika statistiska egenskaper. När du delar upp filen slumpmässigt ger du varje rekord lika stor chans att vara i endera filen. Figurativt sänder du ett mynt för varje post för att bestämma vilken fil den går in i. Slumpmässighet ger båda filerna samma statistiska egenskaper som originaldata.

När du har delat datauppsättningen, lägg till testfilen. Fortsätt sedan bygga din prediktiva modell med hjälp av analysfilen. När modellen är byggd, applicera den på testfilen och se hur den gör det.

Testmodeller på detta sätt hjälper till att skydda mot ett fenomen som kallas övermontering . I huvudsak är det möjligt för statistiska förfaranden att memorera datafilen istället för att upptäcka meningsfulla relationer bland variablerna. Om övermontering uppstår testar modellen ganska dåligt mot testfilen.

Säkerhetskopiera och dokumentera allt du gör

Eftersom statistisk programvara blir så enkel att använda, är det en bit kaka för att börja generera rapporter och grafer, för att inte tala om datafiler.Du kan köra procedurer bokstavligen med en knapptryckning. Du kan skapa flera dussingrafer baserat på olika datatransformationer om några minuter. Det gör det ganska lätt att förlora vad du har gjort, och varför.

Det är viktigt att du håller en skriftlig rekord av vad du ska göra. Grafer ska vara märkta med namnet (och versionen) av de data som användes för att skapa dem. Statistiska procedurer som du bygger måste sparas och dokumenteras.

Det är också viktigt att säkerhetskopiera dina datafiler. Under din analys kommer du sannolikt att skapa flera versioner av dina data som speglar olika korrigeringar och omvandlingar av variabler. Du bör spara procedurerna som skapade dessa versioner. De ska också dokumenteras på ett sätt som beskriver vilka omvandlingar du har gjort och varför.

Dokumentation är inte någons favorituppgift, men vi talar om erfarenhet när vi uppmanar dig starkt att inte lita på ditt minne när det gäller dina analysprojekt.

Genom att arbeta genom de just beskrivna stegen maximerar du pålitligheten hos dina statistiska modeller. I många fall är prep-arbetet faktiskt mer tidskrävande än den faktiska modellbyggnaden. Men det är nödvändigt. Och du kommer tacka dig till sist för att arbeta med det metodiskt.

8 Bästa praxis i datapreparation - dummies

Redaktörens val

Vad är en Java-karta? - dummies

Vad är en Java-karta? - dummies

Arrays och specialiserade listor gör det möjligt att utföra en fantastisk uppsättning uppgifter med Java. Det finns dock situationer där en Java-applikation behöver något som är mer relaterat till en databas, utan att egentligen ha allt databasbagage (som att behöva köpa en separat applikation). Till exempel kanske du vill kunna ...

Några få saker om Java Math - dummies

Några få saker om Java Math - dummies

Tro det eller inte, datorer - även de mest kraftfulla - Ha vissa begränsningar när det gäller att utföra matematiska beräkningar. Dessa begränsningar är vanligtvis obetydliga, men ibland slår de sig och biter på dig. Här är de saker du behöver se upp för när du gör matte i Java. Helhetsflöde Det grundläggande problemet ...

Vad är recursion i Java Programmering? - dummies

Vad är recursion i Java Programmering? - dummies

Rekursion är en grundläggande programmeringsteknik som du kan använda i Java, där en metod kallar sig för att lösa ett problem. En metod som använder denna teknik är rekursiv. Många programmeringsproblem kan lösas endast genom rekursion, och vissa problem som kan lösas med andra tekniker löses bättre genom rekursion. En av ...

Redaktörens val

4 Måste-inkludera i din blogg sidobardesign - dummies

4 Måste-inkludera i din blogg sidobardesign - dummies

Din bloggens sidofält är viktig fastighet som bör innehålla de element du vill ha mest. När du utformar din blogg sidofält kan du dra från en nästan oändlig lista över sidospårelement. Genom att välja noggrant vad som ska inkluderas (och vad som inte ska inkluderas) kan du ställa in din blogg från andra.

5 Användbara Wordpress Plugins - dummies

5 Användbara Wordpress Plugins - dummies

Om du bloggar på en självhävd plattform med WordPress-programvara, är det dags att anpassa din blogg med plug-ins - programvara som kan "anslutas" till din befintliga WordPress bloggprogramvara. Plug-ins gör det möjligt för dig att göra allt från funktionsbildspel i dina blogginlägg för att ansluta sociala medier till din webbplats. Här är fem användbara ...

7 Sätt att erövra Writer's Block som en Blogger - dummies

7 Sätt att erövra Writer's Block som en Blogger - dummies

Varje bloggare möter författarens block i ett tid eller annan. Om du är den typ av bloggare som sköter innehåll varje dag, kan författarens block vara stäverande. Kan du inte ta en paus för att få ditt skrivande mojo tillbaka? Prova en (eller flera) av dessa sju sätt att slå författarens block för att få dig tillbaka ...

Redaktörens val

10 Stora elektronikkomponentkällor - dummies

10 Stora elektronikkomponentkällor - dummies

Letar du efter några bra källor till dina elektroniska delar? Denna lista ger dig några fleråriga favoriter, både inom och utanför Nordamerika. Denna lista är inte uttömmande. Du hittar bokstavligen tusentals specialutbud för ny och begagnad elektronik. Plus, Amazon och eBay ger virtuella marknadsplatser för alla sorters säljare - ...

Elektronik Basics: Resistance - dummies

Elektronik Basics: Resistance - dummies

I elektronikvärlden är motståndet inte meningslöst. Faktum är att motstånd kan vara mycket användbart. Utan motstånd skulle elektronik inte vara möjligt. Elektronik handlar om att manipulera strömmen av ström, och ett av de mest grundläggande sätten att manipulera strömmen är att minska det genom resistans. Utan motstånd strömmar strömmen oreglerad och där ...

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

För att berätta för BASIC Stamp vad du vill göra i ditt digitala elektronikprojekt måste du programmera det. BASIC Stamp Windows Editor är den programvara som du använder på din dator för att skapa program som kan laddas ner till en BASIC Stamp-mikrokontroller. Denna programvara är tillgänglig gratis från Parallax webbplats. ...