Hem Personliga finanser 8 Bästa praxis i datapreparation - dummies

8 Bästa praxis i datapreparation - dummies

Innehållsförteckning:

Video: Moneyball (2011) Movie Trailer - HD - Brad Pitt 2024

Video: Moneyball (2011) Movie Trailer - HD - Brad Pitt 2024
Anonim

Statistiska programvarupaket är extremt kraftfulla idag, men de kan inte övervinna data med dålig kvalitet. Följande är en checklista över saker du behöver göra innan du går ut för att bygga statistiska modeller.

Kontrollera datformat

Din analys börjar alltid med en rå datafil. Rådatafiler finns i många olika former och storlekar. Mainframe-data är annorlunda än PC-data, kalkylbladdata formateras annorlunda än webbdata, och så vidare. Och i en tid med stora data kommer du säkert att möta data från en rad olika källor. Ditt första steg i analysen av dina data är att du kan läsa de filer du har fått.

Du måste faktiskt titta på vad varje fält innehåller. Det är till exempel inte klokt att lita på att bara ett fält är listat som ett teckenfält innehåller det faktiskt teckendata.

Verifiera datatyper

Alla data faller i en av fyra kategorier som påverkar vilken typ av statistik du lämpligen kan tillämpa på det:

  • Nominella data är i huvudsak bara ett namn eller en identifierare.

  • Ordinaldata sätter poster i ordning från lägsta till högsta.

  • Intervalldata representerar värden där skillnaderna mellan dem är jämförbara.

  • Ratiodata är som intervalldata förutom att det också tillåter ett värde på 0.

Det är viktigt att förstå vilka kategorier dina data faller in innan du matar in den i den statistiska programvaran. Annars riskerar du att sluta med helt snyggt gibberish.

Grafikera dina data

Att få en känsla av hur din data distribueras är viktig. Du kan köra statistiska rutiner tills du är blå i ansiktet, men ingen av dem ger dig så mycket inblick i vad dina data ser ut som en enkel graf.

Verifiera datakontrollen

När du är bekväm att data är formaterad på samma sätt som du vill, måste du se till att det är korrekt och det är vettigt. Det här steget kräver att du har viss kunskap om ämnesområdet du arbetar med.

Det är inte riktigt ett snitt och torkat tillvägagångssätt för att verifiera datakontrollen. Grundtanken är att formulera några egenskaper som du tycker att uppgifterna ska visa och testa data för att se om dessa egenskaper håller. Är aktiekurserna alltid positiva? Matchar alla produktkoder listan med giltiga? I huvudsak försöker du ta reda på om data verkligen är vad du har fått höra det är.

Identifiera utjämnare

Outliers är datapunkter som inte är krångliga med resten av data. De är antingen mycket stora eller mycket små värden jämfört med resten av datasetet.

Outliers är problematiska eftersom de allvarligt kan äventyra statistik och statistiska förfaranden. En enda outlier kan ha en enorm inverkan på värdet av medelvärdet. Eftersom medelvärdet är tänkt att representera centrum för data, i en mening, gör den här outlieren medelvärdet värdelös.

När man står inför outliers är den vanligaste strategin att ta bort dem. I vissa fall kan du dock ta hänsyn till dem. I dessa fall är det vanligtvis önskvärt att göra din analys två gånger - en gång med outliers inkluderade och en gång med outliers exkluderade. Detta gör att du kan utvärdera vilken metod som ger mer användbara resultat.

Hantera saknade värden

Saknade värden är ett av de vanligaste (och irriterande) dataproblem som du kommer att stöta på. Din första impuls kan vara att släppa poster med saknade värden från din analys. Problemet med detta är att saknade värden ofta inte är slumpmässiga små datalysningar.

Kontrollera dina antaganden om hur data distribueras

Många statistiska förfaranden beror på antagandet att data distribueras på ett visst sätt. Om det antagandet inte är fallet, lider noggrannheten i dina förutsägelser.

Det vanligaste antagandet för modelleringsteknikerna som diskuteras i denna bok är att data distribueras normalt.

Eller inte. I de fall där uppgifterna inte distribueras som du behöver det ska allt inte nödvändigtvis gå förlorat. Det finns olika sätt att omvandla data för att få fördelningen till den form du behöver den.

Ett av de bästa sätten att verifiera riktigheten hos en statistisk modell är att faktiskt testa den mot data när den är byggd. Ett sätt att göra det är att slumpmässigt dela upp datasetet i två filer. Du kan kalla dessa filer Analys och test, respektive.

Du måste dela upp data slumpmässigt för att vara effektiv. Du kan inte bara dela upp datasetet i den övre halvan och den undre halvan, till exempel. Nästan alla datafiler sorteras på något sätt - efter datum om inget annat. Detta introducerar systematiska mönster som kommer att ge olika delar av filen olika statistiska egenskaper. När du delar upp filen slumpmässigt ger du varje rekord lika stor chans att vara i endera filen. Figurativt sänder du ett mynt för varje post för att bestämma vilken fil den går in i. Slumpmässighet ger båda filerna samma statistiska egenskaper som originaldata.

När du har delat datauppsättningen, lägg till testfilen. Fortsätt sedan bygga din prediktiva modell med hjälp av analysfilen. När modellen är byggd, applicera den på testfilen och se hur den gör det.

Testmodeller på detta sätt hjälper till att skydda mot ett fenomen som kallas övermontering . I huvudsak är det möjligt för statistiska förfaranden att memorera datafilen istället för att upptäcka meningsfulla relationer bland variablerna. Om övermontering uppstår testar modellen ganska dåligt mot testfilen.

Säkerhetskopiera och dokumentera allt du gör

Eftersom statistisk programvara blir så enkel att använda, är det en bit kaka för att börja generera rapporter och grafer, för att inte tala om datafiler.Du kan köra procedurer bokstavligen med en knapptryckning. Du kan skapa flera dussingrafer baserat på olika datatransformationer om några minuter. Det gör det ganska lätt att förlora vad du har gjort, och varför.

Det är viktigt att du håller en skriftlig rekord av vad du ska göra. Grafer ska vara märkta med namnet (och versionen) av de data som användes för att skapa dem. Statistiska procedurer som du bygger måste sparas och dokumenteras.

Det är också viktigt att säkerhetskopiera dina datafiler. Under din analys kommer du sannolikt att skapa flera versioner av dina data som speglar olika korrigeringar och omvandlingar av variabler. Du bör spara procedurerna som skapade dessa versioner. De ska också dokumenteras på ett sätt som beskriver vilka omvandlingar du har gjort och varför.

Dokumentation är inte någons favorituppgift, men vi talar om erfarenhet när vi uppmanar dig starkt att inte lita på ditt minne när det gäller dina analysprojekt.

Genom att arbeta genom de just beskrivna stegen maximerar du pålitligheten hos dina statistiska modeller. I många fall är prep-arbetet faktiskt mer tidskrävande än den faktiska modellbyggnaden. Men det är nödvändigt. Och du kommer tacka dig till sist för att arbeta med det metodiskt.

8 Bästa praxis i datapreparation - dummies

Redaktörens val

Fastighetsprofessionens grunder för fastighetslicensexamen - dummies

Fastighetsprofessionens grunder för fastighetslicensexamen - dummies

Fastighetsexamen kommer att förvänta dig att du har ett grundläggande grepp på fastighetsbranschen. Du tror att det bara är uppenbart att veta vad de viktigaste spelarna gör i en fastighetsaffär, men på grund av den terminologi de delar, blir skillnaderna mellan spelarna lite muddlade. Här är snabba beskrivningar ...

Kostnadsmetoden för fastighetslicensexamen - dummies

Kostnadsmetoden för fastighetslicensexamen - dummies

En metod för att uppskatta Värdet på fastigheter kallas kostnaden. Du måste känna till formeln för fastighetslicensexamen. Kostnadsmetoden baseras på tanken att komponenterna i en fastighet eller marken och byggnaderna kan läggas till för att komma fram till ...

Studie för fastighetslicensexamen - dummies

Studie för fastighetslicensexamen - dummies

När var sista gången du tog en multipelvalsexamen ? Eller, för den delen, någon examen? Det är troligt att det var länge sedan. Kanske överväger du huruvida du ska bli en fastighetsmäklare, men du är lite avskräckt av tanken på att du måste göra ett test. Vad du kan ...

Redaktörens val

Följer ett basketspel på tv - dummies

Följer ett basketspel på tv - dummies

Du kommer bli mycket mer ute av att titta på ett basketspel på TV - eller till och med leva - om du gör mer än att se bollen gå in i rammen. Kolla in dessa insider tips för att fånga den verkliga åtgärden och öka din njutning av sporten. Förutse nästa pass Försök att tänka som ...

Top 5 Fantasy Basketball League Sites - Dummies

Top 5 Fantasy Basketball League Sites - Dummies

Att hitta och gå med på en fantasy basketplats kan ibland vara skrämmande uppgift eftersom så många alternativ är tillgängliga och de flesta webbplatser ser lika ut. Bara för att webbplatser ser ut som det betyder inte nödvändigtvis att de mäter i värde. Vissa webbplatser erbjuder gratis ligor, andra betalade - och vissa webbplatser tillhandahåller bara standard liga ...

Tryck på motståndarna i Basket - Dummies

Tryck på motståndarna i Basket - Dummies

Pressen är kort för tryck. Ofta kallad en fullrättspress, det här är ett anfallande försvar som används på backen, där målet är att tvinga en omsättning. Vanligtvis används efter en gjord korg, svänger pressgruppen över motståndarna i backcourt; Om motståndarna lyckas få bollen förbi halvvägs (kallad brytning ...

Redaktörens val

Hur R beräknar oändliga, odefinierade och saknade värden - dummies

Hur R beräknar oändliga, odefinierade och saknade värden - dummies

Lyckligtvis kan R hantera dataanomalier som förvirrar några andra statistiska plattformar. I vissa fall har du inte reella värden att beräkna med. I de flesta verkliga dataset saknas faktiskt åtminstone några värden. Dessutom har vissa beräkningar oändlighet som ett resultat (som att dividera med noll) eller kan inte ...

Hur man lägger till linjer i en plot i R-dummies

Hur man lägger till linjer i en plot i R-dummies

I R, lägger du till rader i en plott på ett mycket liknande sätt att lägga till poäng, förutom att du använder funktionen linjer () för att uppnå detta. Men använd först lite R magi för att skapa en trendlinje genom data, kallad en regressionsmodell. Du använder lm () -funktionen för att uppskatta en linjär ...

Hur man lägger till en andra dimension i R-dummies

Hur man lägger till en andra dimension i R-dummies

Förutom vektorer kan R representera matriser som ett objekt du arbetar och beräknar med. Faktum är att R verkligen lyser när det gäller matrisberäkningar och -operationer. Vektorer är nära relaterade till en större klass av objekt, arrays. Arrayer har två mycket viktiga egenskaper: De innehåller bara en enda typ av värde. De har ...