Hem Personliga finanser 8 Bästa praxis i datapreparation - dummies

8 Bästa praxis i datapreparation - dummies

Innehållsförteckning:

Video: Moneyball (2011) Movie Trailer - HD - Brad Pitt 2024

Video: Moneyball (2011) Movie Trailer - HD - Brad Pitt 2024
Anonim

Statistiska programvarupaket är extremt kraftfulla idag, men de kan inte övervinna data med dålig kvalitet. Följande är en checklista över saker du behöver göra innan du går ut för att bygga statistiska modeller.

Kontrollera datformat

Din analys börjar alltid med en rå datafil. Rådatafiler finns i många olika former och storlekar. Mainframe-data är annorlunda än PC-data, kalkylbladdata formateras annorlunda än webbdata, och så vidare. Och i en tid med stora data kommer du säkert att möta data från en rad olika källor. Ditt första steg i analysen av dina data är att du kan läsa de filer du har fått.

Du måste faktiskt titta på vad varje fält innehåller. Det är till exempel inte klokt att lita på att bara ett fält är listat som ett teckenfält innehåller det faktiskt teckendata.

Verifiera datatyper

Alla data faller i en av fyra kategorier som påverkar vilken typ av statistik du lämpligen kan tillämpa på det:

  • Nominella data är i huvudsak bara ett namn eller en identifierare.

  • Ordinaldata sätter poster i ordning från lägsta till högsta.

  • Intervalldata representerar värden där skillnaderna mellan dem är jämförbara.

  • Ratiodata är som intervalldata förutom att det också tillåter ett värde på 0.

Det är viktigt att förstå vilka kategorier dina data faller in innan du matar in den i den statistiska programvaran. Annars riskerar du att sluta med helt snyggt gibberish.

Grafikera dina data

Att få en känsla av hur din data distribueras är viktig. Du kan köra statistiska rutiner tills du är blå i ansiktet, men ingen av dem ger dig så mycket inblick i vad dina data ser ut som en enkel graf.

Verifiera datakontrollen

När du är bekväm att data är formaterad på samma sätt som du vill, måste du se till att det är korrekt och det är vettigt. Det här steget kräver att du har viss kunskap om ämnesområdet du arbetar med.

Det är inte riktigt ett snitt och torkat tillvägagångssätt för att verifiera datakontrollen. Grundtanken är att formulera några egenskaper som du tycker att uppgifterna ska visa och testa data för att se om dessa egenskaper håller. Är aktiekurserna alltid positiva? Matchar alla produktkoder listan med giltiga? I huvudsak försöker du ta reda på om data verkligen är vad du har fått höra det är.

Identifiera utjämnare

Outliers är datapunkter som inte är krångliga med resten av data. De är antingen mycket stora eller mycket små värden jämfört med resten av datasetet.

Outliers är problematiska eftersom de allvarligt kan äventyra statistik och statistiska förfaranden. En enda outlier kan ha en enorm inverkan på värdet av medelvärdet. Eftersom medelvärdet är tänkt att representera centrum för data, i en mening, gör den här outlieren medelvärdet värdelös.

När man står inför outliers är den vanligaste strategin att ta bort dem. I vissa fall kan du dock ta hänsyn till dem. I dessa fall är det vanligtvis önskvärt att göra din analys två gånger - en gång med outliers inkluderade och en gång med outliers exkluderade. Detta gör att du kan utvärdera vilken metod som ger mer användbara resultat.

Hantera saknade värden

Saknade värden är ett av de vanligaste (och irriterande) dataproblem som du kommer att stöta på. Din första impuls kan vara att släppa poster med saknade värden från din analys. Problemet med detta är att saknade värden ofta inte är slumpmässiga små datalysningar.

Kontrollera dina antaganden om hur data distribueras

Många statistiska förfaranden beror på antagandet att data distribueras på ett visst sätt. Om det antagandet inte är fallet, lider noggrannheten i dina förutsägelser.

Det vanligaste antagandet för modelleringsteknikerna som diskuteras i denna bok är att data distribueras normalt.

Eller inte. I de fall där uppgifterna inte distribueras som du behöver det ska allt inte nödvändigtvis gå förlorat. Det finns olika sätt att omvandla data för att få fördelningen till den form du behöver den.

Ett av de bästa sätten att verifiera riktigheten hos en statistisk modell är att faktiskt testa den mot data när den är byggd. Ett sätt att göra det är att slumpmässigt dela upp datasetet i två filer. Du kan kalla dessa filer Analys och test, respektive.

Du måste dela upp data slumpmässigt för att vara effektiv. Du kan inte bara dela upp datasetet i den övre halvan och den undre halvan, till exempel. Nästan alla datafiler sorteras på något sätt - efter datum om inget annat. Detta introducerar systematiska mönster som kommer att ge olika delar av filen olika statistiska egenskaper. När du delar upp filen slumpmässigt ger du varje rekord lika stor chans att vara i endera filen. Figurativt sänder du ett mynt för varje post för att bestämma vilken fil den går in i. Slumpmässighet ger båda filerna samma statistiska egenskaper som originaldata.

När du har delat datauppsättningen, lägg till testfilen. Fortsätt sedan bygga din prediktiva modell med hjälp av analysfilen. När modellen är byggd, applicera den på testfilen och se hur den gör det.

Testmodeller på detta sätt hjälper till att skydda mot ett fenomen som kallas övermontering . I huvudsak är det möjligt för statistiska förfaranden att memorera datafilen istället för att upptäcka meningsfulla relationer bland variablerna. Om övermontering uppstår testar modellen ganska dåligt mot testfilen.

Säkerhetskopiera och dokumentera allt du gör

Eftersom statistisk programvara blir så enkel att använda, är det en bit kaka för att börja generera rapporter och grafer, för att inte tala om datafiler.Du kan köra procedurer bokstavligen med en knapptryckning. Du kan skapa flera dussingrafer baserat på olika datatransformationer om några minuter. Det gör det ganska lätt att förlora vad du har gjort, och varför.

Det är viktigt att du håller en skriftlig rekord av vad du ska göra. Grafer ska vara märkta med namnet (och versionen) av de data som användes för att skapa dem. Statistiska procedurer som du bygger måste sparas och dokumenteras.

Det är också viktigt att säkerhetskopiera dina datafiler. Under din analys kommer du sannolikt att skapa flera versioner av dina data som speglar olika korrigeringar och omvandlingar av variabler. Du bör spara procedurerna som skapade dessa versioner. De ska också dokumenteras på ett sätt som beskriver vilka omvandlingar du har gjort och varför.

Dokumentation är inte någons favorituppgift, men vi talar om erfarenhet när vi uppmanar dig starkt att inte lita på ditt minne när det gäller dina analysprojekt.

Genom att arbeta genom de just beskrivna stegen maximerar du pålitligheten hos dina statistiska modeller. I många fall är prep-arbetet faktiskt mer tidskrävande än den faktiska modellbyggnaden. Men det är nödvändigt. Och du kommer tacka dig till sist för att arbeta med det metodiskt.

8 Bästa praxis i datapreparation - dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...