Hem Personliga finanser 8 Bästa praxis i datapreparation - dummies

8 Bästa praxis i datapreparation - dummies

Innehållsförteckning:

Video: Moneyball (2011) Movie Trailer - HD - Brad Pitt 2025

Video: Moneyball (2011) Movie Trailer - HD - Brad Pitt 2025
Anonim

Statistiska programvarupaket är extremt kraftfulla idag, men de kan inte övervinna data med dålig kvalitet. Följande är en checklista över saker du behöver göra innan du går ut för att bygga statistiska modeller.

Kontrollera datformat

Din analys börjar alltid med en rå datafil. Rådatafiler finns i många olika former och storlekar. Mainframe-data är annorlunda än PC-data, kalkylbladdata formateras annorlunda än webbdata, och så vidare. Och i en tid med stora data kommer du säkert att möta data från en rad olika källor. Ditt första steg i analysen av dina data är att du kan läsa de filer du har fått.

Du måste faktiskt titta på vad varje fält innehåller. Det är till exempel inte klokt att lita på att bara ett fält är listat som ett teckenfält innehåller det faktiskt teckendata.

Verifiera datatyper

Alla data faller i en av fyra kategorier som påverkar vilken typ av statistik du lämpligen kan tillämpa på det:

  • Nominella data är i huvudsak bara ett namn eller en identifierare.

  • Ordinaldata sätter poster i ordning från lägsta till högsta.

  • Intervalldata representerar värden där skillnaderna mellan dem är jämförbara.

  • Ratiodata är som intervalldata förutom att det också tillåter ett värde på 0.

Det är viktigt att förstå vilka kategorier dina data faller in innan du matar in den i den statistiska programvaran. Annars riskerar du att sluta med helt snyggt gibberish.

Grafikera dina data

Att få en känsla av hur din data distribueras är viktig. Du kan köra statistiska rutiner tills du är blå i ansiktet, men ingen av dem ger dig så mycket inblick i vad dina data ser ut som en enkel graf.

Verifiera datakontrollen

När du är bekväm att data är formaterad på samma sätt som du vill, måste du se till att det är korrekt och det är vettigt. Det här steget kräver att du har viss kunskap om ämnesområdet du arbetar med.

Det är inte riktigt ett snitt och torkat tillvägagångssätt för att verifiera datakontrollen. Grundtanken är att formulera några egenskaper som du tycker att uppgifterna ska visa och testa data för att se om dessa egenskaper håller. Är aktiekurserna alltid positiva? Matchar alla produktkoder listan med giltiga? I huvudsak försöker du ta reda på om data verkligen är vad du har fått höra det är.

Identifiera utjämnare

Outliers är datapunkter som inte är krångliga med resten av data. De är antingen mycket stora eller mycket små värden jämfört med resten av datasetet.

Outliers är problematiska eftersom de allvarligt kan äventyra statistik och statistiska förfaranden. En enda outlier kan ha en enorm inverkan på värdet av medelvärdet. Eftersom medelvärdet är tänkt att representera centrum för data, i en mening, gör den här outlieren medelvärdet värdelös.

När man står inför outliers är den vanligaste strategin att ta bort dem. I vissa fall kan du dock ta hänsyn till dem. I dessa fall är det vanligtvis önskvärt att göra din analys två gånger - en gång med outliers inkluderade och en gång med outliers exkluderade. Detta gör att du kan utvärdera vilken metod som ger mer användbara resultat.

Hantera saknade värden

Saknade värden är ett av de vanligaste (och irriterande) dataproblem som du kommer att stöta på. Din första impuls kan vara att släppa poster med saknade värden från din analys. Problemet med detta är att saknade värden ofta inte är slumpmässiga små datalysningar.

Kontrollera dina antaganden om hur data distribueras

Många statistiska förfaranden beror på antagandet att data distribueras på ett visst sätt. Om det antagandet inte är fallet, lider noggrannheten i dina förutsägelser.

Det vanligaste antagandet för modelleringsteknikerna som diskuteras i denna bok är att data distribueras normalt.

Eller inte. I de fall där uppgifterna inte distribueras som du behöver det ska allt inte nödvändigtvis gå förlorat. Det finns olika sätt att omvandla data för att få fördelningen till den form du behöver den.

Ett av de bästa sätten att verifiera riktigheten hos en statistisk modell är att faktiskt testa den mot data när den är byggd. Ett sätt att göra det är att slumpmässigt dela upp datasetet i två filer. Du kan kalla dessa filer Analys och test, respektive.

Du måste dela upp data slumpmässigt för att vara effektiv. Du kan inte bara dela upp datasetet i den övre halvan och den undre halvan, till exempel. Nästan alla datafiler sorteras på något sätt - efter datum om inget annat. Detta introducerar systematiska mönster som kommer att ge olika delar av filen olika statistiska egenskaper. När du delar upp filen slumpmässigt ger du varje rekord lika stor chans att vara i endera filen. Figurativt sänder du ett mynt för varje post för att bestämma vilken fil den går in i. Slumpmässighet ger båda filerna samma statistiska egenskaper som originaldata.

När du har delat datauppsättningen, lägg till testfilen. Fortsätt sedan bygga din prediktiva modell med hjälp av analysfilen. När modellen är byggd, applicera den på testfilen och se hur den gör det.

Testmodeller på detta sätt hjälper till att skydda mot ett fenomen som kallas övermontering . I huvudsak är det möjligt för statistiska förfaranden att memorera datafilen istället för att upptäcka meningsfulla relationer bland variablerna. Om övermontering uppstår testar modellen ganska dåligt mot testfilen.

Säkerhetskopiera och dokumentera allt du gör

Eftersom statistisk programvara blir så enkel att använda, är det en bit kaka för att börja generera rapporter och grafer, för att inte tala om datafiler.Du kan köra procedurer bokstavligen med en knapptryckning. Du kan skapa flera dussingrafer baserat på olika datatransformationer om några minuter. Det gör det ganska lätt att förlora vad du har gjort, och varför.

Det är viktigt att du håller en skriftlig rekord av vad du ska göra. Grafer ska vara märkta med namnet (och versionen) av de data som användes för att skapa dem. Statistiska procedurer som du bygger måste sparas och dokumenteras.

Det är också viktigt att säkerhetskopiera dina datafiler. Under din analys kommer du sannolikt att skapa flera versioner av dina data som speglar olika korrigeringar och omvandlingar av variabler. Du bör spara procedurerna som skapade dessa versioner. De ska också dokumenteras på ett sätt som beskriver vilka omvandlingar du har gjort och varför.

Dokumentation är inte någons favorituppgift, men vi talar om erfarenhet när vi uppmanar dig starkt att inte lita på ditt minne när det gäller dina analysprojekt.

Genom att arbeta genom de just beskrivna stegen maximerar du pålitligheten hos dina statistiska modeller. I många fall är prep-arbetet faktiskt mer tidskrävande än den faktiska modellbyggnaden. Men det är nödvändigt. Och du kommer tacka dig till sist för att arbeta med det metodiskt.

8 Bästa praxis i datapreparation - dummies

Redaktörens val

Office 365 Grupper - Dummies

Office 365 Grupper - Dummies

Du kan använda Office 365 Grupper, eller helt enkelt grupper, för att snabbt bandet tillsammans med medarbetare till samarbeta utan administrationsansvar som följer med en SharePoint-webbplats. Grupper är inte en del av SharePoint Online. Det är faktiskt en funktion i Exchange Online, men den använder SharePoint Online-funktioner, till exempel OneDrive for Business för att lagra gruppfiler ...

Office 365 Mobil Dokument i molnet - Dummies

Office 365 Mobil Dokument i molnet - Dummies

Varje Office 365-abonnent med en kvalificerad plan kan installera Office mobilappar på upp till fem tabletter och fem smartphones. Kvalificeringsplanerna är: Office for Business Premium, Office 365 Business, Office 365 Pro Plus, Office 365 E3 och Office 365 E5. Kärnan Office-appar finns i Windows, iOS och Android ...

Office Graph och Delve - dummies

Office Graph och Delve - dummies

Office Graph i Office 365 ger en möjlighet för människor att dra nytta av relationer och aktiviteter och göra dem till meningsfulla insikter. De signaler du skickar från e-postkonversationer och möten i Outlook, snabbmeddelanden i Skype for Business, sociala interaktioner på Yammer och dokument i SharePoint Online och OneDrive samlas alla och ...

Redaktörens val

Elektronik Komponenter: Sätt in induktorer till arbete - dummies

Elektronik Komponenter: Sätt in induktorer till arbete - dummies

Om du har undrat vad induktorer används egentligen i elektroniska kretsar i verkligheten, här är några av de vanligaste användningarna för induktorer: Utjämning av spänning i en strömförsörjning: Det sista steget i en typisk strömförsörjningskrets som omvandlar 120 VAC hushållsström till en användbar direkt Nuvarande är ofta en ...

Elektronik Komponenter: Introduktion av mikrokontroller - dummies

Elektronik Komponenter: Introduktion av mikrokontroller - dummies

En mikrokontroller är en komplett dator på en enda elektronisk chip. De kan köpas för $ 50 eller mindre. Liksom alla datorsystem består mikrodatorer av flera grundläggande delsystem: Central Processor (CPU): En CPU utför de instruktioner som tillhandahålls av ett program. CPU kan göra alla nödvändiga åtgärder för ...

Elektronik Komponenter: Motstånd Power Ratings - dummies

Elektronik Komponenter: Motstånd Power Ratings - dummies

Motstånd är som bromsar för ström som strömmar genom en elektronisk krets. Liksom bromsarna i din bil arbetar motstånd genom att använda den elektriska ekvivalenten av friktion till strömningsströmmen. Denna friktion hämmar strömmen av ström genom att absorbera en del av strömens energi och sprida den i form av värme. När du använder en ...

Redaktörens val

Hur man konfigurerar SSH för din webbplats - dummies

Hur man konfigurerar SSH för din webbplats - dummies

Secure shell (SSH) är ett nätverksprotokoll för att tillåta säker datakommunikation. I själva verket är det som en webbhotell bakdörr i ditt system - en som borde förbli låst om du inte behöver använda den. Naturligtvis är exakt hur du konfigurerar SSH olika på alla typer av webbhotell, men som ...

Hur man skapar en ny webbhotell - dummies

Hur man skapar en ny webbhotell - dummies

Du måste skapa din databas inom din webbhotellskontrollpanel och skapa en speciell databasanvändare som har behörighet att komma åt den. När du installerar en webbapplikation eller ett skript som kräver en databas från kontrollpanelen, kommer installationsprogrammet sannolikt att kunna skapa en egen databas och användare. ...

Hur man skapar nya konton på webbhotell med FTP-dummies

Hur man skapar nya konton på webbhotell med FTP-dummies

Du kanske vill att skapa ytterligare konton på en webbhanterad ftp av olika orsaker. Detta möjliggör viss mångsidighet och kontroll för att förbättra din företagsfunktionalitet. Några skäl till att lägga till ett konto är följande: Du vill ge någon annan FTP-åtkomst till din webbplats. Du vill ge någon FTP-åtkomst ...