Som med många aspekter av ett företagsystem är data en mänsklig skapelse - så det är lämpligt att ha några gränser för användbarheten när du först skaffa det. Här följer en översikt över några begränsningar som du sannolikt kommer att stöta på:
-
Uppgifterna kan vara ofullständiga. Saknade värden, även om det saknas en sektion eller en väsentlig del av data, kan begränsa användbarheten.
Till exempel kan dina data bara omfatta en eller två villkor för en större uppsättning som du försöker modellera - som när en modell som byggdes för att analysera aktiemarknadsresultatet endast har data tillgänglig från de senaste 5 åren, vilket skryter både uppgifterna och modellen mot antagandet om en tjurmarknad.
När marknaden genomgår någon korrigering som leder till en björnmarknad, misslyckas modellen, helt enkelt eftersom den inte utbildades och testades med data som representerar en björnmarknad.
Se till att du tittar på en tidsram som ger dig en komplett bild av de naturliga fluktuationerna i dina data. Dina uppgifter bör inte begränsas till säsongsmässighet .
-
Om du använder data från undersökningar, tänk på att personer inte alltid tillhandahåller korrekt information. Inte alla kommer att svara sanningsenligt om (hur mycket) de tränar - eller hur många alkoholhaltiga drycker de konsumerar - per vecka. Människor kanske inte är oärliga så mycket som självmedvetna, men data är fortfarande skevade.
-
Data som samlats in från olika källor kan variera i kvalitet och format. Uppgifter som samlas in från så olika källor som undersökningar, e-postmeddelanden, datainmatningsformulär och företagets webbplats kommer att ha olika egenskaper och strukturer. Data från olika källor kan inte ha mycket kompatibilitet mellan datafält. Sådan data kräver stor förbehandling innan den är analysberedd. Den bifogade sidofältet ger ett exempel.
Uppgifter som samlats in från flera källor kan ha skillnader i formatering, dubbla poster och inkonsekvenser i fusionerade datafält. Förvänta dig att spendera en lång tid på att rengöra sådana data - och till och med längre validera dess tillförlitlighet.
För att bestämma begränsningarna för dina data, se till att:
-
Verifiera alla variabler du ska använda i din modell.
-
Utvärdera dataens omfattning, särskilt över tiden, så din modell kan undvika säsongsmässiga fällor.
-
Kontrollera om det saknas värden, identifiera dem och bedöma deras inverkan på den övergripande analysen.
-
Se upp för extrema värden (outliers) och bestämma om de ska inkluderas i analysen.
-
Bekräfta att poolen av träning och testdata är tillräckligt stor.
-
Kontrollera att datatyp (heltal, decimala värden eller tecken osv.) Är korrekt och ställ in övre och nedre gränsen för möjliga värden.
-
Var särskilt uppmärksam på dataintegration när dina data kommer från flera källor.
Se till att du förstår dina datakällor och deras inverkan på den totala kvaliteten på dina data.
-
Välj ett relevant dataset som är representativt för hela befolkningen.
-
Välj rätt parametrar för din analys.
Oroa dig inte ens om du inte behöver analysera det noggrant om dina data fortfarande behöver förbehandling. Förbehandling tar ofta lång tid och betydande ansträngningar eftersom det måste ta itu med flera problem relaterade till originaldata - dessa problem inkluderar:
-
Några värden saknas från data.
-
Eventuella inkonsekvenser och / eller fel som finns i data.
-
Eventuella duplikat eller avvikande data i data.
-
Varje normalisering eller annan omvandling av data.
-
Eventuella härledda data som behövs för analysen.