Hem Personliga finanser Databegränsningarna i Prediktiv Analytics - Dummies

Databegränsningarna i Prediktiv Analytics - Dummies

Anonim

Som med många aspekter av ett företagsystem är data en mänsklig skapelse - så det är lämpligt att ha några gränser för användbarheten när du först skaffa det. Här följer en översikt över några begränsningar som du sannolikt kommer att stöta på:

  • Uppgifterna kan vara ofullständiga. Saknade värden, även om det saknas en sektion eller en väsentlig del av data, kan begränsa användbarheten.

    Till exempel kan dina data bara omfatta en eller två villkor för en större uppsättning som du försöker modellera - som när en modell som byggdes för att analysera aktiemarknadsresultatet endast har data tillgänglig från de senaste 5 åren, vilket skryter både uppgifterna och modellen mot antagandet om en tjurmarknad.

    När marknaden genomgår någon korrigering som leder till en björnmarknad, misslyckas modellen, helt enkelt eftersom den inte utbildades och testades med data som representerar en björnmarknad.

    Se till att du tittar på en tidsram som ger dig en komplett bild av de naturliga fluktuationerna i dina data. Dina uppgifter bör inte begränsas till säsongsmässighet .

  • Om du använder data från undersökningar, tänk på att personer inte alltid tillhandahåller korrekt information. Inte alla kommer att svara sanningsenligt om (hur mycket) de tränar - eller hur många alkoholhaltiga drycker de konsumerar - per vecka. Människor kanske inte är oärliga så mycket som självmedvetna, men data är fortfarande skevade.

  • Data som samlats in från olika källor kan variera i kvalitet och format. Uppgifter som samlas in från så olika källor som undersökningar, e-postmeddelanden, datainmatningsformulär och företagets webbplats kommer att ha olika egenskaper och strukturer. Data från olika källor kan inte ha mycket kompatibilitet mellan datafält. Sådan data kräver stor förbehandling innan den är analysberedd. Den bifogade sidofältet ger ett exempel.

Uppgifter som samlats in från flera källor kan ha skillnader i formatering, dubbla poster och inkonsekvenser i fusionerade datafält. Förvänta dig att spendera en lång tid på att rengöra sådana data - och till och med längre validera dess tillförlitlighet.

För att bestämma begränsningarna för dina data, se till att:

  • Verifiera alla variabler du ska använda i din modell.

  • Utvärdera dataens omfattning, särskilt över tiden, så din modell kan undvika säsongsmässiga fällor.

  • Kontrollera om det saknas värden, identifiera dem och bedöma deras inverkan på den övergripande analysen.

  • Se upp för extrema värden (outliers) och bestämma om de ska inkluderas i analysen.

  • Bekräfta att poolen av träning och testdata är tillräckligt stor.

  • Kontrollera att datatyp (heltal, decimala värden eller tecken osv.) Är korrekt och ställ in övre och nedre gränsen för möjliga värden.

  • Var särskilt uppmärksam på dataintegration när dina data kommer från flera källor.

Se till att du förstår dina datakällor och deras inverkan på den totala kvaliteten på dina data.

  • Välj ett relevant dataset som är representativt för hela befolkningen.

  • Välj rätt parametrar för din analys.

Oroa dig inte ens om du inte behöver analysera det noggrant om dina data fortfarande behöver förbehandling. Förbehandling tar ofta lång tid och betydande ansträngningar eftersom det måste ta itu med flera problem relaterade till originaldata - dessa problem inkluderar:

  • Några värden saknas från data.

  • Eventuella inkonsekvenser och / eller fel som finns i data.

  • Eventuella duplikat eller avvikande data i data.

  • Varje normalisering eller annan omvandling av data.

  • Eventuella härledda data som behövs för analysen.

Databegränsningarna i Prediktiv Analytics - Dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...