Hem Personliga finanser Rengör data för din prediktiva analysmodell - dummies

Rengör data för din prediktiva analysmodell - dummies

Video: How-To | Vårstäda din dator! 2025

Video: How-To | Vårstäda din dator! 2025
Anonim

Du måste vara säker på att data är rena av främmande saker innan du kan använda den i ditt prediktiva analysmodell, inklusive att hitta och korrigera eventuella poster som innehåller felaktiga värden och försöka fylla i några saknade värden. Du måste också bestämma om du vill inkludera dubbla poster (till exempel två kundkonton). Det övergripande målet är att Se till att integriteten hos den information du använder för att bygga din prediktiva modell är särskilt uppmärksam på att data är fullständiga, korrekta och aktuella.

Det är användbart att skapa beskrivande statistik (kvantitativa egenskaper) för olika fält, som min och max, kontrollfrekvensfördelning (hur ofta något inträffar) och verifiering av de förväntade områdena. Om du kör en vanlig kontroll kan du flagga data som ligger utanför det förväntade intervallet för ytterligare inve stigation. Eventuella uppgifter som visar pensionärer med födelsedatum på 1990-talet kan flaggas med denna metod.

Också, kryssrutan informationen är viktig så att du ser till att uppgifterna är korrekta. För en djupare analys av dataegenskaperna och identifieringen av förhållandet mellan dataposter kan du använda dataprofilering (analysera tillgängligheten av data och samla statistik om datakvaliteten) och visualiseringsverktyg.

Saknade data kan bero på det faktum att viss information inte registrerades. I så fall kan du försöka fylla i så mycket du kan, Lämpliga standardinställningar kan enkelt läggas till för att fylla ämnena i vissa fält.

Till exempel, för patienter i en sjukhusvårdsavdelning där könsfältet saknar ett värde kan ansökan helt enkelt fylla den som kvinnlig. För den delen, för alla män som var inlagda på ett sjukhus med en saknad rekord för graviditetsstatusen, kan den också fyllas i som inte tillämplig. En saknad postnummer för en adress kan härledas från gatunamnet och den stad som anges i den adressen.

I de fall då informationen är okänd eller inte kan utläsas, måste du använda värden annan än ett tomt utrymme för att indikera att data saknas utan att analysen korrekthet. Ett ämne i data kan innebära flera saker, de flesta är inte bra eller användbara. Närhelst du kan, bör du ange naturen hos det tomma ämnet med meningsfullt fyllmedel. För numeriska data som helt och hållet består av små och positiva tal (värden mellan 0 och 100) kan användaren exempelvis definiera numret -999.99 som platsfyllare för saknade data.

Precis som det är möjligt att definiera en ros i ett kornfält som ett ogräs, kan outliers betyda olika saker för olika analyser. Det är vanligt att vissa modeller byggs enbart för att spåra dessa outliers och flagga dem. Bedrägeribekämpningsmodeller och övervakning av brottslig verksamhet är intresserade av de avvikande, vilket i sådana fall tyder på att något oönskade äger rum.

Det är därför rekommenderat att hålla bortslaget i datasetet i fall som dessa. Men när outliers anses vara avvikelser inom data - och kommer bara att skeva analyserna och leda till felaktiga resultat - ta bort dem från dina data. Vad du inte vill hända är att din modell kommer att försöka att förutse outliersna och sluta misslyckas med att förutsäga något annat.

Duplikering i data kan också vara användbar eller störande; En del av det kan vara nödvändigt, kan indikera värde och kan återspegla ett exakt tillstånd för data. Exempelvis kan en registrering av en kund med flera konton representeras med flera poster som (tekniskt, i alla fall) är duplicerade och upprepade av samma poster.

Ett annat exempel skulle vara en kund som har både en arbetstelefon och en personlig telefon med samma företag och med räkningen går till samma adress - något som skulle vara värdefullt att veta. På samma sätt, när dubbletterna inte bidrar med värdet till analysen och inte är nödvändiga, kan borttagning av dem vara av enormt värde. Detta gäller speciellt för stora dataset där borttagning av dubbla poster kan förenkla dataens komplexitet och minska tiden som behövs för analys.

Du kan förebyggande förhindra att felaktiga data kommer in i ditt system genom att anta vissa specifika procedurer:

  • Innehållskvalitetskontroll och datavalidering för alla data som samlas in.
  • Tillåt dina kunder att validera och självkorrigera sina personuppgifter.
  • Ge dina kunder med möjliga och förväntade värden att välja mellan.
  • Rutinmässigt kör kontroller av integriteten, konsistensen och noggrannheten i data.
Rengör data för din prediktiva analysmodell - dummies

Redaktörens val

Office 365 Grupper - Dummies

Office 365 Grupper - Dummies

Du kan använda Office 365 Grupper, eller helt enkelt grupper, för att snabbt bandet tillsammans med medarbetare till samarbeta utan administrationsansvar som följer med en SharePoint-webbplats. Grupper är inte en del av SharePoint Online. Det är faktiskt en funktion i Exchange Online, men den använder SharePoint Online-funktioner, till exempel OneDrive for Business för att lagra gruppfiler ...

Office 365 Mobil Dokument i molnet - Dummies

Office 365 Mobil Dokument i molnet - Dummies

Varje Office 365-abonnent med en kvalificerad plan kan installera Office mobilappar på upp till fem tabletter och fem smartphones. Kvalificeringsplanerna är: Office for Business Premium, Office 365 Business, Office 365 Pro Plus, Office 365 E3 och Office 365 E5. Kärnan Office-appar finns i Windows, iOS och Android ...

Office Graph och Delve - dummies

Office Graph och Delve - dummies

Office Graph i Office 365 ger en möjlighet för människor att dra nytta av relationer och aktiviteter och göra dem till meningsfulla insikter. De signaler du skickar från e-postkonversationer och möten i Outlook, snabbmeddelanden i Skype for Business, sociala interaktioner på Yammer och dokument i SharePoint Online och OneDrive samlas alla och ...

Redaktörens val

Elektronik Komponenter: Sätt in induktorer till arbete - dummies

Elektronik Komponenter: Sätt in induktorer till arbete - dummies

Om du har undrat vad induktorer används egentligen i elektroniska kretsar i verkligheten, här är några av de vanligaste användningarna för induktorer: Utjämning av spänning i en strömförsörjning: Det sista steget i en typisk strömförsörjningskrets som omvandlar 120 VAC hushållsström till en användbar direkt Nuvarande är ofta en ...

Elektronik Komponenter: Introduktion av mikrokontroller - dummies

Elektronik Komponenter: Introduktion av mikrokontroller - dummies

En mikrokontroller är en komplett dator på en enda elektronisk chip. De kan köpas för $ 50 eller mindre. Liksom alla datorsystem består mikrodatorer av flera grundläggande delsystem: Central Processor (CPU): En CPU utför de instruktioner som tillhandahålls av ett program. CPU kan göra alla nödvändiga åtgärder för ...

Elektronik Komponenter: Motstånd Power Ratings - dummies

Elektronik Komponenter: Motstånd Power Ratings - dummies

Motstånd är som bromsar för ström som strömmar genom en elektronisk krets. Liksom bromsarna i din bil arbetar motstånd genom att använda den elektriska ekvivalenten av friktion till strömningsströmmen. Denna friktion hämmar strömmen av ström genom att absorbera en del av strömens energi och sprida den i form av värme. När du använder en ...

Redaktörens val

Hur man konfigurerar SSH för din webbplats - dummies

Hur man konfigurerar SSH för din webbplats - dummies

Secure shell (SSH) är ett nätverksprotokoll för att tillåta säker datakommunikation. I själva verket är det som en webbhotell bakdörr i ditt system - en som borde förbli låst om du inte behöver använda den. Naturligtvis är exakt hur du konfigurerar SSH olika på alla typer av webbhotell, men som ...

Hur man skapar en ny webbhotell - dummies

Hur man skapar en ny webbhotell - dummies

Du måste skapa din databas inom din webbhotellskontrollpanel och skapa en speciell databasanvändare som har behörighet att komma åt den. När du installerar en webbapplikation eller ett skript som kräver en databas från kontrollpanelen, kommer installationsprogrammet sannolikt att kunna skapa en egen databas och användare. ...

Hur man skapar nya konton på webbhotell med FTP-dummies

Hur man skapar nya konton på webbhotell med FTP-dummies

Du kanske vill att skapa ytterligare konton på en webbhanterad ftp av olika orsaker. Detta möjliggör viss mångsidighet och kontroll för att förbättra din företagsfunktionalitet. Några skäl till att lägga till ett konto är följande: Du vill ge någon annan FTP-åtkomst till din webbplats. Du vill ge någon FTP-åtkomst ...