Innehållsförteckning:
- Uppgift: Val av data
- Uppgift: Rengöringsdata
- Uppgift: Konstruera data
- Uppgift: Integrera data
- Uppgift: Formatering av data
Video: Data Science Methodology 101 - Business Understanding Concepts and Case Study 2024
Datavinnare spenderar merparten av sin tid i den tredje fasen av processprocessen för processindustrin för processindustrin: CRISP-DM De flesta data som användes för data mining samlades ursprungligen och bevarades för andra ändamål och behöver viss förfining innan den är redo att användas för modellering.
Databeredningsfasen innehåller fem uppgifter . Dessa är
-
Val av data
-
Rengöringsdata
-
Konstruera data
-
Integrera data
-
Formatera data
Steg-för-steg-guiden CRISP-DM nämner inte explicit dataset som leveranser för var och en av uppgifter förberedande uppgifter, men de dataset hade darn bättre finns och är korrekt arkiverad och dokumenterad. Dataset kommer inte att motsvara en till en med uppgifter, men information om de data som används ska ingå i varje leveransrapport.
Uppgift: Val av data
Nu bestämmer du vilken del av data som du har kommer faktiskt att användas för datautvinning.
Den leveransbara för denna uppgift är grunden för inkludering och uteslutning. I det kommer du att förklara vilka data som kommer att användas, och kommer inte att användas för vidare data-gruvdrift.
Du ska förklara orsakerna till att du inkluderar eller utesluter varje del av data som du har baserat på relevans för dina mål, datakvalitet och tekniska problem - till exempel gränser för antalet fält eller rader som dina verktyg kan hantera eller lämpligheten av dataformaten för dina behov.
Uppgift: Rengöringsdata
Den information du har valt att använda är osannolikt att den är helt ren (felfri). Du kommer att göra ändringar, kanske spåra ner källor för att göra specifika korrigeringar av data, med undantag för vissa fall eller enskilda celler (datauppgifter) eller byta ut vissa data med standardvärden eller ersättningar som valts av en mer sofistikerad modelleringsteknik. Du kan välja att bara använda delmängder av data för alla eller några av dina data-mining arbete.
Den leveransbara för den här uppgiften är datarengöringsrapporten, vilken dokumenterar, i skrämmande detaljer, alla beslut och åtgärder som används för att rengöra dina data. Denna rapport ska täcka och referera till varje problem med datakvaliteten som identifierades i verifiera datakvalitetsuppgiften i processens dataförståelsefas. Du rapporterar bör också ta itu med den eventuella inverkan på resultat av de val du har gjort under datav rengöring.
Uppgift: Konstruera data
Du kan behöva härleda några nya fält (till exempel använda leveransdatum och datum då kund beställde för att beräkna hur länge kunden väntade på att få order), aggregerad data, eller på annat sätt skapa en ny dataform.
Leveranser för denna uppgift innehåller två rapporter:
-
Avledade attribut: En rapport som beskriver vilka nya fält (kolumner) du har byggt, hur du gjorde det och varför.
-
Genererade poster: En rapport som beskriver vilka nya fall (rader) du har byggt, hur du gjorde det och varför.
Även om sammanslagningsdata och formatdatauppgifter listas sist i denna fas av processen, kommer de inte alltid sist, och de får inte komma upp en gång. Det kan hända att du måste göra några sammanslagningar eller omformatering tidigt i databehandlingsfasen.
Uppgift: Integrera data
Dina data kan nu finnas i flera olika dataset. Du måste sammanfoga några eller alla dessa olika dataset tillsammans för att göra dig redo för modelleringsfasen.
Den leveransbara för denna uppgift är den sammanslagna data. (Och det skulle inte skada att dokumentera hur sammanslagningen utfördes.)
Uppgift: Formatering av data
Data kommer ofta till dig i andra format än de som är mest lämpliga för modellering. (Formatändringar drivs vanligtvis av utformningen av dina verktyg.) Så konvertera dessa format nu.
Den leveransbara för den här uppgiften är din omformaterade data. (Och en liten rapport som beskriver de ändringar du har gjort skulle vara en smart sak att inkludera.)
Du bör avsluta databeredningsfasen i data-miningprocessen med en dataset redo för modellering och en grundlig rapport som beskriver datasetet.