Hem Personliga finanser Fas 3 i CRISP-DM Process Model: Data Preparation - dummies

Fas 3 i CRISP-DM Process Model: Data Preparation - dummies

Innehållsförteckning:

Video: Data Science Methodology 101 - Business Understanding Concepts and Case Study 2024

Video: Data Science Methodology 101 - Business Understanding Concepts and Case Study 2024
Anonim

Datavinnare spenderar merparten av sin tid i den tredje fasen av processprocessen för processindustrin för processindustrin: CRISP-DM De flesta data som användes för data mining samlades ursprungligen och bevarades för andra ändamål och behöver viss förfining innan den är redo att användas för modellering.

Databeredningsfasen innehåller fem uppgifter . Dessa är

  • Val av data

  • Rengöringsdata

  • Konstruera data

  • Integrera data

  • Formatera data

Steg-för-steg-guiden CRISP-DM nämner inte explicit dataset som leveranser för var och en av uppgifter förberedande uppgifter, men de dataset hade darn bättre finns och är korrekt arkiverad och dokumenterad. Dataset kommer inte att motsvara en till en med uppgifter, men information om de data som används ska ingå i varje leveransrapport.

Uppgift: Val av data

Nu bestämmer du vilken del av data som du har kommer faktiskt att användas för datautvinning.

Den leveransbara för denna uppgift är grunden för inkludering och uteslutning. I det kommer du att förklara vilka data som kommer att användas, och kommer inte att användas för vidare data-gruvdrift.

Du ska förklara orsakerna till att du inkluderar eller utesluter varje del av data som du har baserat på relevans för dina mål, datakvalitet och tekniska problem - till exempel gränser för antalet fält eller rader som dina verktyg kan hantera eller lämpligheten av dataformaten för dina behov.

Uppgift: Rengöringsdata

Den information du har valt att använda är osannolikt att den är helt ren (felfri). Du kommer att göra ändringar, kanske spåra ner källor för att göra specifika korrigeringar av data, med undantag för vissa fall eller enskilda celler (datauppgifter) eller byta ut vissa data med standardvärden eller ersättningar som valts av en mer sofistikerad modelleringsteknik. Du kan välja att bara använda delmängder av data för alla eller några av dina data-mining arbete.

Den leveransbara för den här uppgiften är datarengöringsrapporten, vilken dokumenterar, i skrämmande detaljer, alla beslut och åtgärder som används för att rengöra dina data. Denna rapport ska täcka och referera till varje problem med datakvaliteten som identifierades i verifiera datakvalitetsuppgiften i processens dataförståelsefas. Du rapporterar bör också ta itu med den eventuella inverkan på resultat av de val du har gjort under datav rengöring.

Uppgift: Konstruera data

Du kan behöva härleda några nya fält (till exempel använda leveransdatum och datum då kund beställde för att beräkna hur länge kunden väntade på att få order), aggregerad data, eller på annat sätt skapa en ny dataform.

Leveranser för denna uppgift innehåller två rapporter:

  • Avledade attribut: En rapport som beskriver vilka nya fält (kolumner) du har byggt, hur du gjorde det och varför.

  • Genererade poster: En rapport som beskriver vilka nya fall (rader) du har byggt, hur du gjorde det och varför.

Även om sammanslagningsdata och formatdatauppgifter listas sist i denna fas av processen, kommer de inte alltid sist, och de får inte komma upp en gång. Det kan hända att du måste göra några sammanslagningar eller omformatering tidigt i databehandlingsfasen.

Uppgift: Integrera data

Dina data kan nu finnas i flera olika dataset. Du måste sammanfoga några eller alla dessa olika dataset tillsammans för att göra dig redo för modelleringsfasen.

Den leveransbara för denna uppgift är den sammanslagna data. (Och det skulle inte skada att dokumentera hur sammanslagningen utfördes.)

Uppgift: Formatering av data

Data kommer ofta till dig i andra format än de som är mest lämpliga för modellering. (Formatändringar drivs vanligtvis av utformningen av dina verktyg.) Så konvertera dessa format nu.

Den leveransbara för den här uppgiften är din omformaterade data. (Och en liten rapport som beskriver de ändringar du har gjort skulle vara en smart sak att inkludera.)

Du bör avsluta databeredningsfasen i data-miningprocessen med en dataset redo för modellering och en grundlig rapport som beskriver datasetet.

Fas 3 i CRISP-DM Process Model: Data Preparation - dummies

Redaktörens val

Nätverksenheter och tjänster Översikt för certifikatprov på CCENT-dummies

Nätverksenheter och tjänster Översikt för certifikatprov på CCENT-dummies

Du kan vara säker på att få några frågor om certifieringsexamen som testar din kunskap om typer av enheter och olika nätverkstjänster. Nedan följer några viktiga punkter att komma ihåg om enheter och tjänster: Nätverksenheter Hubb: Ett nav är en lag 1-enhet som används för att ansluta system tillsammans. När ...

OSI-modell för CCENT-certifieringsexamen - dummies

OSI-modell för CCENT-certifieringsexamen - dummies

Certifieringen certifierar dig kraftigt på OSI-modellen och olika protokoll och enheter som körs på varje lager av OSI-modellen. I följande tabell granskas OSI-modellen genom att ge dig en beskrivning av varje lager och exempel på protokoll och enheter som körs i varje lager. Layer Beskrivning Exempel 7. Applikation ...

OSI-modell för Cisco ICND1-certifieringsexamen - dummies

OSI-modell för Cisco ICND1-certifieringsexamen - dummies

Cisco ICND1-certifieringsexamen testa dig kraftigt på OSI modell och de olika protokoll och enheter som körs i varje lager av OSI-modellen. Följande granskar OSI-modellen genom att ge dig en beskrivning av varje lager och exempel på protokoll och enheter som körs i varje lager. Layer Beskrivning Exempel 7. Applikation ...

Redaktörens val

Hur man skalar på skifferelement i kantfilm - dummies

Hur man skalar på skifferelement i kantfilm - dummies

Skalar ett element i Adobe Edge Animate betyder i huvudsak att du kan ändra storleken på ett element samtidigt som dess proportioner hålls konsekventa om du vill. Du kan: Skalelement med verktyget Transform Skalaelement från Egenskaper-panelen Skalning med verktyget Transform Om du föredrar att använda en klicka-och-dra-metod för skalering ...

Hur man arbetar med mallar i Adobe Edge Animate - dummies

Hur man arbetar med mallar i Adobe Edge Animate - dummies

Mallar introducerades i Edge Animate 2. 0. Denna funktion tar bort nödvändigheten att återuppfinna hjulet varje gång du vill starta en ny komposition. Visst kan du alltid starta en ny komposition från en sparad fil, men Mallar gör att du kan starta ett nytt projekt som redan innehåller attribut och element som du vill ha.

Keyframes Modes in Edge Animation - dummies

Keyframes Modes in Edge Animation - dummies

Keyframe-verktyg i Edge Animate finns till höger om Play-kontrollerna. För att skapa nyckelfiler automatiskt måste du först aktivera nyckelbilder genom att klicka på den röda stoppklockans ikon. Som standard, när du startar en ny animering, är Stopwatch rött men har gråa linjer som löper genom det (som visat). Här är standardstatus för ...

Redaktörens val

Hur man tolkar figurativt språk för GED RLA-dummiesna

Hur man tolkar figurativt språk för GED RLA-dummiesna

Författare använder språk antingen bokstavligt eller figurativt . GED Reasoning Through Language Arts testet kommer att ha några frågor för att testa din förmåga att identifiera skillnaden. En NASA-vetenskapsman kan beskriva en asteroid väldigt bokstavligt: ​​består huvudsakligen av vatten, blandat med vissa stenar och mindre fasta fragment. Eller kan han eller hon skriva figurativt och beskriva ...

Hur (och var) ska schemalägga för att ta GED-dummiesna

Hur (och var) ska schemalägga för att ta GED-dummiesna

För att ta GED test, schemalägger du det baserat på tillgängliga testdatum. Varje stat eller lokalt testcenter ställer in sitt eget schema för GED-testet, vilket innebär att ditt tillstånd bestämmer hur och när du kan ta varje avsnitt av testet. Det bestämmer också hur ofta du kan återta en misslyckad ...

Hur man förbereder sig på GED RLA Extended Response - dummies

Hur man förbereder sig på GED RLA Extended Response - dummies

Uppsats för utvidgad respons på GED Reasoning Through Language Arts-testet kräver några mycket specifika färdigheter, allt från grammatik och korrekt språkanvändning till förståelse och analysförmåga. Om du någonsin har haft ett argument om vem som har det bästa laget eller vilken arbetsgivare är bättre, vet du redan hur man bedömer argument och svarar. ...