Innehållsförteckning:
- Uppgift: Samla data
- Den leveransbara för den här uppgiften är databeskrivningsrapporten. Här beskrivs källa och format för data, antal fall, nummer och beskrivningar av fälten och all annan allmän information som kan vara viktig. Du gör också en kort utvärdering av dataens lämplighet för dina data-mining mål. Kontrollera till exempel att uppgifterna innehåller de fält som du förväntar dig och behöver vara där och tillräckliga fall för analys.
- Förtrogen med data.
- De data du behöver existerar inte. (Har den aldrig existerat, eller har den blivit kasserad? Kan den här data samlas in och sparas för framtida användning?)
Video: Fas2 2024
I den andra fasen av processprocessen Cross Process Industry Process Process Processing (CRISP-DM) erhåller du data och verifierar att det passar dina behov. Du kan identifiera problem som gör att du återvänder till affärsförståelse och reviderar din plan. Du kan till och med upptäcka brister i din affärsförståelse, en annan anledning att ompröva mål och planer.
Datafondensfasen innehåller fyra uppgifter . Dessa är
-
Samla data
-
Beskriv data
-
Utforska data
-
Verifiera datakvaliteten
Uppgift: Samla data
Du har precis satt mål och definierat en datautvinningsplan. Varje steg i planen beror på att ha rätt data. Bättre se till att du verkligen har den data!
Bara en leveransbar existerar för denna uppgift: den första datainsamlingsrapporten. I din rapport måste du verifiera att du har förvärvat data eller åtminstone fått tillgång till data, testat dataåtkomstprocessen och verifierat att uppgifterna finns. Du måste också ladda data till alla verktyg som du ska använda för datautvinning för att verifiera att verktygen är kompatibla med data.
Du kan göra mycket arbete för att samla de data du behöver innan du kan skriva den här rapporten. Först ska du göra din plan enligt följande:
-
Översiktskrav: Skapa en lista över vilka typer av data som behövs för att hantera data miningmålen. Expandera listan med detaljer som önskat tidsintervall och dataformat.
-
Verifiera tillgängligheten av data: Bekräfta att de nödvändiga uppgifterna finns och att du kan använda den. Om några av de uppgifter du vill ha är otillgängliga bestäm du hur du ska ta itu med det här problemet. Tänk på alternativ som
-
Att sätta in nya data
-
Definiera urvalskriterier:
-
Identifiera specifika datakällor (databaser, filer, dokument, och så vidare.) Du kommer att använda. Inom dessa källor anger du tabeller, fält och fallintervall som är relevanta för projektet.
När du har gått igenom dessa steg måste du faktiskt skaffa data. Vid det här skedet importerar du data till datautvinningsplattformen du ska använda för projektet för att bekräfta att det är möjligt att göra det och att du förstår processen. Under det här försöket kan du upptäcka begränsningar av programvara (eller hårdvara) som du inte hade förväntat dig, till exempel Begränsningar av antal fall eller fält eller hur mycket minne du kan använda
oförmåga att läsa dataformat av dina källor
-
Svårighetshantering vid felaktigheter i data (till exempel kan du stöta på produkter som inte kommer att importera eller analysera ofullständiga dataset)
-
Slutligen sammanfatta samlingsprocessen i en rapport.Rapporten ska beskriva dina krav och förklara i detalj hur exakt vilka uppgifter du samlat och vilka källor. Här bekräftar du att du faktiskt har erhållit uppgifterna och att den är kompatibel med din data-miningplattform. Om du har stött på problem kommer du att förklara vad de var och hur du har adresserat dem (med alternativa källor, revidera planer, ändra format).
-
Den leveransbara för den här uppgiften är bara en enkel rapport, men det arbete du behöver göra innan du kan skriva den rapporten kommer inte vara enkelt! Datatillgång kan vara en av de mest utmanande och frustrerande delarna av data-miningprocessen, både med tekniska och affärsmässiga utmaningar.
Uppgift: Beskriv data
Nu när du har data, klargör en allmän beskrivning av vad du har.
Den leveransbara för den här uppgiften är databeskrivningsrapporten. Här beskrivs källa och format för data, antal fall, nummer och beskrivningar av fälten och all annan allmän information som kan vara viktig. Du gör också en kort utvärdering av dataens lämplighet för dina data-mining mål. Kontrollera till exempel att uppgifterna innehåller de fält som du förväntar dig och behöver vara där och tillräckliga fall för analys.
Uppgift: Utforska data
I den här uppgiften undersöker du uppgifterna närmare. För varje variabel tittar du på värdena och deras distributioner. Du använder enkel dataprofilering och grundläggande statistiska tekniker för ytterligare kontroller i data. Datautforskning stöder flera ändamål:
Förtrogen med data.
Spot tecken på datakvalitetsproblem.
-
Ställ in scenen för datapreparationssteg.
-
Den leveransbara för denna uppgift är datautforskningsrapporten. Det är platsen att dokumentera hypoteser eller initiala fynd som du har utvecklat under datautforskning. Denna rapport bör innehålla en mer detaljerad beskrivning av uppgifterna än databeskrivningsrapporten, inklusive distributioner, sammanfattningar och eventuella tecken på problem med datakvaliteten.
-
Uppgift: Verifiering av datakvalitet
Du har data och du har granskat det, och nu måste du avgöra om det är tillräckligt bra för att stödja dina mål. Du kommer ofta att ha något kvalitetsproblem att adressera men ändå kunna gå vidare, men ibland är datakvaliteten så dålig att den inte kan stödja din plan och du måste leta efter alternativ. Några av de värsta dataproblemen skulle innehålla
De data du behöver existerar inte. (Har den aldrig existerat, eller har den blivit kasserad? Kan den här data samlas in och sparas för framtida användning?)
Det finns, men du kan inte få det. (Kan denna begränsning övervinnas?)
-
Du hittar svåra problem med datakvaliteten (många fel eller felaktiga värden som inte kan korrigeras).
-
Den leveransbara för den här uppgiften är datakvalitetsrapporten. Detta sammanfattar de data du har, mindre och stora kvalitetsproblem som du har hittat, och möjliga lösningar för kvalitetsproblem eller alternativ (t.ex. användning av en alternativ dataförbrukning).Om du står inför några allvarliga problem med datakvaliteten och inte kan identifiera en lämplig lösning, kan du behöva rekommendera ompröva mål eller planer.