Hem Personliga finanser Fas 2 i CRISP-DM-processmodellen: Dataförståelse - dummies

Fas 2 i CRISP-DM-processmodellen: Dataförståelse - dummies

Innehållsförteckning:

Video: Fas2 2025

Video: Fas2 2025
Anonim

I den andra fasen av processprocessen Cross Process Industry Process Process Processing (CRISP-DM) erhåller du data och verifierar att det passar dina behov. Du kan identifiera problem som gör att du återvänder till affärsförståelse och reviderar din plan. Du kan till och med upptäcka brister i din affärsförståelse, en annan anledning att ompröva mål och planer.

Datafondensfasen innehåller fyra uppgifter . Dessa är

  • Samla data

  • Beskriv data

  • Utforska data

  • Verifiera datakvaliteten

Uppgift: Samla data

Du har precis satt mål och definierat en datautvinningsplan. Varje steg i planen beror på att ha rätt data. Bättre se till att du verkligen har den data!

Bara en leveransbar existerar för denna uppgift: den första datainsamlingsrapporten. I din rapport måste du verifiera att du har förvärvat data eller åtminstone fått tillgång till data, testat dataåtkomstprocessen och verifierat att uppgifterna finns. Du måste också ladda data till alla verktyg som du ska använda för datautvinning för att verifiera att verktygen är kompatibla med data.

Du kan göra mycket arbete för att samla de data du behöver innan du kan skriva den här rapporten. Först ska du göra din plan enligt följande:

  • Översiktskrav: Skapa en lista över vilka typer av data som behövs för att hantera data miningmålen. Expandera listan med detaljer som önskat tidsintervall och dataformat.

  • Verifiera tillgängligheten av data: Bekräfta att de nödvändiga uppgifterna finns och att du kan använda den. Om några av de uppgifter du vill ha är otillgängliga bestäm du hur du ska ta itu med det här problemet. Tänk på alternativ som

  • Att sätta in nya data

  • Definiera urvalskriterier:

  • Identifiera specifika datakällor (databaser, filer, dokument, och så vidare.) Du kommer att använda. Inom dessa källor anger du tabeller, fält och fallintervall som är relevanta för projektet.

  • När du har gått igenom dessa steg måste du faktiskt skaffa data. Vid det här skedet importerar du data till datautvinningsplattformen du ska använda för projektet för att bekräfta att det är möjligt att göra det och att du förstår processen. Under det här försöket kan du upptäcka begränsningar av programvara (eller hårdvara) som du inte hade förväntat dig, till exempel Begränsningar av antal fall eller fält eller hur mycket minne du kan använda

  • oförmåga att läsa dataformat av dina källor

    • Svårighetshantering vid felaktigheter i data (till exempel kan du stöta på produkter som inte kommer att importera eller analysera ofullständiga dataset)

    • Slutligen sammanfatta samlingsprocessen i en rapport.Rapporten ska beskriva dina krav och förklara i detalj hur exakt vilka uppgifter du samlat och vilka källor. Här bekräftar du att du faktiskt har erhållit uppgifterna och att den är kompatibel med din data-miningplattform. Om du har stött på problem kommer du att förklara vad de var och hur du har adresserat dem (med alternativa källor, revidera planer, ändra format).

    • Den leveransbara för den här uppgiften är bara en enkel rapport, men det arbete du behöver göra innan du kan skriva den rapporten kommer inte vara enkelt! Datatillgång kan vara en av de mest utmanande och frustrerande delarna av data-miningprocessen, både med tekniska och affärsmässiga utmaningar.

    Uppgift: Beskriv data

    Nu när du har data, klargör en allmän beskrivning av vad du har.

    Den leveransbara för den här uppgiften är databeskrivningsrapporten. Här beskrivs källa och format för data, antal fall, nummer och beskrivningar av fälten och all annan allmän information som kan vara viktig. Du gör också en kort utvärdering av dataens lämplighet för dina data-mining mål. Kontrollera till exempel att uppgifterna innehåller de fält som du förväntar dig och behöver vara där och tillräckliga fall för analys.

    Uppgift: Utforska data

    I den här uppgiften undersöker du uppgifterna närmare. För varje variabel tittar du på värdena och deras distributioner. Du använder enkel dataprofilering och grundläggande statistiska tekniker för ytterligare kontroller i data. Datautforskning stöder flera ändamål:

    Förtrogen med data.

    Spot tecken på datakvalitetsproblem.

    • Ställ in scenen för datapreparationssteg.

    • Den leveransbara för denna uppgift är datautforskningsrapporten. Det är platsen att dokumentera hypoteser eller initiala fynd som du har utvecklat under datautforskning. Denna rapport bör innehålla en mer detaljerad beskrivning av uppgifterna än databeskrivningsrapporten, inklusive distributioner, sammanfattningar och eventuella tecken på problem med datakvaliteten.

    • Uppgift: Verifiering av datakvalitet

    Du har data och du har granskat det, och nu måste du avgöra om det är tillräckligt bra för att stödja dina mål. Du kommer ofta att ha något kvalitetsproblem att adressera men ändå kunna gå vidare, men ibland är datakvaliteten så dålig att den inte kan stödja din plan och du måste leta efter alternativ. Några av de värsta dataproblemen skulle innehålla

    De data du behöver existerar inte. (Har den aldrig existerat, eller har den blivit kasserad? Kan den här data samlas in och sparas för framtida användning?)

    Det finns, men du kan inte få det. (Kan denna begränsning övervinnas?)

    • Du hittar svåra problem med datakvaliteten (många fel eller felaktiga värden som inte kan korrigeras).

    • Den leveransbara för den här uppgiften är datakvalitetsrapporten. Detta sammanfattar de data du har, mindre och stora kvalitetsproblem som du har hittat, och möjliga lösningar för kvalitetsproblem eller alternativ (t.ex. användning av en alternativ dataförbrukning).Om du står inför några allvarliga problem med datakvaliteten och inte kan identifiera en lämplig lösning, kan du behöva rekommendera ompröva mål eller planer.

    Fas 2 i CRISP-DM-processmodellen: Dataförståelse - dummies

    Redaktörens val

    Vad är en Java-karta? - dummies

    Vad är en Java-karta? - dummies

    Arrays och specialiserade listor gör det möjligt att utföra en fantastisk uppsättning uppgifter med Java. Det finns dock situationer där en Java-applikation behöver något som är mer relaterat till en databas, utan att egentligen ha allt databasbagage (som att behöva köpa en separat applikation). Till exempel kanske du vill kunna ...

    Några få saker om Java Math - dummies

    Några få saker om Java Math - dummies

    Tro det eller inte, datorer - även de mest kraftfulla - Ha vissa begränsningar när det gäller att utföra matematiska beräkningar. Dessa begränsningar är vanligtvis obetydliga, men ibland slår de sig och biter på dig. Här är de saker du behöver se upp för när du gör matte i Java. Helhetsflöde Det grundläggande problemet ...

    Vad är recursion i Java Programmering? - dummies

    Vad är recursion i Java Programmering? - dummies

    Rekursion är en grundläggande programmeringsteknik som du kan använda i Java, där en metod kallar sig för att lösa ett problem. En metod som använder denna teknik är rekursiv. Många programmeringsproblem kan lösas endast genom rekursion, och vissa problem som kan lösas med andra tekniker löses bättre genom rekursion. En av ...

    Redaktörens val

    4 Måste-inkludera i din blogg sidobardesign - dummies

    4 Måste-inkludera i din blogg sidobardesign - dummies

    Din bloggens sidofält är viktig fastighet som bör innehålla de element du vill ha mest. När du utformar din blogg sidofält kan du dra från en nästan oändlig lista över sidospårelement. Genom att välja noggrant vad som ska inkluderas (och vad som inte ska inkluderas) kan du ställa in din blogg från andra.

    5 Användbara Wordpress Plugins - dummies

    5 Användbara Wordpress Plugins - dummies

    Om du bloggar på en självhävd plattform med WordPress-programvara, är det dags att anpassa din blogg med plug-ins - programvara som kan "anslutas" till din befintliga WordPress bloggprogramvara. Plug-ins gör det möjligt för dig att göra allt från funktionsbildspel i dina blogginlägg för att ansluta sociala medier till din webbplats. Här är fem användbara ...

    7 Sätt att erövra Writer's Block som en Blogger - dummies

    7 Sätt att erövra Writer's Block som en Blogger - dummies

    Varje bloggare möter författarens block i ett tid eller annan. Om du är den typ av bloggare som sköter innehåll varje dag, kan författarens block vara stäverande. Kan du inte ta en paus för att få ditt skrivande mojo tillbaka? Prova en (eller flera) av dessa sju sätt att slå författarens block för att få dig tillbaka ...

    Redaktörens val

    10 Stora elektronikkomponentkällor - dummies

    10 Stora elektronikkomponentkällor - dummies

    Letar du efter några bra källor till dina elektroniska delar? Denna lista ger dig några fleråriga favoriter, både inom och utanför Nordamerika. Denna lista är inte uttömmande. Du hittar bokstavligen tusentals specialutbud för ny och begagnad elektronik. Plus, Amazon och eBay ger virtuella marknadsplatser för alla sorters säljare - ...

    Elektronik Basics: Resistance - dummies

    Elektronik Basics: Resistance - dummies

    I elektronikvärlden är motståndet inte meningslöst. Faktum är att motstånd kan vara mycket användbart. Utan motstånd skulle elektronik inte vara möjligt. Elektronik handlar om att manipulera strömmen av ström, och ett av de mest grundläggande sätten att manipulera strömmen är att minska det genom resistans. Utan motstånd strömmar strömmen oreglerad och där ...

    Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

    Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

    För att berätta för BASIC Stamp vad du vill göra i ditt digitala elektronikprojekt måste du programmera det. BASIC Stamp Windows Editor är den programvara som du använder på din dator för att skapa program som kan laddas ner till en BASIC Stamp-mikrokontroller. Denna programvara är tillgänglig gratis från Parallax webbplats. ...