Hem Personliga finanser Fas 2 i CRISP-DM-processmodellen: Dataförståelse - dummies

Fas 2 i CRISP-DM-processmodellen: Dataförståelse - dummies

Innehållsförteckning:

Video: Fas2 2024

Video: Fas2 2024
Anonim

I den andra fasen av processprocessen Cross Process Industry Process Process Processing (CRISP-DM) erhåller du data och verifierar att det passar dina behov. Du kan identifiera problem som gör att du återvänder till affärsförståelse och reviderar din plan. Du kan till och med upptäcka brister i din affärsförståelse, en annan anledning att ompröva mål och planer.

Datafondensfasen innehåller fyra uppgifter . Dessa är

  • Samla data

  • Beskriv data

  • Utforska data

  • Verifiera datakvaliteten

Uppgift: Samla data

Du har precis satt mål och definierat en datautvinningsplan. Varje steg i planen beror på att ha rätt data. Bättre se till att du verkligen har den data!

Bara en leveransbar existerar för denna uppgift: den första datainsamlingsrapporten. I din rapport måste du verifiera att du har förvärvat data eller åtminstone fått tillgång till data, testat dataåtkomstprocessen och verifierat att uppgifterna finns. Du måste också ladda data till alla verktyg som du ska använda för datautvinning för att verifiera att verktygen är kompatibla med data.

Du kan göra mycket arbete för att samla de data du behöver innan du kan skriva den här rapporten. Först ska du göra din plan enligt följande:

  • Översiktskrav: Skapa en lista över vilka typer av data som behövs för att hantera data miningmålen. Expandera listan med detaljer som önskat tidsintervall och dataformat.

  • Verifiera tillgängligheten av data: Bekräfta att de nödvändiga uppgifterna finns och att du kan använda den. Om några av de uppgifter du vill ha är otillgängliga bestäm du hur du ska ta itu med det här problemet. Tänk på alternativ som

  • Att sätta in nya data

  • Definiera urvalskriterier:

  • Identifiera specifika datakällor (databaser, filer, dokument, och så vidare.) Du kommer att använda. Inom dessa källor anger du tabeller, fält och fallintervall som är relevanta för projektet.

  • När du har gått igenom dessa steg måste du faktiskt skaffa data. Vid det här skedet importerar du data till datautvinningsplattformen du ska använda för projektet för att bekräfta att det är möjligt att göra det och att du förstår processen. Under det här försöket kan du upptäcka begränsningar av programvara (eller hårdvara) som du inte hade förväntat dig, till exempel Begränsningar av antal fall eller fält eller hur mycket minne du kan använda

  • oförmåga att läsa dataformat av dina källor

    • Svårighetshantering vid felaktigheter i data (till exempel kan du stöta på produkter som inte kommer att importera eller analysera ofullständiga dataset)

    • Slutligen sammanfatta samlingsprocessen i en rapport.Rapporten ska beskriva dina krav och förklara i detalj hur exakt vilka uppgifter du samlat och vilka källor. Här bekräftar du att du faktiskt har erhållit uppgifterna och att den är kompatibel med din data-miningplattform. Om du har stött på problem kommer du att förklara vad de var och hur du har adresserat dem (med alternativa källor, revidera planer, ändra format).

    • Den leveransbara för den här uppgiften är bara en enkel rapport, men det arbete du behöver göra innan du kan skriva den rapporten kommer inte vara enkelt! Datatillgång kan vara en av de mest utmanande och frustrerande delarna av data-miningprocessen, både med tekniska och affärsmässiga utmaningar.

    Uppgift: Beskriv data

    Nu när du har data, klargör en allmän beskrivning av vad du har.

    Den leveransbara för den här uppgiften är databeskrivningsrapporten. Här beskrivs källa och format för data, antal fall, nummer och beskrivningar av fälten och all annan allmän information som kan vara viktig. Du gör också en kort utvärdering av dataens lämplighet för dina data-mining mål. Kontrollera till exempel att uppgifterna innehåller de fält som du förväntar dig och behöver vara där och tillräckliga fall för analys.

    Uppgift: Utforska data

    I den här uppgiften undersöker du uppgifterna närmare. För varje variabel tittar du på värdena och deras distributioner. Du använder enkel dataprofilering och grundläggande statistiska tekniker för ytterligare kontroller i data. Datautforskning stöder flera ändamål:

    Förtrogen med data.

    Spot tecken på datakvalitetsproblem.

    • Ställ in scenen för datapreparationssteg.

    • Den leveransbara för denna uppgift är datautforskningsrapporten. Det är platsen att dokumentera hypoteser eller initiala fynd som du har utvecklat under datautforskning. Denna rapport bör innehålla en mer detaljerad beskrivning av uppgifterna än databeskrivningsrapporten, inklusive distributioner, sammanfattningar och eventuella tecken på problem med datakvaliteten.

    • Uppgift: Verifiering av datakvalitet

    Du har data och du har granskat det, och nu måste du avgöra om det är tillräckligt bra för att stödja dina mål. Du kommer ofta att ha något kvalitetsproblem att adressera men ändå kunna gå vidare, men ibland är datakvaliteten så dålig att den inte kan stödja din plan och du måste leta efter alternativ. Några av de värsta dataproblemen skulle innehålla

    De data du behöver existerar inte. (Har den aldrig existerat, eller har den blivit kasserad? Kan den här data samlas in och sparas för framtida användning?)

    Det finns, men du kan inte få det. (Kan denna begränsning övervinnas?)

    • Du hittar svåra problem med datakvaliteten (många fel eller felaktiga värden som inte kan korrigeras).

    • Den leveransbara för den här uppgiften är datakvalitetsrapporten. Detta sammanfattar de data du har, mindre och stora kvalitetsproblem som du har hittat, och möjliga lösningar för kvalitetsproblem eller alternativ (t.ex. användning av en alternativ dataförbrukning).Om du står inför några allvarliga problem med datakvaliteten och inte kan identifiera en lämplig lösning, kan du behöva rekommendera ompröva mål eller planer.

    Fas 2 i CRISP-DM-processmodellen: Dataförståelse - dummies

    Redaktörens val

    Nätverksenheter och tjänster Översikt för certifikatprov på CCENT-dummies

    Nätverksenheter och tjänster Översikt för certifikatprov på CCENT-dummies

    Du kan vara säker på att få några frågor om certifieringsexamen som testar din kunskap om typer av enheter och olika nätverkstjänster. Nedan följer några viktiga punkter att komma ihåg om enheter och tjänster: Nätverksenheter Hubb: Ett nav är en lag 1-enhet som används för att ansluta system tillsammans. När ...

    OSI-modell för CCENT-certifieringsexamen - dummies

    OSI-modell för CCENT-certifieringsexamen - dummies

    Certifieringen certifierar dig kraftigt på OSI-modellen och olika protokoll och enheter som körs på varje lager av OSI-modellen. I följande tabell granskas OSI-modellen genom att ge dig en beskrivning av varje lager och exempel på protokoll och enheter som körs i varje lager. Layer Beskrivning Exempel 7. Applikation ...

    OSI-modell för Cisco ICND1-certifieringsexamen - dummies

    OSI-modell för Cisco ICND1-certifieringsexamen - dummies

    Cisco ICND1-certifieringsexamen testa dig kraftigt på OSI modell och de olika protokoll och enheter som körs i varje lager av OSI-modellen. Följande granskar OSI-modellen genom att ge dig en beskrivning av varje lager och exempel på protokoll och enheter som körs i varje lager. Layer Beskrivning Exempel 7. Applikation ...

    Redaktörens val

    Hur man skalar på skifferelement i kantfilm - dummies

    Hur man skalar på skifferelement i kantfilm - dummies

    Skalar ett element i Adobe Edge Animate betyder i huvudsak att du kan ändra storleken på ett element samtidigt som dess proportioner hålls konsekventa om du vill. Du kan: Skalelement med verktyget Transform Skalaelement från Egenskaper-panelen Skalning med verktyget Transform Om du föredrar att använda en klicka-och-dra-metod för skalering ...

    Hur man arbetar med mallar i Adobe Edge Animate - dummies

    Hur man arbetar med mallar i Adobe Edge Animate - dummies

    Mallar introducerades i Edge Animate 2. 0. Denna funktion tar bort nödvändigheten att återuppfinna hjulet varje gång du vill starta en ny komposition. Visst kan du alltid starta en ny komposition från en sparad fil, men Mallar gör att du kan starta ett nytt projekt som redan innehåller attribut och element som du vill ha.

    Keyframes Modes in Edge Animation - dummies

    Keyframes Modes in Edge Animation - dummies

    Keyframe-verktyg i Edge Animate finns till höger om Play-kontrollerna. För att skapa nyckelfiler automatiskt måste du först aktivera nyckelbilder genom att klicka på den röda stoppklockans ikon. Som standard, när du startar en ny animering, är Stopwatch rött men har gråa linjer som löper genom det (som visat). Här är standardstatus för ...

    Redaktörens val

    Hur man tolkar figurativt språk för GED RLA-dummiesna

    Hur man tolkar figurativt språk för GED RLA-dummiesna

    Författare använder språk antingen bokstavligt eller figurativt . GED Reasoning Through Language Arts testet kommer att ha några frågor för att testa din förmåga att identifiera skillnaden. En NASA-vetenskapsman kan beskriva en asteroid väldigt bokstavligt: ​​består huvudsakligen av vatten, blandat med vissa stenar och mindre fasta fragment. Eller kan han eller hon skriva figurativt och beskriva ...

    Hur (och var) ska schemalägga för att ta GED-dummiesna

    Hur (och var) ska schemalägga för att ta GED-dummiesna

    För att ta GED test, schemalägger du det baserat på tillgängliga testdatum. Varje stat eller lokalt testcenter ställer in sitt eget schema för GED-testet, vilket innebär att ditt tillstånd bestämmer hur och när du kan ta varje avsnitt av testet. Det bestämmer också hur ofta du kan återta en misslyckad ...

    Hur man förbereder sig på GED RLA Extended Response - dummies

    Hur man förbereder sig på GED RLA Extended Response - dummies

    Uppsats för utvidgad respons på GED Reasoning Through Language Arts-testet kräver några mycket specifika färdigheter, allt från grammatik och korrekt språkanvändning till förståelse och analysförmåga. Om du någonsin har haft ett argument om vem som har det bästa laget eller vilken arbetsgivare är bättre, vet du redan hur man bedömer argument och svarar. ...