Siktar ut de data du behöver - dummies - Personliga finanser 2025

Video: ShotKam: Answering Your Questions & Full Overview Of The Camera 2025

När du är datautvinning, kommer du ibland att ha mer data än vad du behöver för ett visst projekt. Så här parar du bara till vad du behöver.

Begränsa fälten

När du har många variabler i en dataset kan det vara svårt att hitta eller se de som intresserar dig. Och om dina dataset är stora, och du inte behöver alla variablerna, drar extrafunktionerna i onödan. Så, ibland behöver du behålla vissa variabler och släppa andra. Figuren visar ett exempel i KNIME, där rätt verktyg kallas kolumnfilter.

Ett exempel på inställningen för det här verktyget visas i följande bild.

För att begränsa fälten, leta efter ett verktyg för variabelval i din data mining applikation; Dessa finns med andra verktyg för dataprofilering. Som med andra data-miningverktyg varierar namnen från produkt till produkt. Leta efter variationer på orden kolumn, variabel, eller , och urval eller filtrering.

Val av relevanta fall

Fodral med ofullständig data kan filtreras bort innan du bygger modellen. Att ta bort ofullständiga fall är ett vanligt exempel på dataval eller filtrering.

Men hur skulle du välja endast relevanta fall för varje segment som intresserar dig? Du skulle använda ett datavalningsverktyg.

Följande bild visar ett datavalverktyg i en annan data-miningapplikation.

Nästa bild visar hur du ställer in verktyget för en annan typ av val, den här baserad på värdet på en variabel.

Det är vanligt att använda denna typ av dataval, och vissa applikationer ger alla möjliga inbyggda funktioner för att hjälpa dig att definiera exakt de fall du vill ha. Den här har några exceptionella funktioner; Den visar sammanfattande statistik för variabeln och berättar exakt hur många fall som uppfyller urvalskriterierna.

De flesta applikationer för datautvinning har verktyg för att välja bara de fall du behöver. Se i menyerna (eller sök) för välj eller filter.

Provtagning

En populär uppfattning idag är att mer data är bättre data. Det här är inte en ny idé. Data-mining applikationer har alltid utvecklats för att arbeta med stora mängder data. Även namnet "data mining" föreslår stora mängder. Men ofta med att arbeta med ett urval av dina data kommer du att ge information som är lika användbar, göra ditt arbete enklare och spara tid och resurser.

Provtagning spelar viktiga roller i datautvinning. Om data är balanserade betyder det att modellen används lika många fall i var och en av grupperna som jämförs (i det exemplet var grupperna egenskaper som ändrade händer och egenskaper som inte gjorde det), även om en grupp hade många fler fall än andra i de ursprungliga uppgifterna.

Senare delades data, delades in i en delmängd som användes för träning av en modell och en annan för testning. Att bara använda ett urval av data i parallella koordinater kan göra det enklare att visa och tolka. (Scatterplots med tusentals poäng kan vara omöjligt svårt att läsa!) Kanske viktigast av allt, samplingen minskar bara mängden data, så sakerna går fortare.