Video: #114 - Ramit Sethis 10 regler för ett rikt liv | Recension av boken "I will teach you to be rich" 2024
Att få rätt perspektiv på datakvaliteten kan vara mycket utmanande i världen av stora data. Med de flesta stora datakällor måste du anta att du arbetar med data som inte är rena. Faktum är att den överväldigande överflöd av till synes slumpmässiga och bortkopplade data i strömmar av sociala mediedata är en av de saker som gör det så användbart för företagen.
Du börjar med att söka petabyter med data utan att veta vad du kan hitta efter att du har sökt efter mönster i data. Du måste acceptera det faktum att mycket brus kommer att finnas i data. Det är bara genom att söka och mönstret matchar att du kommer att kunna hitta några gnistor av sanning mitt ibland några mycket smutsiga data.
Naturligtvis har vissa stora datakällor som data från RFID-taggar eller sensorer bättre etablerade regler än sociala medier. Sensordata ska vara rimligt rena, även om du kan förvänta dig att hitta några fel. Det är alltid ditt ansvar när du analyserar massiva mängder data för att planera för kvalitetsnivån för den data. Du bör följa ett tvåfasigt tillvägagångssätt för datakvaliteten:
Fas 1 : Leta efter mönster i stora data utan att det handlar om datakvalitet.
Fas 2: När du har hittat dina mönster och fastställt resultat som är viktiga för verksamheten, tillämpa samma datakvalitetsstandarder som du tillämpar på dina traditionella datakällor. Du vill undvika att samla in och hantera stora data som inte är viktiga för verksamheten och kan eventuellt korrumpera andra dataelement i Hadoop eller andra stora dataplattformar.
När du börjar integrera resultaten av din stora dataanalys i din affärsprocess, inser att högkvalitativa data är avgörande för att ett företag ska kunna ta bra affärsbeslut. Detta gäller både stora data och traditionella data.
Kvaliteten på data avser egenskaper om data, inklusive konsistens, noggrannhet, tillförlitlighet, fullständighet, aktualitet, rimlighet och validitet. Datakvalitetsprogramvara säkerställer att dataelementen är representerade på samma sätt över olika datalager eller system för att öka datakonsistensen.
Till exempel kan en datalagring använda två rader för en kunds adress och en annan datalagring kan använda en rad. Denna skillnad i hur uppgifterna representeras kan resultera i felaktiga uppgifter om kunder, t.ex. att en kund identifieras som två olika kunder.
Ett företag kan använda dussintals varianter av sitt företagsnamn när det köper produkter.Datakvalitetsprogramvara kan användas för att identifiera alla varianter av företagsnamnet i dina olika datalager och se till att du vet allt som denna kund köper från din verksamhet.
Denna process heter ger en enda bild av kund eller produkt. Datakvalitetsprogrammet matchar data över olika system och rensar eller tar bort överflödiga data. Datakvalitetsprocessen ger verksamheten information som är lättare att använda, tolka och förstå.
Dataprofileringsverktyg används i datakvalitetsprocessen för att hjälpa dig att förstå innehållet, strukturen och skickligheten för dina data. De samlar in information om egenskaperna hos data i en databas eller annan datalagring för att påbörja processen att omvandla data till en mer betrodd form. Verktygen analyserar data för att identifiera fel och inkonsekvenser.
De kan göra justeringar för dessa problem och korrigera fel. Verktygen kontrollerar acceptabla värden, mönster och intervall och hjälper till att identifiera överlappande data. Dataprofileringsprocessen kontrollerar till exempel att se om data förväntas vara alfanumerisk eller numerisk. Verktygen söker även efter beroenden eller för att se hur uppgifterna rör data från andra databaser.
Dataprofileringsverktyg för stora data har en liknande funktion som dataprofileringsverktyg för traditionell data. Data-profileringsverktyg för Hadoop ger dig viktig information om data i Hadoop-kluster. Dessa verktyg kan användas för att leta efter matchningar och ta bort dubbletter. Som ett resultat kan du se till att dina stora data är konsekventa. Hadoopverktyg som HiveQL och Pig Latin kan användas för transformationsprocessen.