Hem Personliga finanser Hur man prioriterar stor datakvalitet - dummies

Hur man prioriterar stor datakvalitet - dummies

Video: #114 - Ramit Sethis 10 regler för ett rikt liv | Recension av boken "I will teach you to be rich" 2025

Video: #114 - Ramit Sethis 10 regler för ett rikt liv | Recension av boken "I will teach you to be rich" 2025
Anonim

Att få rätt perspektiv på datakvaliteten kan vara mycket utmanande i världen av stora data. Med de flesta stora datakällor måste du anta att du arbetar med data som inte är rena. Faktum är att den överväldigande överflöd av till synes slumpmässiga och bortkopplade data i strömmar av sociala mediedata är en av de saker som gör det så användbart för företagen.

Du börjar med att söka petabyter med data utan att veta vad du kan hitta efter att du har sökt efter mönster i data. Du måste acceptera det faktum att mycket brus kommer att finnas i data. Det är bara genom att söka och mönstret matchar att du kommer att kunna hitta några gnistor av sanning mitt ibland några mycket smutsiga data.

Naturligtvis har vissa stora datakällor som data från RFID-taggar eller sensorer bättre etablerade regler än sociala medier. Sensordata ska vara rimligt rena, även om du kan förvänta dig att hitta några fel. Det är alltid ditt ansvar när du analyserar massiva mängder data för att planera för kvalitetsnivån för den data. Du bör följa ett tvåfasigt tillvägagångssätt för datakvaliteten:

Fas 1 : Leta efter mönster i stora data utan att det handlar om datakvalitet.

Fas 2: När du har hittat dina mönster och fastställt resultat som är viktiga för verksamheten, tillämpa samma datakvalitetsstandarder som du tillämpar på dina traditionella datakällor. Du vill undvika att samla in och hantera stora data som inte är viktiga för verksamheten och kan eventuellt korrumpera andra dataelement i Hadoop eller andra stora dataplattformar.

När du börjar integrera resultaten av din stora dataanalys i din affärsprocess, inser att högkvalitativa data är avgörande för att ett företag ska kunna ta bra affärsbeslut. Detta gäller både stora data och traditionella data.

Kvaliteten på data avser egenskaper om data, inklusive konsistens, noggrannhet, tillförlitlighet, fullständighet, aktualitet, rimlighet och validitet. Datakvalitetsprogramvara säkerställer att dataelementen är representerade på samma sätt över olika datalager eller system för att öka datakonsistensen.

Till exempel kan en datalagring använda två rader för en kunds adress och en annan datalagring kan använda en rad. Denna skillnad i hur uppgifterna representeras kan resultera i felaktiga uppgifter om kunder, t.ex. att en kund identifieras som två olika kunder.

Ett företag kan använda dussintals varianter av sitt företagsnamn när det köper produkter.Datakvalitetsprogramvara kan användas för att identifiera alla varianter av företagsnamnet i dina olika datalager och se till att du vet allt som denna kund köper från din verksamhet.

Denna process heter ger en enda bild av kund eller produkt. Datakvalitetsprogrammet matchar data över olika system och rensar eller tar bort överflödiga data. Datakvalitetsprocessen ger verksamheten information som är lättare att använda, tolka och förstå.

Dataprofileringsverktyg används i datakvalitetsprocessen för att hjälpa dig att förstå innehållet, strukturen och skickligheten för dina data. De samlar in information om egenskaperna hos data i en databas eller annan datalagring för att påbörja processen att omvandla data till en mer betrodd form. Verktygen analyserar data för att identifiera fel och inkonsekvenser.

De kan göra justeringar för dessa problem och korrigera fel. Verktygen kontrollerar acceptabla värden, mönster och intervall och hjälper till att identifiera överlappande data. Dataprofileringsprocessen kontrollerar till exempel att se om data förväntas vara alfanumerisk eller numerisk. Verktygen söker även efter beroenden eller för att se hur uppgifterna rör data från andra databaser.

Dataprofileringsverktyg för stora data har en liknande funktion som dataprofileringsverktyg för traditionell data. Data-profileringsverktyg för Hadoop ger dig viktig information om data i Hadoop-kluster. Dessa verktyg kan användas för att leta efter matchningar och ta bort dubbletter. Som ett resultat kan du se till att dina stora data är konsekventa. Hadoopverktyg som HiveQL och Pig Latin kan användas för transformationsprocessen.

Hur man prioriterar stor datakvalitet - dummies

Redaktörens val

Vad är en Java-karta? - dummies

Vad är en Java-karta? - dummies

Arrays och specialiserade listor gör det möjligt att utföra en fantastisk uppsättning uppgifter med Java. Det finns dock situationer där en Java-applikation behöver något som är mer relaterat till en databas, utan att egentligen ha allt databasbagage (som att behöva köpa en separat applikation). Till exempel kanske du vill kunna ...

Några få saker om Java Math - dummies

Några få saker om Java Math - dummies

Tro det eller inte, datorer - även de mest kraftfulla - Ha vissa begränsningar när det gäller att utföra matematiska beräkningar. Dessa begränsningar är vanligtvis obetydliga, men ibland slår de sig och biter på dig. Här är de saker du behöver se upp för när du gör matte i Java. Helhetsflöde Det grundläggande problemet ...

Vad är recursion i Java Programmering? - dummies

Vad är recursion i Java Programmering? - dummies

Rekursion är en grundläggande programmeringsteknik som du kan använda i Java, där en metod kallar sig för att lösa ett problem. En metod som använder denna teknik är rekursiv. Många programmeringsproblem kan lösas endast genom rekursion, och vissa problem som kan lösas med andra tekniker löses bättre genom rekursion. En av ...

Redaktörens val

4 Måste-inkludera i din blogg sidobardesign - dummies

4 Måste-inkludera i din blogg sidobardesign - dummies

Din bloggens sidofält är viktig fastighet som bör innehålla de element du vill ha mest. När du utformar din blogg sidofält kan du dra från en nästan oändlig lista över sidospårelement. Genom att välja noggrant vad som ska inkluderas (och vad som inte ska inkluderas) kan du ställa in din blogg från andra.

5 Användbara Wordpress Plugins - dummies

5 Användbara Wordpress Plugins - dummies

Om du bloggar på en självhävd plattform med WordPress-programvara, är det dags att anpassa din blogg med plug-ins - programvara som kan "anslutas" till din befintliga WordPress bloggprogramvara. Plug-ins gör det möjligt för dig att göra allt från funktionsbildspel i dina blogginlägg för att ansluta sociala medier till din webbplats. Här är fem användbara ...

7 Sätt att erövra Writer's Block som en Blogger - dummies

7 Sätt att erövra Writer's Block som en Blogger - dummies

Varje bloggare möter författarens block i ett tid eller annan. Om du är den typ av bloggare som sköter innehåll varje dag, kan författarens block vara stäverande. Kan du inte ta en paus för att få ditt skrivande mojo tillbaka? Prova en (eller flera) av dessa sju sätt att slå författarens block för att få dig tillbaka ...

Redaktörens val

10 Stora elektronikkomponentkällor - dummies

10 Stora elektronikkomponentkällor - dummies

Letar du efter några bra källor till dina elektroniska delar? Denna lista ger dig några fleråriga favoriter, både inom och utanför Nordamerika. Denna lista är inte uttömmande. Du hittar bokstavligen tusentals specialutbud för ny och begagnad elektronik. Plus, Amazon och eBay ger virtuella marknadsplatser för alla sorters säljare - ...

Elektronik Basics: Resistance - dummies

Elektronik Basics: Resistance - dummies

I elektronikvärlden är motståndet inte meningslöst. Faktum är att motstånd kan vara mycket användbart. Utan motstånd skulle elektronik inte vara möjligt. Elektronik handlar om att manipulera strömmen av ström, och ett av de mest grundläggande sätten att manipulera strömmen är att minska det genom resistans. Utan motstånd strömmar strömmen oreglerad och där ...

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

För att berätta för BASIC Stamp vad du vill göra i ditt digitala elektronikprojekt måste du programmera det. BASIC Stamp Windows Editor är den programvara som du använder på din dator för att skapa program som kan laddas ner till en BASIC Stamp-mikrokontroller. Denna programvara är tillgänglig gratis från Parallax webbplats. ...