Hem Personliga finanser Hur man prioriterar stor datakvalitet - dummies

Hur man prioriterar stor datakvalitet - dummies

Video: #114 - Ramit Sethis 10 regler för ett rikt liv | Recension av boken "I will teach you to be rich" 2024

Video: #114 - Ramit Sethis 10 regler för ett rikt liv | Recension av boken "I will teach you to be rich" 2024
Anonim

Att få rätt perspektiv på datakvaliteten kan vara mycket utmanande i världen av stora data. Med de flesta stora datakällor måste du anta att du arbetar med data som inte är rena. Faktum är att den överväldigande överflöd av till synes slumpmässiga och bortkopplade data i strömmar av sociala mediedata är en av de saker som gör det så användbart för företagen.

Du börjar med att söka petabyter med data utan att veta vad du kan hitta efter att du har sökt efter mönster i data. Du måste acceptera det faktum att mycket brus kommer att finnas i data. Det är bara genom att söka och mönstret matchar att du kommer att kunna hitta några gnistor av sanning mitt ibland några mycket smutsiga data.

Naturligtvis har vissa stora datakällor som data från RFID-taggar eller sensorer bättre etablerade regler än sociala medier. Sensordata ska vara rimligt rena, även om du kan förvänta dig att hitta några fel. Det är alltid ditt ansvar när du analyserar massiva mängder data för att planera för kvalitetsnivån för den data. Du bör följa ett tvåfasigt tillvägagångssätt för datakvaliteten:

Fas 1 : Leta efter mönster i stora data utan att det handlar om datakvalitet.

Fas 2: När du har hittat dina mönster och fastställt resultat som är viktiga för verksamheten, tillämpa samma datakvalitetsstandarder som du tillämpar på dina traditionella datakällor. Du vill undvika att samla in och hantera stora data som inte är viktiga för verksamheten och kan eventuellt korrumpera andra dataelement i Hadoop eller andra stora dataplattformar.

När du börjar integrera resultaten av din stora dataanalys i din affärsprocess, inser att högkvalitativa data är avgörande för att ett företag ska kunna ta bra affärsbeslut. Detta gäller både stora data och traditionella data.

Kvaliteten på data avser egenskaper om data, inklusive konsistens, noggrannhet, tillförlitlighet, fullständighet, aktualitet, rimlighet och validitet. Datakvalitetsprogramvara säkerställer att dataelementen är representerade på samma sätt över olika datalager eller system för att öka datakonsistensen.

Till exempel kan en datalagring använda två rader för en kunds adress och en annan datalagring kan använda en rad. Denna skillnad i hur uppgifterna representeras kan resultera i felaktiga uppgifter om kunder, t.ex. att en kund identifieras som två olika kunder.

Ett företag kan använda dussintals varianter av sitt företagsnamn när det köper produkter.Datakvalitetsprogramvara kan användas för att identifiera alla varianter av företagsnamnet i dina olika datalager och se till att du vet allt som denna kund köper från din verksamhet.

Denna process heter ger en enda bild av kund eller produkt. Datakvalitetsprogrammet matchar data över olika system och rensar eller tar bort överflödiga data. Datakvalitetsprocessen ger verksamheten information som är lättare att använda, tolka och förstå.

Dataprofileringsverktyg används i datakvalitetsprocessen för att hjälpa dig att förstå innehållet, strukturen och skickligheten för dina data. De samlar in information om egenskaperna hos data i en databas eller annan datalagring för att påbörja processen att omvandla data till en mer betrodd form. Verktygen analyserar data för att identifiera fel och inkonsekvenser.

De kan göra justeringar för dessa problem och korrigera fel. Verktygen kontrollerar acceptabla värden, mönster och intervall och hjälper till att identifiera överlappande data. Dataprofileringsprocessen kontrollerar till exempel att se om data förväntas vara alfanumerisk eller numerisk. Verktygen söker även efter beroenden eller för att se hur uppgifterna rör data från andra databaser.

Dataprofileringsverktyg för stora data har en liknande funktion som dataprofileringsverktyg för traditionell data. Data-profileringsverktyg för Hadoop ger dig viktig information om data i Hadoop-kluster. Dessa verktyg kan användas för att leta efter matchningar och ta bort dubbletter. Som ett resultat kan du se till att dina stora data är konsekventa. Hadoopverktyg som HiveQL och Pig Latin kan användas för transformationsprocessen.

Hur man prioriterar stor datakvalitet - dummies

Redaktörens val

Jewish Funeral Traditions - dummies

Jewish Funeral Traditions - dummies

Judiska begravningar sker vanligen i en synagoge, begravningshem eller på en kyrkogård. Med tradition är judiska begravningar enkla (symboliserar tron ​​att människor är alla lika i döden), men de varierar mycket och har ingen uppsättning liturgi. Att skicka blommor till ett begravnings- eller sorgshem är starkt avskräckt i judendomen. Inte bara kommer ...

Identifiera komplicerade grävande dummies

Identifiera komplicerade grävande dummies

Komplicerat roende är det tekniska namnet som sorgproffs ger till en sorgprocess som sitter fast vid något tillfälle , vilket gör det omöjligt för de förlorade att framgångsrikt starta eller avsluta sorgprocessen. Komplicerat sorg är ofta ett tecken på olösta problem i förhållandet mellan de förlorade och den avlidne som gör det ...

Redaktörens val

Hur man ställer in kartkontroller i Main_iPad. Storyboard i din iOS App - dummies

Hur man ställer in kartkontroller i Main_iPad. Storyboard i din iOS App - dummies

När du har en anpassad vy för MapController i din iOS-app, måste du berätta för iPad-storyboardet att du laddar in din anpassade vy i stället för en UIViewController. Följ dessa steg: Välj Projekt navigator genom att välja Main_iPad. storyboard och välj sedan View Controller i View Controller - Map Scene i dokumentutskriften. ...

Hur man roterar objekt i din iOS-app - dummies

Hur man roterar objekt i din iOS-app - dummies

Här hittar du hur man rotera en vy (i så fall vrid bilen runt) i din iOS-app. För att göra det uppdaterar du den roterande kodstuben du startade med och ersätter den med den fetstilta koden. - (void) rotera {CGAffineTransform transform = CGAffineTransformMakeRotation (M_PI); void (^ animation) () = ^ () {self. bil. transformera = transformera; ...

Hur man ställer in en WeatherController i Main_iPad. storyboard-fil för din iOS-app - dummies

Hur man ställer in en WeatherController i Main_iPad. storyboard-fil för din iOS-app - dummies

Bör du lägga till en ny anpassad vykontroll till din iOS-app innan du fortsätter till dessa steg. Du behöver fortfarande berätta för storyboardet att du vill att den ska ladda den nya anpassade vykontrollen istället för en UIViewController. Följ dessa steg:

Redaktörens val

Spara en grafisk stil i Adobe CS5 Illustrator - dummies

Spara en grafisk stil i Adobe CS5 Illustrator - dummies

Adobe Creative Suite 5 (Adobe CS5) Illustrator tillåter Du sparar en grafisk stil. En grafisk stil är en kombination av alla inställningar du väljer för ett visst filter eller en effekt i Utseendepanelen. Genom att spara informationen i en grafisk stil lagras du dessa attribut så att du snabbt och enkelt kan tillämpa ...

Välj som ett transformationsverktyg i Adobe CS5 Illustrator - dummies

Välj som ett transformationsverktyg i Adobe CS5 Illustrator - dummies

I Adobe Creative Suite 5 (Adobe CS5 ) Illustratör du kan använda markeringsverktyget för att skala och rotera ett valt objekt. Dra begränsningsboxens handtag för att ändra storlek på objektet, eller flytta dig utanför ett handtag och sedan, när markören ändras till en flippig pil (en böjd pil med pilhuvud i båda ändarna), dra till ...

Objekttransformation i Adobe CS5 Illustrator - dummies

Objekttransformation i Adobe CS5 Illustrator - dummies

Verktygen Rotate, Reflect, Scale och Shear i Adobe Creative Suite 5 (Adobe CS5) Illustrator använder alla samma grundläggande steg för att utföra transformationer. Här är fem sätt att transformera ett objekt: en för en godtycklig omvandling och fyra andra för exakta omvandlingar baserat på en numerisk mängd som du anger. Vilkårlig omvandlingsmetod Eftersom detta ...