Hem Personliga finanser Grunddata för stor dataintegration - dummies

Grunddata för stor dataintegration - dummies

Video: Beräkna virkesförråd i Mina sidor - instruktionsfilm 2024

Video: Beräkna virkesförråd i Mina sidor - instruktionsfilm 2024
Anonim

De grundläggande elementen i den stora dataplattformen hanterar data på nya sätt jämfört med den traditionella relationsdatabasen. Detta beror på behovet av skalbarhet och hög prestanda som krävs för att hantera både strukturerad och ostrukturerad data.

Komponenterna i det stora dataukosystemet från Hadoop till NoSQL DB, MongoDB, Cassandra och HBase har alla sina egna metoder för att extrahera och ladda data. Som ett resultat kan dina lag utveckla nya färdigheter för att hantera integrationsprocessen över dessa plattformar. Men många av ditt företags datahantering bästa praxis kommer att bli ännu viktigare när du flyttar in i världen av stora data.

Medan stora data introducerar en ny nivå av integrationskomplexitet gäller de grundläggande grundläggande principerna fortfarande. Ditt affärsmål måste vara inriktat på att leverera kvalitets- och betrodd data till organisationen vid rätt tidpunkt och i rätt sammanhang.

För att säkerställa detta förtroende måste du fastställa gemensamma regler för datakvalitet med betoning på noggrannhet och fullständighet av data. Dessutom behöver du ett omfattande tillvägagångssätt för att utveckla företagsmetadata, hålla reda på datainsamling och styrning för att stödja integration av dina data.

Samtidigt utvecklas traditionella verktyg för dataintegration för att hantera den ökande mängd ostrukturerad data och den växande volymen och hastigheten för stora data. Medan traditionella former av integration tar upp nya betydelser i en stor datavärld behöver din integrationsteknologi en gemensam plattform som stöder datakvalitet och profilering.

För att göra bra affärsbeslut baserat på stor dataanalys måste informationen vara betrodd och förstådd på alla nivåer i organisationen. Även om det sannolikt inte kommer att vara kostnad eller tidseffektivt att vara alltför bekymrad över datakvaliteten i utredningsfasen av en stor dataanalys, så måste kvalitet och förtroende så småningom spela en roll om resultaten ska införlivas i affärsprocessen.

Information måste levereras till företaget på ett betrodat, kontrollerat, konsekvent och flexibelt sätt i hela företaget, oavsett krav som är specifika för enskilda system eller applikationer. För att uppnå detta mål gäller tre grundläggande principer:

  • Du måste skapa en gemensam förståelse för datadefinitioner. I början av din stora dataanalys kommer du inte troligen att ha samma kontrollnivå över datadefinitioner som du gör med dina operativa data.När du väl har identifierat de mönster som är mest relevanta för ditt företag behöver du dock möjligheten att karta dataelement till en gemensam definition.

  • Du måste utveckla en uppsättning datatjänster för att kvalificera data och göra det konsekvent och i slutändan trovärdigt. När dina ostrukturerade och stora datakällor är integrerade med strukturerad operativ data, måste du vara säker på att resultaten blir meningsfulla.

  • Du behöver ett strömlinjeformat sätt att integrera dina stora datakällor och system i rekord. För att kunna fatta bra beslut baserat på resultaten av din stora dataanalys, behöver du leverera information vid rätt tidpunkt och med rätt sammanhang. Din stora dataintegrationsprocess bör säkerställa konsistens och tillförlitlighet.

För att integrera data över blandade applikationsmiljöer, skaffa data från en datamiljö (källa) till en annan datamiljö (mål). Extrakt, transformera och ladda (ETL) -teknologier har använts för att åstadkomma detta i traditionella datalagringsmiljöer. ETLs roll utvecklas för att hantera nyare datahanteringsmiljöer som Hadoop.

I en stor datamiljö kan du behöva kombinera verktyg som stödjer satsvis integrationsprocesser (med hjälp av ETL) med realtidsintegration och federation över flera källor. Till exempel kan ett läkemedelsföretag behöva blanda data som lagras i sitt system för masterdatahantering (MDM) med stora datakällor om medicinska resultat av användningen av kundernas drog.

Företag använder MDM för att underlätta insamling, aggregering, konsolidering och leverans av konsekventa och tillförlitliga data på ett kontrollerat sätt över företaget. Dessutom används nya verktyg som Sqoop och Scribe för att stödja integration av stora datormiljöer. Du hittar också en ökande tonvikt på att använda extrakt, laddning och transformation (ELT) -teknik. Dessa tekniker beskrivs nedan.

Grunddata för stor dataintegration - dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...