Grunddata för stor dataintegration - dummies

Video: Beräkna virkesförråd i Mina sidor - instruktionsfilm 2024

De grundläggande elementen i den stora dataplattformen hanterar data på nya sätt jämfört med den traditionella relationsdatabasen. Detta beror på behovet av skalbarhet och hög prestanda som krävs för att hantera både strukturerad och ostrukturerad data.

Komponenterna i det stora dataukosystemet från Hadoop till NoSQL DB, MongoDB, Cassandra och HBase har alla sina egna metoder för att extrahera och ladda data. Som ett resultat kan dina lag utveckla nya färdigheter för att hantera integrationsprocessen över dessa plattformar. Men många av ditt företags datahantering bästa praxis kommer att bli ännu viktigare när du flyttar in i världen av stora data.

Medan stora data introducerar en ny nivå av integrationskomplexitet gäller de grundläggande grundläggande principerna fortfarande. Ditt affärsmål måste vara inriktat på att leverera kvalitets- och betrodd data till organisationen vid rätt tidpunkt och i rätt sammanhang.

För att säkerställa detta förtroende måste du fastställa gemensamma regler för datakvalitet med betoning på noggrannhet och fullständighet av data. Dessutom behöver du ett omfattande tillvägagångssätt för att utveckla företagsmetadata, hålla reda på datainsamling och styrning för att stödja integration av dina data.

Samtidigt utvecklas traditionella verktyg för dataintegration för att hantera den ökande mängd ostrukturerad data och den växande volymen och hastigheten för stora data. Medan traditionella former av integration tar upp nya betydelser i en stor datavärld behöver din integrationsteknologi en gemensam plattform som stöder datakvalitet och profilering.

För att göra bra affärsbeslut baserat på stor dataanalys måste informationen vara betrodd och förstådd på alla nivåer i organisationen. Även om det sannolikt inte kommer att vara kostnad eller tidseffektivt att vara alltför bekymrad över datakvaliteten i utredningsfasen av en stor dataanalys, så måste kvalitet och förtroende så småningom spela en roll om resultaten ska införlivas i affärsprocessen.

Information måste levereras till företaget på ett betrodat, kontrollerat, konsekvent och flexibelt sätt i hela företaget, oavsett krav som är specifika för enskilda system eller applikationer. För att uppnå detta mål gäller tre grundläggande principer:

Du måste skapa en gemensam förståelse för datadefinitioner. I början av din stora dataanalys kommer du inte troligen att ha samma kontrollnivå över datadefinitioner som du gör med dina operativa data.När du väl har identifierat de mönster som är mest relevanta för ditt företag behöver du dock möjligheten att karta dataelement till en gemensam definition.
Du måste utveckla en uppsättning datatjänster för att kvalificera data och göra det konsekvent och i slutändan trovärdigt. När dina ostrukturerade och stora datakällor är integrerade med strukturerad operativ data, måste du vara säker på att resultaten blir meningsfulla.
Du behöver ett strömlinjeformat sätt att integrera dina stora datakällor och system i rekord. För att kunna fatta bra beslut baserat på resultaten av din stora dataanalys, behöver du leverera information vid rätt tidpunkt och med rätt sammanhang. Din stora dataintegrationsprocess bör säkerställa konsistens och tillförlitlighet.

För att integrera data över blandade applikationsmiljöer, skaffa data från en datamiljö (källa) till en annan datamiljö (mål). Extrakt, transformera och ladda (ETL) -teknologier har använts för att åstadkomma detta i traditionella datalagringsmiljöer. ETLs roll utvecklas för att hantera nyare datahanteringsmiljöer som Hadoop.

I en stor datamiljö kan du behöva kombinera verktyg som stödjer satsvis integrationsprocesser (med hjälp av ETL) med realtidsintegration och federation över flera källor. Till exempel kan ett läkemedelsföretag behöva blanda data som lagras i sitt system för masterdatahantering (MDM) med stora datakällor om medicinska resultat av användningen av kundernas drog.

Företag använder MDM för att underlätta insamling, aggregering, konsolidering och leverans av konsekventa och tillförlitliga data på ett kontrollerat sätt över företaget. Dessutom används nya verktyg som Sqoop och Scribe för att stödja integration av stora datormiljöer. Du hittar också en ökande tonvikt på att använda extrakt, laddning och transformation (ELT) -teknik. Dessa tekniker beskrivs nedan.