Stor dataanalys och data warehouse dummies

Video: ExarbLSKvantitativ_HD.mp4 2025

Du kommer att hitta värde för att samla dataagasins kapacitet och den stora datamiljön. Du måste skapa en hybridmiljö där stora data kan fungera hand i hand med datalageret.

Först är det viktigt att erkänna att datalageret som det är utformat idag inte kommer att förändras på kort sikt.

Därför är det mer pragmatiskt att använda datalagret för vad det har utformats för att göra - ge en välbevakad version av sanningen om ett ämne som verksamheten vill analysera. Lageret kan innehålla information om ett visst företags produktlinje, dess kunder, dess leverantörer och uppgifter om ett års värde av transaktioner.

Den information som hanteras i datalagret eller en avdelningsdata mart har konstruerats noga så att metadata är korrekt. Med tillväxten av ny webbaserad information är det praktiskt och ofta nödvändigt att analysera denna enorma mängd data i sammanhang med historiska data. Det är här hybridmodellen kommer in.

Vissa aspekter av att gifta datalagret med stora data kan vara relativt enkla. Till exempel kommer många av de stora datakällorna från källor som innehåller egna väldesignade metadata. Komplexa e-handelswebbplatser innehåller väldefinierade dataelement. Därför arbetar informationshanteringsorganisationen vid analys mellan lageret och den stora datakällan med två datasatser med noggrant utformade metadatamodeller som måste rationaliseras.

Naturligtvis saknar informationskällorna i vissa situationer explicit metadata. Innan en analytiker kan kombinera de historiska transaktionsdata med mindre strukturerade stora data måste arbetet göras. Vanligtvis kommer initial analys av dataöverföringar att avslöja intressanta mönster som kan hjälpa till att förutsäga subtila förändringar i affärsverksamhet eller potentiella lösningar för patientens diagnos.

Den inledande analysen kan kompletteras med hjälp av verktyg som MapReduce med Hadoop distribuerade filsystemet. Vid denna tidpunkt kan du börja förstå om den kan hjälpa till att utvärdera problemet som behandlas.

I analysprocessen är det lika viktigt att eliminera onödiga data som det är att identifiera data som är relevanta för företagskontexten. När denna fas är klar måste de återstående data transformeras så att metadatadefinitioner är exakta. På det sättet, när de stora data kombineras med traditionell historisk data från lageret, kommer resultaten att vara exakta och meningsfulla.

Den stora dataintegrationen Lynchpin

Denna process kräver en väldefinierad dataintegrationsstrategi. Medan dataintegration är ett kritiskt inslag i hanteringen av stor data är det lika viktigt när man skapar en hybridanalys med datalagret. Faktum är att processen med att extrahera data och omvandla den i en hybridmiljö, liknar hur den här processen utförs inom ett traditionellt datalager.

I datalagret extraheras data från traditionella källsystem, såsom CRM eller ERP-system. Det är kritiskt att element från dessa olika system är korrekt matchade.

Rethink-extraktion, transformation och laster för datalager

I datalagret hittar du ofta en kombination av relationsdatabastabeller, platta filer och icke-relationella källor. Ett välbyggt datalager kommer att byggas så att data konverteras till ett gemensamt format, vilket gör att frågor kan behandlas exakt och konsekvent. De extraherade filerna måste omvandlas för att matcha affärsreglerna och processerna i ämnesområdet som datalageret är utformat för att analysera.

Med andra ord måste uppgifterna extraheras från de stora datakällorna, så att dessa källor kan fungera på ett säkert sätt och ge meningsfulla resultat. Dessutom måste källorna transformeras så att de är användbara vid analys av relationen mellan de historiska data och de mer dynamiska och realtidsdata som kommer från stora datakällor.

Laddar information i den stora datamodellen kommer att vara annorlunda än vad du kan förvänta dig i ett traditionellt datalager. Med datalager, efter att data har kodifierats ändras det aldrig. Ett typiskt datalager ger verksamheten en ögonblicksbild av data baserat på behovet av att analysera en viss affärsproblem som kräver övervakning, såsom lager eller försäljning.

Den distribuerade strukturen hos stora data leder ofta till att organisationerna först laddar data i en serie noder och sedan utträder och transformeras. När man skapar en hybrid av det traditionella datalageret och den stora datamiljön kan den stora datormiljöens distribuerade natur dramatiskt förändra organisationernas förmåga att analysera stora datamängder i samband med verksamheten.