Prestationsfrågor i Big Data Architectural Management - dummies

Video: DAX Fridays! #44: CROSSFILTER 2025

Din stora datarkitektur behöver också fungera i samklang med din organisations stödjande infrastruktur. Du kan till exempel vara intresserad av att köra modeller för att bestämma om det är säkert att borra för olja i ett offshoreområde, med tanke på realtidsdata om temperatur, salthalt, sedimentresuspension och en mängd andra biologiska, kemiska och fysikaliska egenskaper hos vattenkolonnen.

Det kan ta dagar att köra den här modellen med en traditionell serverkonfiguration. Men med hjälp av en distribuerad datormodell kunde det ta några minuter att ta några dagar.

Prestanda kan också bestämma vilken databas du skulle använda. I vissa situationer kan du till exempel förstå hur två väldigt olika dataelement är relaterade. Vad är förhållandet mellan buzz på ett socialt nätverk och tillväxten i försäljningen? Det här är inte den typiska frågan du kan fråga om en strukturerad, relationell databas.

En grafikdatabas kan vara ett bättre val eftersom det är särskilt utformat för att skilja "noder" eller enheter från dess "egenskaper" eller den information som definierar den enheten och "kanten" eller förhållandet mellan noder och egenskaper. Att använda rätt databas kommer också att förbättra prestanda. Vanligtvis används grafdatabasen i vetenskapliga och tekniska tillämpningar.

Andra viktiga operativa databasmetoder inkluderar kolumnar databaser som lagrar information effektivt i kolumner snarare än rader. Detta tillvägagångssätt leder till snabbare prestanda eftersom inmatning / utmatning är extremt snabb. När geografisk datalagring är en del av ekvationen optimeras en rumslig databas för att lagra och söka data baserat på hur objekt är relaterade i rymden.

Organisera stora datatjänster och verktyg

Inte alla data som organisationer använder är operativ. En växande mängd data kommer från en rad olika källor som inte är helt lika organiserade eller enkla, inklusive data som kommer från maskiner eller sensorer och massiva offentliga och privata datakällor. Tidigare kunde de flesta företag varken fånga eller lagra denna stora mängd data. Det var helt enkelt för dyrt eller för överväldigande.

Även om företag kunde fånga upp data hade de inte verktyg för att göra något åt det. Mycket få verktyg kan ge mening om dessa stora mängder data. De verktyg som existerade var komplexa att använda och gav inte resultat i en rimlig tidsram.

I slutändan tvingades de som verkligen ville gå till den enorma ansträngningen att analysera dessa data tvingas arbeta med snapshots av data.Detta har den oönskade effekten av att sakna viktiga händelser eftersom de inte befann sig i en viss ögonblicksbild.

MapReduce, Hadoop och Big Table för stora data

Med utvecklingen av datateknik är det nu möjligt att hantera enorma datamängder. Systempriserna har sjunkit, och som ett resultat är nya tekniker för distribuerad databehandling vanliga. Det verkliga genombrottet hände som företag som Yahoo!, Google och Facebook kom till insikten att de behövde hjälp för att tjäna pengar på de enorma mängder data de skapade.

Dessa nya företag behövde hitta ny teknik som skulle göra det möjligt för dem att lagra, få tillgång till och analysera stora mängder data i nära realtid så att de skulle kunna tjäna pengar på att ha så mycket data om deltagare i deras nätverk.

Deras lösningar är att omvandla datahanteringsmarknaden. Framför allt visade sig innovationerna MapReduce, Hadoop och Big Table vara gnistorna som ledde till en ny generation av datahantering. Dessa tekniker tar upp ett av de mest grundläggande problemen - förmågan att bearbeta massiva datamängder effektivt, kostnadseffektivt och i rätt tid.

MapReduce

MapReduce designades av Google som ett sätt att effektivt utföra en uppsättning funktioner mot en stor mängd data i batchläge. Komponenten "karta" distribuerar programmeringsproblemet eller uppgifterna över ett stort antal system och hanterar placeringen av uppgifterna. Det balanserar också lasten och hanterar felåterställning. En annan funktion som kallas "reducera" sammanställer alla elementen tillsammans för att ge ett resultat.

Big Table

Big Table utvecklades av Google för att vara ett distribuerat lagringssystem som syftar till att hantera hög skalbar strukturerad data. Data organiseras i tabeller med rader och kolumner. Till skillnad från en traditionell relationell databasmodell är Big Table en gles, distribuerad, ihållande multidimensionell sorterad karta. Det är avsett att lagra enorma datamängder över råvaruservrar.

Hadoop

Hadoop är en Apache-hanterad programvara ram som härrör från MapReduce och Big Table. Hadoop tillåter att applikationer baserade på MapReduce körs på stora kluster av råvara. Projektet är grunden för beräkningsarkitekturen som stöder Yahoo! s verksamhet. Hadoop är utformad för att parallellisera databehandling över datortoder för att påskynda beräkningar och dölja latentitet.

Två huvudkomponenter i Hadoop finns: ett massivt skalbart distribuerat filsystem som kan stödja dataöverföringar och en massivt skalbar MapReduce-motor som beräknar resultat i batch.