Distribuerad databas för Big Data - dummies

Video: DFS on Server 2016 - Step by Step 2025

Om ditt företag överväger ett stort dataprojekt är det viktigt att du förstår vissa distribuerade databaser först. Det finns ingen enskild distribuerad datormodell eftersom beräkningsresurser kan distribueras på många sätt.

Du kan till exempel distribuera en uppsättning program på samma fysiska server och använda meddelandetjänster för att de ska kunna kommunicera och skicka information. Det är också möjligt att ha många olika system eller servrar, var och en med eget minne, som kan fungera tillsammans för att lösa ett problem.

Varför distribuerad databas behövs för stora data

Inte alla problem kräver distribuerad databehandling. Om en stor tidsbegränsning inte existerar kan komplex bearbetning ske via en specialiserad tjänst på distans. När företag behövde göra komplicerad dataanalys, skulle IT flytta data till en extern tjänst eller enhet där många reservresurser var tillgängliga för bearbetning.

Det var inte så att företag ville vänta för att få de resultat de behövde; det var bara inte ekonomiskt möjligt att köpa tillräckligt med datorresurser för att hantera dessa nya krav. I många situationer skulle organisationer fånga endast val av data istället för att försöka fånga all data på grund av kostnader. Analytiker ville ha alla uppgifter men var tvungna att lösa sig för ögonblicksbilder, i hopp om att fånga rätt data vid rätt tidpunkt.

Viktiga hårdvaru- och programvaruproblem revolutionerade datahanteringsindustrin. För det första ökade innovation och efterfrågan kraften och minskade priset på hårdvara. Ny mjukvara uppstod som förstod hur man utnyttjar den här hårdvaran genom att automatisera processer som lastbalansering och optimering över ett stort antal nodar.

Programvaran innehöll inbyggda regler som förstod att vissa arbetsbelastningar krävde en viss prestationsnivå. Programvaran behandlade alla noder som om de helt enkelt var en stor pool av databehandling, lagring och nätverkstillgångar och flyttade processer till en annan nod utan avbrott om en nod misslyckades, med hjälp av virtualiseringstekniken.

Den förändrade ekonomin i databehandling och stora data

Snabbspolning och mycket har ändrats. Under de senaste åren har kostnaden för inköp av datorer och lagringsresurser minskat dramatiskt. Med hjälp av virtualisering kan råvareservrar som kan klustras och blad som kan nätverksförsedd i en rack ändrat ekonomin i databehandling. Denna förändring sammanföll med innovation i mjukvaruautomatiseringslösningar som dramatiskt förbättrade hanterbarheten hos dessa system.

Förmågan att utnyttja distribuerad databehandling och parallell bearbetningsteknik omvandlade landskapet dramatiskt och dramatiskt reducerar latensen. Det finns speciella fall, till exempel High Frequency Trading (HFT), där låg latens endast kan uppnås genom att fysiskt lokalisera servrar på en enda plats.

Problemet med latens för stora data

Ett av de fleråriga problemen med att hantera data - särskilt stora mängder data - har haft påverkan av latens. Latency är förseningen inom ett system baserat på förseningar vid utförandet av en uppgift. Latency är ett problem i alla aspekter av databehandling, inklusive kommunikation, datahantering, systemprestanda och mer.

Om du någonsin har använt en trådlös telefon har du upplevt latentitet på första hand. Det är förseningen i överföringen mellan dig och din ringer. Ibland har latens liten inverkan på kundtillfredsställelse, till exempel om företag behöver analysera resultat bakom kulisserna för att planera för en ny produktutgåva. Detta kräver nog inte omedelbar respons eller åtkomst.

Ju närmare det här svaret är hos en kund vid tidpunkten för beslutet desto mer är det latent.

Distribuerad databehandling och parallell bearbetningsteknik kan göra en signifikant skillnad i latensen som kunder, leverantörer och partners upplever. Många stora dataprogram är beroende av låg latens på grund av de stora datakraven för hastighet och volymen och olika data.

Det är kanske inte möjligt att konstruera en stor dataprogram i en hög latent miljö om hög prestanda behövs. Behovet av att verifiera uppgifterna i nära realtid kan också påverkas av latens. När du hanterar realtidsdata betyder en hög latensnivå skillnaden mellan framgång och misslyckande.

Stor datakrav möter lösningar

Internetens tillväxt som plattform för allt från handel till medicin förvandlade efterfrågan på en ny generation datahantering. I slutet av 1990-talet, motor och internet företag som Google, Yahoo!, och Amazon. com kunde expandera sina affärsmodeller, utnyttja billig hårdvara för beräkning och lagring.

Därefter behövde dessa företag en ny generation av programvaruteknik som skulle göra det möjligt för dem att tjäna pengar på de enorma mängder data som de fängslade från kunderna. Dessa företag kunde inte vänta på resultat av analytisk bearbetning. De behövde förmågan att bearbeta och analysera dessa data i nära realtid.