Hem Personliga finanser Distribuerad databas för Big Data - dummies

Distribuerad databas för Big Data - dummies

Innehållsförteckning:

Video: DFS on Server 2016 - Step by Step 2025

Video: DFS on Server 2016 - Step by Step 2025
Anonim

Om ditt företag överväger ett stort dataprojekt är det viktigt att du förstår vissa distribuerade databaser först. Det finns ingen enskild distribuerad datormodell eftersom beräkningsresurser kan distribueras på många sätt.

Du kan till exempel distribuera en uppsättning program på samma fysiska server och använda meddelandetjänster för att de ska kunna kommunicera och skicka information. Det är också möjligt att ha många olika system eller servrar, var och en med eget minne, som kan fungera tillsammans för att lösa ett problem.

Varför distribuerad databas behövs för stora data

Inte alla problem kräver distribuerad databehandling. Om en stor tidsbegränsning inte existerar kan komplex bearbetning ske via en specialiserad tjänst på distans. När företag behövde göra komplicerad dataanalys, skulle IT flytta data till en extern tjänst eller enhet där många reservresurser var tillgängliga för bearbetning.

Det var inte så att företag ville vänta för att få de resultat de behövde; det var bara inte ekonomiskt möjligt att köpa tillräckligt med datorresurser för att hantera dessa nya krav. I många situationer skulle organisationer fånga endast val av data istället för att försöka fånga all data på grund av kostnader. Analytiker ville ha alla uppgifter men var tvungna att lösa sig för ögonblicksbilder, i hopp om att fånga rätt data vid rätt tidpunkt.

Viktiga hårdvaru- och programvaruproblem revolutionerade datahanteringsindustrin. För det första ökade innovation och efterfrågan kraften och minskade priset på hårdvara. Ny mjukvara uppstod som förstod hur man utnyttjar den här hårdvaran genom att automatisera processer som lastbalansering och optimering över ett stort antal nodar.

Programvaran innehöll inbyggda regler som förstod att vissa arbetsbelastningar krävde en viss prestationsnivå. Programvaran behandlade alla noder som om de helt enkelt var en stor pool av databehandling, lagring och nätverkstillgångar och flyttade processer till en annan nod utan avbrott om en nod misslyckades, med hjälp av virtualiseringstekniken.

Den förändrade ekonomin i databehandling och stora data

Snabbspolning och mycket har ändrats. Under de senaste åren har kostnaden för inköp av datorer och lagringsresurser minskat dramatiskt. Med hjälp av virtualisering kan råvareservrar som kan klustras och blad som kan nätverksförsedd i en rack ändrat ekonomin i databehandling. Denna förändring sammanföll med innovation i mjukvaruautomatiseringslösningar som dramatiskt förbättrade hanterbarheten hos dessa system.

Förmågan att utnyttja distribuerad databehandling och parallell bearbetningsteknik omvandlade landskapet dramatiskt och dramatiskt reducerar latensen. Det finns speciella fall, till exempel High Frequency Trading (HFT), där låg latens endast kan uppnås genom att fysiskt lokalisera servrar på en enda plats.

Problemet med latens för stora data

Ett av de fleråriga problemen med att hantera data - särskilt stora mängder data - har haft påverkan av latens. Latency är förseningen inom ett system baserat på förseningar vid utförandet av en uppgift. Latency är ett problem i alla aspekter av databehandling, inklusive kommunikation, datahantering, systemprestanda och mer.

Om du någonsin har använt en trådlös telefon har du upplevt latentitet på första hand. Det är förseningen i överföringen mellan dig och din ringer. Ibland har latens liten inverkan på kundtillfredsställelse, till exempel om företag behöver analysera resultat bakom kulisserna för att planera för en ny produktutgåva. Detta kräver nog inte omedelbar respons eller åtkomst.

Ju närmare det här svaret är hos en kund vid tidpunkten för beslutet desto mer är det latent.

Distribuerad databehandling och parallell bearbetningsteknik kan göra en signifikant skillnad i latensen som kunder, leverantörer och partners upplever. Många stora dataprogram är beroende av låg latens på grund av de stora datakraven för hastighet och volymen och olika data.

Det är kanske inte möjligt att konstruera en stor dataprogram i en hög latent miljö om hög prestanda behövs. Behovet av att verifiera uppgifterna i nära realtid kan också påverkas av latens. När du hanterar realtidsdata betyder en hög latensnivå skillnaden mellan framgång och misslyckande.

Stor datakrav möter lösningar

Internetens tillväxt som plattform för allt från handel till medicin förvandlade efterfrågan på en ny generation datahantering. I slutet av 1990-talet, motor och internet företag som Google, Yahoo!, och Amazon. com kunde expandera sina affärsmodeller, utnyttja billig hårdvara för beräkning och lagring.

Därefter behövde dessa företag en ny generation av programvaruteknik som skulle göra det möjligt för dem att tjäna pengar på de enorma mängder data som de fängslade från kunderna. Dessa företag kunde inte vänta på resultat av analytisk bearbetning. De behövde förmågan att bearbeta och analysera dessa data i nära realtid.

Distribuerad databas för Big Data - dummies

Redaktörens val

Butik Stora data med HBase-dummies

Butik Stora data med HBase-dummies

HBase är en distribuerad, icke-relativ (kolumnär) databas som använder HDFS som dess uthållighet butik för stora dataprojekt. Den modelleras efter Google BigTable och kan ta emot mycket stora tabeller (miljarder kolumner / rader) eftersom den är lagrad på Hadoop-kluster av råvara. HBase tillhandahåller slumpmässig, realtid läs / skrivåtkomst till stora data. HBase ...

Strömmande algoritmer och blomfilters - dummies

Strömmande algoritmer och blomfilters - dummies

I hjärtat av många strömmande algoritmer är Bloom-filter. Skapat för nästan 50 år sedan av Burton H. Bloom, i en tid då datavetenskapen fortfarande var ganska ung, var den ursprungliga avsikten för denna algoritms skapare att handla utrymme (minne) och / eller tid (komplexitet) mot vad han kallade tillåtna fel. Hans ursprungliga papper heter ...

Lagring av data i Bigtables - dummies

Lagring av data i Bigtables - dummies

En Bigtable har tabeller precis som en RDBMS gör, men i motsats till en RDBMS, en Bigtable tabeller har i allmänhet inga relationer med andra tabeller. Istället grupperas komplexa data i ett enda bord. En tabell i en Bigtable består av grupper av kolumner, kallade kolumnfamiljer och en radnyckel. Dessa tillsammans möjliggör snabb uppslagning av ...

Redaktörens val

Bestämmer publiken för din finansiella modell - dummies

Bestämmer publiken för din finansiella modell - dummies

Som kommer att se eller använda din ekonomiska modell i framtiden ? Om det bara är för egen användning, bör du fortfarande följa bra modelldesign men det är inte nödvändigt att spendera mycket tid på formateringen så att den ser cool ut. Du borde fortfarande lägga till antaganden och källdokumentation för din egen ...

Radera celler och data i Excel 2007 - dummies

Radera celler och data i Excel 2007 - dummies

I Microsoft Office Excel 2007 när du behöver radera data , ta bort formatering i ett cellval, eller ta bort hela celler, rader eller kolumner, du har många alternativ beroende på ditt mål. Excel kan utföra två typer av cellborttagningar i ett kalkylblad: rensa celldata och radera cellen. Rensa cellinnehållet Rensa bara ...

Redigera en diagrams datakälla i Excel 2007 - dummies

Redigera en diagrams datakälla i Excel 2007 - dummies

Efter att du skapat ett diagram i Excel 2007 kan behöva byta intervallet för källdata som ligger till grund för diagrammet. Dialogrutan Välj datakälla låter dig välja ett annat källområde för ett befintligt diagram. Du kan även använda den här dialogrutan för att byta rad och ...

Redaktörens val

Praktiska Excel PivotTable Tools - dummies

Praktiska Excel PivotTable Tools - dummies

Excel PivotTables ger dig ett extremt kraftfullt verktyg för cross-tabulering av arbetsbladdata. Och kanske är det bara vad du förväntar dig av Microsoft och Excel. Men vet du vad? Jag antar att du kan bli förvånad över hur många verktyg som är enkla att använda visas på fliken PivotTable Tools Analyze, som är tillgänglig när ett pivottabell ...

Hur man får tillgång till vanliga redigeringskommandon i Excel 2007 - dummies

Hur man får tillgång till vanliga redigeringskommandon i Excel 2007 - dummies

Ibland vill du göra ändringar i information som du lägger in i Excel 2007-arbetsblad och arbetsböcker (kallas kalkylblad i världen utanför Excel). När så är fallet kan du använda de snygga nycklarna som är inbyggda i Excel 2007 eller komma åt kommandot via fliken Excel Ribbon som är nya i Excel 2007. För att få ...

Hur man får tillgång till vanliga Excel 2007-filkommandon - dummies

Hur man får tillgång till vanliga Excel 2007-filkommandon - dummies

Du kan köra Excel 2007s grundläggande filkommandon i två olika sätt: genom att trycka på en kombination av genvägar eller genom att klicka i Excel-bandet. Följande diagram visar några av de vanligaste filkommandon i Excel 2007 och de två sätten du kan komma åt dem: Excel-kommandotillgänglighetstangenter Funktion Microsoft ...