Master nodar i Hadoop Clusters - dummies - Personliga finanser 2024

Mästerknoderna i distribuerade Hadoop-kluster är värd för de olika lagrings- och hanteringshanteringstjänsterna, som beskrivs i den här listan, för hela Hadoop-klustret. Redundans är avgörande för att man undviker enstaka misslyckanden, så du ser två växlar och tre huvudnodar.

NameNode: Hanterar HDFS-lagring. För att säkerställa hög tillgänglighet har du både en aktiv NameNode och en väntelägeNamnNod. Varje körs på egen hand, dedikerad huvudnod.
Checkpunktskod (eller säkerhetskopieringskod): Ger checkpoint tjänster för NameNode. Det här innebär att läsa NameNodes redigeringslogg för ändringar i filer i HDFS (nya, borttagna och bifogade filer) sedan den senaste kontrollpunkten och tillämpa dem på NameNodes huvudfil som kartar filer till datablock.

Dessutom innehåller Backup Node en kopia av filsystemets namnrymd i minnet och håller den synkroniserad med status för NameNode. För hög tillgänglighetsutbyggnad, använd inte en kontrollpunktskod eller säkerhetskod - använd en väntelägesnamn istället. Förutom att vara en aktiv standby för NameNode, behåller Standby NameNode kontrollpunktstjänsterna och håller en aktuell kopia av filsystemets namnrymd i minnet.
JournalNode: Ta emot redigeringslogg modifieringar som indikerar ändringar i filer i HDFS från NameNode. Minst tre JournalNode-tjänster (och det är alltid ett udda nummer) måste köras i ett kluster och de är lätta nog att de kan samlas med andra tjänster på masternoderna.
Resurshanterare: Övervakar schemaläggningen av applikationsuppgifter och hantering av Hadoop-klustrets resurser. Denna tjänst är hjärtat av Garn.
JobTracker: För Hadoop 1-servrar hanterar clusterresurshantering och schemaläggning. Med JARN är JobTracker föråldrad och används inte. Ett antal Hadoop-implementeringar har fortfarande inte migrerats till Hadoop 2 och YARN.
HMaster: Övervakar HBase-regionens servrar och hanterar alla metadataändringar. För att säkerställa hög tillgänglighet, var noga med att använda en andra HMaster-förekomst. HMaster-tjänsten är lätt nog att samlas med andra tjänster på huvudnoderna. I Hadoop 1 körs instanser av HMaster-tjänsten på masternoder. I Hadoop 2, med Hoya (HBase on Garn), kör HMaster instanser i behållare på slavnoder.
Zookeeper: Koordinater distribuerade komponenter och ger mekanismer för att hålla dem synkroniserade. Zookeeper används för att upptäcka felet i NameNode och välja en ny NameNode.Det används också med HBase för att hantera staterna i HMaster och RegionServers.

Som med JournalNode behöver du minst tre instanser av Zookeeper-noder (och alltid ett udda nummer), och de är lätta nog att samlas med andra tjänster på huvudnoderna.

Här har du tre huvudnoden (med samma maskinvara), där nyckeltjänsterna Active NameNode, Standby NameNode och Resource Manager har en egen server. Det finns även JournalNode och Zookeeper-tjänster som körs på varje server, men de är lätta och kommer inte att vara en källa till resursbeläggning med NameNode och Resource Manager-tjänsterna.

Principerna är desamma för Hadoop 1, där du behöver en särskild huvudnod för NameNode, Secondary NameNode och JobTracker-tjänster.

Om du planerar att använda HBase med Hoya i Hadoop 2 behöver du inga ytterligare tjänster. För Hadoop 1-implementeringar med hjälp av HBase, kolla in följande figur för utplacering av tjänster på Hadoop-klustrets huvudnoder.

Det finns två skillnader när man jämför dessa masterservrar till Hadoop 1-mästarservrarna utan HBase-support: här behöver du två HMaster-tjänster (en för att koordinera HBase och en för att fungera som ett vänteläge) och Zookeeper-tjänster på alla tre huvudnoder att hantera failover.

Om du tänker använda ditt Hadoop 1-kluster endast för HBase, kan du utan JobTracker-tjänsten, eftersom HBase inte är beroende av Hadoop 1 MapReduce-infrastrukturen.

När folk pratar om hårdvara för Hadoop, betonar de i allmänhet användningen av commodity -komponenter - de billigaste. Eftersom du måste plunka ner för bara några huvudnodar (vanligtvis tre eller fyra), drabbas du inte av att multiplicera kostnader om du till exempel väljer att använda dyra hårddiskar.

Tänk på att det inte finns några Hadoop-kluster utan mästerknutar. Mästerknoder tjänar en missionskritisk funktion, och även om du behöver redundans bör du utforma dem med hög tillgänglighet och resiliency i åtanke.

Rekommenderad lagring

För Hadoop-mästerknutar, oberoende av antalet slavnoder eller användningsområden för klustret, är lagringsegenskaperna konsekventa. Använd fyra 900 GB SAS-enheter, tillsammans med en RAID HDD-kontroller konfigurerad för RAID 1 + 0. SAS-enheter är dyrare än SATA-enheter, och har lägre lagringskapacitet, men de är snabbare och mycket mer tillförlitliga.

Genom att distribuera dina SAS-enheter som en RAID-grupp säkerställs att Hadoop-hanteringstjänsterna har en redundant butik för sina missionskritiska data. Detta ger dig tillräckligt med stabilt, snabbt och överflödigt lagringsutrymme för att stödja hanteringen av ditt Hadoop-kluster.

Rekommenderade processorer

Vid tidpunkten för detta skrivande rekommenderar de flesta referensarkitekturer att använda moderkort med två CPU-uttag, vardera med sex eller åtta kärnor. Intel Ivy Bridge arkitekturen används vanligtvis.

Rekommenderat minne

Minneskraven varierar kraftigt beroende på omfattningen av ett Hadoop-kluster.Minne är en kritisk faktor för Hadoop-mästerknutor eftersom de aktiva och standby NameNode-servrarna är starka på RAM för att hantera HDFS. Använd som sådan felkorrigeringsminne (ECC) för Hadoop-masternoder. Normalt behöver masternoder mellan 64 GB och 128 GB RAM.

Minneskravet NameNode är en direkt funktion av antalet filblock som är lagrade i HDFS. Normalt använder NameNode ungefär 1 GB RAM per miljon HDFS-block. (Kom ihåg att filer delas upp i enskilda block och replikeras så att du har tre kopior av varje block.)

Minneskraven för Resource Manager, HMaster, Zookeeper och JournalNode-servrar är betydligt mindre än för NameNode-servern. Det är dock bra att förstora masternoderna på ett konsekvent sätt så att de är utbytbara i händelse av hårdvarufel.

Rekommenderat nätverk

Snabb kommunikation är avgörande för tjänsterna på masternoder, så vi rekommenderar att du använder ett par anslutna 10GbE-anslutningar. Detta bundna par ger redundans, men fördubblas också till 20GbE. För mindre kluster (till exempel mindre än 50 noder) kan du komma undan med 1 GbE-kontaktdon.