Video: Mo' Data, Mo' Problems, E02: HDFS 2024
Lösningen att expandera Hadoop-kluster på obestämd tid är att federera namnet. Innan Hadoop 2 kom in i scenen, hade Hadoop-kluster att leva med det faktum att NameNode ställde gränser för hur mycket de kunde skala. Få kluster kunde skala över 3 000 eller 4 000 noder.
NameNode behöver behålla poster för varje block av data som lagras i klustret visade sig vara den viktigaste faktorn som begränsar ökad grupptillväxt. När du har för många kvarter blir det allt svårare för NameNode att skala upp när Hadoop-klyftan skaar ut.
Specifikt måste du ställa in HDFS så att du har flera NameNode-instanser som körs på egna dedikerade mästerknoder och sedan gör varje NameNode ansvarig endast för filblocken i sitt eget namnutrymme.
Figuren visar replikationsmönster för datablock i HDFS. Du kan se ett Hadoop-kluster med två NameNodes som betjänar ett enda kluster. Slavenoderna innehåller alla block från båda namnen.