Video: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2024
Eftersom många befintliga Hadoop-implementeringar fortfarande inte använder ännu en annan resursförhandlare (YARN), ta en snabb titt på hur Hadoop lyckades sin databehandling före dagarna av Hadoop 2. Koncentrera sig på den roll som JobTracker master daemons och TaskTracker slavdemoner spelade för att hantera MapReduce-bearbetning.
Hela syftet med att använda distribuerade system är att kunna distribuera datorresurser i ett nätverk av fristående datorer på ett sätt som är feltolerant, enkelt och billigt.
I ett distribuerat system som Hadoop, där du har ett kluster av självständiga beräkningsmoder som alla arbetar parallellt, går en hel del komplexitet till att alla delar fungerar tillsammans. Som sådana har dessa system vanligtvis olika lager för att hantera olika uppgifter för att stödja parallell databehandling.
Detta begrepp, känt som separation av oro, , säkerställer att om du till exempel är programansvarig, behöver du inte oroa dig för de specifika detaljerna för kartuppgifter. I Hadoop består systemet av dessa fyra olika lager, som visas:
-
Distribuerad lagring: Hadoop Distributed File System (HDFS) är lagringsskiktet där data, interimresultat och slutresultatsset sparas.
-
Resurshantering: Förutom diskutrymme har alla slavnoder i Hadoop-klustret CPU-cykler, RAM och nätverksbandbredd. Ett system som Hadoop behöver kunna paketera ut dessa resurser så att flera applikationer och användare kan dela klustret på förutsägbara och avstämbara sätt. Detta jobb är gjort av JobTracker-demonen.
-
Bearbetningsram: Processflödet MapReduce definierar utförandet av alla applikationer i Hadoop 1. Detta börjar med kartfasen; fortsätter med aggregering med blandning, sortering eller sammanfogning och slutar med reduktionsfasen. I Hadoop 1 hanteras detta också av JobTracker-demonen, med lokal körning som hanteras av TaskTracker-demoner som kör på slavnoden.
-
Application Programming Interface (API): Program som utvecklats för Hadoop 1 behövde kodas med MapReduce API. I Hadoop 1 ger programmen Hive and Pig programmerare med enklare gränssnitt för att skriva Hadoop-applikationer, och under huven kompilerar koden ner till MapReduce.
I världen av Hadoop 1 (som var den enda världen du hade fram till ganska nyligen), roterade all databehandling runt MapReduce.