Hadoop-dummies uppkomst och design

Video: What is Hadoop? 2024

Så vad är det här med det roliga namnet Hadoop? I sin kärna är Hadoop ett ramverk för lagring av data på stora grupper av < Commodity -hårdvara - Daglig datormaskinvara som är överkomlig och lättillgänglig - och kör applikationer mot den data. Ett kluster är en grupp av sammankopplade datorer (känd som noder ) som kan fungera tillsammans om samma problem.

Med hjälp av nätverk av överkomliga beräknade resurser för att skaffa sig affärsinsikt, är Hadops viktiga värdeförslag.

Vad beträffar det namnet Hadoop, leta inte efter någon större betydelse där, det är helt enkelt det namn som Doug Cutting son gav till sin fyllda elefant. (Doug Cutting är givetvis medskaparen av Hadoop.) Namnet är unikt och lätt att komma ihåg - Egenskaper som gjorde det till ett utmärkt val. Hadoop består av två huvudkomponenter: en distribuerad bearbetningsram.

namnet MapReduce (som nu stöds av en komponent som heter YARN) och ett distribuerat filsystem som kallas Hadoop distribuerat filsystem eller HDFS.

En applikation som körs på Hadoop får sitt arbete delat mellan noderna (maskinerna) i klustret, och HDFS lagrar data som ska behandlas. Ett Hadoop-kluster kan omfatta tusentals maskiner, där HDFS lagrar data, och MapReduce-jobb gör bearbetningen nära data, vilket gör att I / O-kostnaderna är låga. MapReduce är extremt flexibel och möjliggör utveckling av ett brett utbud av applikationer.

Som du kanske har antydit är ett Hadoop-kluster en form av

compute cluster, en typ av kluster som används huvudsakligen för beräkningssyfte. I ett beräkningskluster kan många datorer ( beräkna noder ) dela beräkningsbelastningar och dra fördel av en mycket stor aggregerad bandbredd över klustret. Hadoop-kluster består typiskt av några

mästerknutar, som styr lagrings- och bearbetningssystemen i Hadoop och många slavnoder, som lagrar alla klusterdata och finns också där Uppgifterna behandlas.