Dimensionering Din Hadoop Cluster - dummies

Video: Varmehjul.dk - Dimensionering af køle- og varmeanlæg 2024

Storleksanpassa alla databehandlingssystem är lika mycket en vetenskap som den är en konst. Med Hadoop anser du att samma information som du skulle ha med en relationsdatabas, till exempel. Mest viktigt måste du veta hur mycket data du har, uppskatta dess förväntade tillväxttal och fastställa en retention policy (hur länge för att behålla data).

Svaren på dessa frågor fungerar som utgångspunkt, vilket är oberoende av tekniska krav.

Efter att du bestämmer hur mycket data du måste lagra, kan du börja factoring i Hadoop-specifika överväganden. Antag att du har ett telekomföretag och du har fastställt att du behöver 750 terabyte (TB) för lagringsutrymme för sina loggfiler. Du behåller dessa poster för att följa regeringsbestämmelserna, men du kan också analysera dem o se churn mönster och övervaka nätverk hälsa, till exempel. För att bestämma hur mycket lagringsutrymme du behöver, och som ett resultat av hur många rack och slavnoder du behöver, utför du dina beräkningar med dessa faktorer i åtanke:

Replikering:

Standardreplikationsfaktorn för data i HDFS är 3. De 500 terabyte CDR-data för telekomföretaget i exemplet blir då till 1500 terabyte. Bytesplats:
En analys eller behandling av data med MapReduce behöver ytterligare 25 procent av mellanslag för att lagra eventuella interimsresultat och slutresultat. (Teleföretaget behöver nu 1875 terabyte lagringsutrymme.)

Komprimering:
Teleföretaget lagrar CDR: erna i komprimerad form, där det genomsnittliga kompressionsförhållandet förväntas vara 3: 1. Du behöver nu 625 terabyte. Antal slavnoder:
Antag att varje slavnod har tolv 3TB-enheter som är dedikerade till HDFS, och varje slavnod har 36 terabyte rå HDFS-lagring tillgänglig, så företaget behöver 18 slavnoder. Antal rader:
Eftersom varje slavnod använder 2RU och företaget i exemplet behöver tre huvudnoder (1RU stycke) och två ToR-switchar (1RU stycke), behöver du totalt 41RU. Det är 1RU mindre än den totala kapaciteten hos ett standardstativ, så en enda rack är tillräcklig för denna utplacering. Oavsett det finns inget utrymme för tillväxt i det här klustret, så det är klokt att köpa en andra rack (och två ytterligare ToR-växlar) och dela slavenoderna mellan de två rackarna.

Testning:
Att upprätthålla ett testkluster som är en mindre skala representation av produktionsklustret är en standardpraxis. Det behöver inte vara enormt, men du vill ha minst fem datodenoder så att du får en korrekt representation av Hadops beteende.Liksom med vilken testmiljö som helst, bör den isoleras på ett annat nätverk från produktionsklustret. Säkerhetskopiering och katastrofåterställning:
Liksom alla produktionssystem måste telekombolaget också överväga säkerhetskopiering och katastrofåtervinning. Detta företag kan gå så långt som att skapa ett spegelkluster för att säkerställa att de har en varm standby för hela sitt system. Detta är uppenbarligen det dyraste alternativet, men lämpar sig för miljöer där konstant upptid är kritisk. Telekomföretaget kan i det minst dyrbara slutet av spektret (utan att säkerhetskopiera data alls) regelbundet säkerhetskopiera alla data (inklusive data själva, applikationer, konfigurationsfiler och metadata) lagras i deras produktionskluster att tejpa. Med tejp är data inte omedelbart tillgängliga, men det kommer att möjliggöra en katastrofåterställningsansträngning om hela Hadops-klustret misslyckas.

Precis som med din egen dator, när hårddisken på hårddisken fyller med utrymme, sänks systemet avsevärt. Hadoop är inget undantag. Dessutom fungerar en hårddisk bättre när den är mindre än 85 till 90 procent full. Med den här informationen i åtanke, om prestanda är viktigt för dig borde du stöta på swap-spacefaktorn från 25 till 33 procent.