Alternativa distributionsformfaktorer för Hadoop dummies

Video: TEODORA - ALTERNATIVA (OFFICIAL VIDEO) 2025

Om Hadoop fungerar bäst när det installeras på en fysisk dator, där bearbetningen har direkt tillgång till dedikerad lagring och nätverk, har Hadoop alternativa implementeringar. Och även om de är mindre effektiva än den dedikerade hårdvaran, är alternativ i vissa fall bra alternativ.

Virtuella servrar

En stor trend i IT-centra under det senaste decenniet är virtualisering, där en stor server kan vara värd för flera "virtuella maskiner" som ser ut och fungerar som enstaka maskiner. I stället för dedikerad hårdvara används en organisations hela uppsättning program och repositorier på virtualiserad hårdvara.

Detta tillvägagångssätt har många fördelar: Centraliseringen av IT förenklar underhållet, IT-investeringarna maximeras på grund av färre oanvända CPU-cykler och det totala hårdvarufotet är lägre vilket resulterar i en lägre total ägandekostnad.

Organisationer där IT-implementeringar är helt virtualiserade mandat att varje ny applikation följer denna modell. Även om Hadoop kan distribueras på detta sätt, i huvudsak som ett virtuellt kluster (med virtuella mästerknoder och virtuella slavnoder), uppstår prestanda, delvis för att för de flesta virtualiserade miljöer är lagring SAN-baserad och inte lokalt kopplad.

Eftersom Hadoop är utformad för att fungera bäst när alla tillgängliga CPU-kärnor har snabb åtkomst till självständigt roterande skivor skapas en flaskhals som hela kartan och reducerar uppgifterna och börjar bearbeta data via det begränsade nätverket mellan processorerna och SAN. Eftersom graden av isolering mellan virtualiserade serverresurser är begränsad (virtuella servrar delar resurser med varandra), kan Hadops arbetsbelastningar också påverkas av annan aktivitet.

När din virtuella serverns prestanda påverkas av en annan servers arbetsbelastning, är det faktiskt känt i IT-kretsar som ett problem med bullriga grannar!

Virtuella miljöer kan dock vara ganska användbara, i vissa fall. Om din organisation exempelvis behöver komplettera en engångsanalys av en stor dataset, kan du enkelt skapa ett tillfälligt kluster i din virtualiserade miljö. Denna metod är ofta ett snabbare sätt att få internt godkännande än att uthärda de byråkratiska problemen med att skaffa ny dedikerad hårdvara.

När du experimenterar med Hadoop kör du det ofta på dina bärbara datorer via en virtuell maskin (VM). Hadoop är extremt långsam i denna typ av miljö, men om du använder små datasatser är det ett värdefullt lärande och testverktyg.

Cloud-implementeringar

Variationer av virtualiserade miljöer är cloud computing-leverantörer som Amazon, Rackspace och IBM SoftLayer. De flesta stora offentliga molnleverantörer har nu MapReduce eller Hadoop-erbjudanden tillgängliga för användning. Återigen är deras prestanda sämre än att använda ditt kluster på dedikerad hårdvara, men det förbättras.

Cloud-leverantörer gör Hadoop-optimerade miljöer tillgängliga där slavnoder har lokalt lagring och dedikerat nätverk. Hypervisorer blir också mycket effektivare, med minskad överhuvud och latens.

Betrakta inte en molnlösning för långsiktiga applikationer, eftersom kostnaden för att hyra molnberäkningsresurser är betydligt högre än att ägna och behålla ett jämförbart system. Med en molnleverantör betalar du för enkelhets skyld och för att kunna ladda upp överhead av provisioning-hårdvara. Molnet är dock en idealisk plattform för testning, utbildning och engångsuppgifter för databehandling.

Bortsett från prestations- och kostnadsöverväganden har du regleringshänsyn med offentliga molnutläggningar. Om du har känslig data, som måste lagras antingen in-house eller in-country, är det inte ett alternativ att använda det offentliga molnet. I sådana fall, där du behöver bekvämligheten med en molnbaserad utplacering, är ett privat moln ett bra alternativ om det är tillgängligt.