Vad är Hadoop? - dummies - Personliga finanser 2024

Video: Vad är Hadoop och Hortonworks? 2024

Hadoop är ett open-source databehandlingsverktyg som utvecklades av Apache Software Foundation. Hadoop är för närvarande go-to-programmet för hantering av stora volymer och varianter av data eftersom den utformades för att göra storskalig databehandling överkomlig och flexibel. Med ankomsten av Hadoop har massdatabehandling introducerats till betydligt fler människor och fler organisationer.

Hadoop kan erbjuda dig en bra lösning för att hantera, bearbeta och gruppera massflöden av strukturerad, halvstrukturerad och ostrukturerad data. Genom att installera och distribuera Hadoop får du ett relativt överkomligt sätt att börja använda och dra in insikter från all din organisations data, i stället för att bara förlita sig enbart på den transaktionsdataset som du har satt över i ett gammalt datalager någonstans.

Hadoop är ett av de mest populära programmen för storskaliga datakrav. Hadoop tillhandahåller ett kart-och-reducera lager som klarar av hantering av databehandlingskraven för de flesta stora dataprojekt.

Ibland blir data för stora och snabba för att även Hadoop ska hantera. I dessa fall vänder organisationer istället till alternativa, mer anpassade MapReduce-implementeringar.

Hadoop använder kluster av råvara för lagring av data. Hårdvaran i varje kluster är ansluten, och den här hårdvaran består av commodity servrar - billiga och lågpresterande generiska servrar som erbjuder kraftfulla databehandlingskapacitet när de kör parallellt över ett delat kluster. Dessa varuservrar kallas också noder . Commoditized computing minskar dramatiskt kostnaderna för hantering och lagring av stora data.

En distribuerad bearbetningsram:

Hadoop använder Hadoop MapReduce som sin distribuerade bearbetningsram. Igen är en distribuerad bearbetningsrama en kraftfull ram där bearbetningsuppgifter fördelas över kluster av noder så att stora datamängder kan behandlas mycket snabbt över hela systemet. Ett distribuerat filsystem:
Hadoop använder Hadoop Distributed File System (HDFS) som det distribuerade filsystemet. Arbetsbelastningen av program som körs på Hadoop är uppdelad i nodarna i Hadoop-klustret, och sedan lagras utsignalen på HDFS. Hadoopklustret kan bestå av tusentals noder. För att hålla kostnaderna för input / output (I / O) processer låga, utfördes Hadoop MapReduce-jobb så nära data som möjligt.

Detta innebär att processorerna för att minska uppgifterna placeras så nära som möjligt för de utgående kartuppgifter som behöver behandlas. Denna design underlättar delning av beräkningskrav i stor databehandling.

Hadoop stöder också hierarkisk organisation. Några av dess noder klassificeras som huvudnoder, och andra kategoriseras som slavar. Huvudtjänsten, känd som

JobTracker , är avsedd att styra flera slavtjänster. Slavtjänster (även kallad TaskTrackers ) distribueras till varje nod. JobTracker kontrollerar TaskTrackers och tilldelar Hadoop MapReduce-uppgifter till dem. I en nyare version av Hadoop, känd som Hadoop 2, tillsattes en resurschef som heter Hadoop YARN. Med avseende på MapReduce i Hadoop fungerar YARN som ett integrerat system som utför resurshantering och schemaläggningsfunktioner.

Hadoop behandlar data i sats. Om du arbetar med realtidsströmmande data kommer du följaktligen inte att kunna använda Hadoop för att hantera dina stora datafrågor. Detta sagt, det är mycket användbart för att lösa många andra typer av stora dataproblem.