Video: Create and Execute MapReduce in Eclipse 2024
En del av Big Data For Dummies Cheat Sheet
Hadoop, en öppen källkodsramverk, använder HDFS (Hadoop Distributed File System) och MapReduce för att analysera stora data på produktklyftor hårdvara-det vill säga i en distribuerad datormiljö.
Hadops Distributed File System (HDFS) utvecklades för att göra det lättare för företag att hantera stora datamängder på ett enkelt och pragmatiskt sätt. Hadoop tillåter stora problem att brytas ner i mindre delar så att analys kan ske snabbt och kostnadseffektivt. HDFS är ett mångsidigt, fjädrande, klusterriktat sätt att hantera filer i en stor datamiljö.
HDFS är inte det slutliga målet för filer. Det är snarare en datatjänst som erbjuder en unik uppsättning funktioner som behövs när datamängder och hastighet är höga.
MapReduce är en programvara som gör det möjligt för utvecklare att skriva program som kan bearbeta massiva mängder ostrukturerad data parallellt över en distribuerad grupp processorer. MapReduce designades av Google som ett sätt att effektivt utföra en uppsättning funktioner mot en stor mängd data i batchläge.
Komponenten "karta" distribuerar programmeringsproblemet eller -uppgifterna över ett stort antal system och hanterar placeringen av uppgifterna på ett sätt som balanserar belastningen och hanterar återhämtning från fel. När den distribuerade beräkningen är avslutad, aggregerar en annan funktion som kallas "reducera" alla element ihop för att ge ett resultat. Ett exempel på MapReduce-användning skulle vara att bestämma hur många sidor av en bok som är skrivna på var och en av 50 olika språk.