Video: Kenneth Cukier: Big data is better data 2024
Sökmotorer som Yahoo! och Google mötte ett problem med mossa. De behövde hitta ett sätt att förnuftiga de enorma mängder data som deras motorer samlade. Dessa företag behövde både förstå vilken information de samlade och hur de kunde tjäna pengar på dessa data för att stödja sin affärsmodell.
Hadoop utvecklades eftersom det var det mest pragmatiska sättet att låta företag hantera stora datamängder enkelt. Hadoop tillät stora problem att brytas ner i mindre element så att analys kan göras snabbt och kostnadseffektivt.
Genom att bryta det stora dataproblemet i små bitar som kan bearbetas parallellt, kan du bearbeta informationen och omgruppera de små bitarna för att presentera resultat.
Hadoop byggdes ursprungligen av en Yahoo! ingenjör med namnet Doug Cutting och är nu ett open source-projekt som hanteras av Apache Software Foundation. Den är tillgänglig under Apache-licensen v2. 0.
Hadoop är ett grundläggande byggstenar i vår önskan att fånga och bearbeta stora data. Hadoop är utformad för att parallellisera databehandling över datortoder för att påskynda beräkningar och dölja latentitet. I sin kärna har Hadoop två huvudkomponenter:
-
Hadoop Distributed File System: En pålitlig, högbandbredd, låg kostnad, datalagringskluster som underlättar hanteringen av relaterade filer över maskiner.
-
MapReduce engine: En högpresterande parallell / distribuerad databehandling av MapReduce-algoritmen.
Hadoop är utformad för att bearbeta enorma mängder strukturerad och ostrukturerad data (terabytes till petabytes) och implementeras på rader av råvaruservrar som Hadoop-kluster. Servrar kan läggas till eller tas bort från klustret dynamiskt eftersom Hadoop är utformad för att vara "självläkande. "Hadoop kan med andra ord upptäcka förändringar, inklusive misslyckanden, och anpassa sig till dessa förändringar och fortsätta att fungera utan avbrott.