Video: Hadoop Tutorial For Beginners | Hadoop Ecosystem Explained in 20 min! - Frank Kane 2024
Hadoop är mer än MapReduce och HDFS (Hadoop Distributed File System): Det är också en familj av relaterade projekt (ett ekosystem egentligen) för distribuerad databehandling och storskalig databehandling. De flesta (men inte alla) av dessa projekt är värd Apache Software Foundation. I tabellen visas några av dessa projekt.
Projektnamn | Beskrivning |
---|---|
Ambari | En integrerad uppsättning Hadoop-administrationsverktyg för
installering, övervakning och underhåll av ett Hadoop-kluster. Även ingår verktyg för att lägga till eller ta bort slavnoder. |
Avro | En ram för effektiv serialisering (en typ av
transformation) av data till ett kompakt binärt format |
Flume | En dataflödesservice för rörelse av stora volymer av logg > data i Hadoop
HBase |
En distribuerad kolumn databas som använder HDFS för dess underliggande lagring | . Med HBase kan du lagra data i extremt
stora tabeller med variabla kolumnstrukturer. HCatalog |
En tjänst för att tillhandahålla en relationsvy av data som lagras i | Hadoop, inklusive en standardinriktning för tabelldata
Hive |
Ett distribuerat datalager för data som lagras i HDFS; | ger också ett frågeformulär som bygger på SQL
(HiveQL) Hue |
Ett Hadoop-administrationsgränssnitt med praktiska GUI-verktyg för | surfa filer, utfärdar Hive and Pig-frågor och utvecklar Oozie < arbetsflöden
Mahout Ett bibliotek med maskininlärningsstatistikalgoritmer som |
implementerades i MapReduce och kan köras på Hadoop | Oozie
Ett arbetsflödeshanteringsverktyg som kan hantera schemaläggningen och > Kedja ihop med Hadoop-applikationer |
Pig | En plattform för analys av mycket stora dataset som körs
på HDFS och med ett infrastrukturlager som består av en kompilator |
som producerar sekvenser av MapReduce-program och en språkskikt | bestående av frågespråket namnet Pig Latin
Sqoop Ett verktyg för att effektivt flytta stora mängder data mellan relationsdatabaser och HDFS |
ZooKeeper | Ett enkelt gränssnitt till det centraliserade samordning av tjänster
(t.ex. namn, konfiguration och synkronisering) oss ed av |
distribuerade applikationer |
Hadops ekosystem och dess kommersiella distributioner fortsätter att utvecklas, med nya eller förbättrade tekniker och verktyg som växer hela tiden. Figuren visar de olika Hadops ekosystemprojekten och hur de relaterar till varandra: |