Video: What is ETL | Extract, Transform and Load | Big Data on Hadoop [Part 2] | Tutorial | Great Learning 2024
Tanken på Hadoop-inspirerade ETL-motorer har fått mycket dragkraft de senaste åren. Hadoop är trots allt en flexibel datalagrings- och behandlingsplattform som kan stödja stora mängder data och operationer på den data. Samtidigt är det feltolerant, och det ger möjlighet till kostnads- och kostnadsminskningar för kapital och programvara.
Trots Hadops popularitet som en ETL-motor, rekommenderar många människor (däribland en berömd analytiker) inte Hadoop som enda teknik för din ETL-strategi. Det beror till stor del på att utveckla ETL-flöden kräver stor kunskap om organisationens befintliga databassystem, själva dataens natur och rapporter och tillämpningar som är beroende av det.
Med andra ord måste DBA: erna, utvecklarna och arkitekterna i din IT-avdelning bli bekanta med Hadoop för att genomföra de nödvändiga ETL-flödena. Exempelvis kan mycket intensiv handkodning med Pig, Hive eller MapReduce vara nödvändig för att skapa även de enklaste dataflödena - vilket sätter ditt företag på kroken för dessa färdigheter om det följer den här vägen.
Du måste koda element som parallell debugging, applikationshanteringstjänster (t.ex. kontrollpekning och fel och händelsehantering). Också överväga företagskrav som glossarisering och att kunna visa din datas raden.
Det finns regelverkskrav för många branschstandardrapporter, där dataöverföring behövs. Den rapporterande organisationen måste kunna visa var datapunkterna i rapporten kommer ifrån, hur data har kommit till dig och vad som har gjorts med data.
Även för relationsdatabassystem är ETL komplext att det finns populära specialiserade produkter som ger gränssnitt för hantering och utveckling av ETL-flöden. Några av dessa produkter hjälp nu med Hadoop-baserad ETL och annan Hadoop-baserad utveckling. Beroende på dina krav kan du dock behöva skriva en del av din egen kod för att stödja din transformationslogik.