Hybrid Data Preprocess Option i Hadoop-dummies

Video: Bringing Data Science at Scale to Hortonworks Data Platform 2024

Förutom att du måste lagra större volymer kalldata, ser du ett tryck som du ser i Traditionella datalager är att ökande mängder bearbetningsresurser används för transformation (ELT) arbetsbelastningar.

Tanken bakom att använda Hadoop som en förbehandlingsmotor för att hantera datatransformation innebär att värdefulla bearbetningscykler frigörs, vilket gör det möjligt för datalagret att följa sitt ursprungliga syfte: Besvara upprepade affärsfrågor för att stödja analytiska applikationer. Återigen ser du hur Hadoop kan komplettera traditionella data warehouse deployments och förbättra deras produktivitet.

Kanske har en liten, imaginär glödlampa tändat över huvudet och du tänker: "Hej, kanske finns det några omvandlingsuppgifter som passar perfekt för Hadops databehandlingsförmåga, men jag vet att det finns också mycket omvandlingsarbete bromsat i algebraiska steg-för-steg-uppgifter där kör SQL på en relationsdatabasmotor skulle vara det bättre valet. Skulle det inte vara kul om jag kunde köra SQL på Hadoop? ”

SQL på Hadoop är redan här. Med möjligheten att utfärda SQL-frågor mot data i Hadoop är du inte fast med bara ETL-tillvägagångssätt för dina dataflöden - du kan också distribuera ELT-liknande applikationer.

En annan hybrid metod att överväga är var att driva din transformationslogik: i Hadoop eller i datalagret? Även om vissa organisationer är oroade över att köra allt annat än analytik i sina lager, är det faktum att relationsdatabaser är utmärkta för att köra SQL och kan vara en mer praktisk plats att driva en omvandling än Hadoop.