Hadoop och Hive dummies

Video: Big Data analysis Hadoop with Mapreduce, HIVE, PIG and Spark class 10 2024

För att göra en lång historia kort, ger Hive Hadoop en bro till RDBMS världen och tillhandahåller en SQL-dialekt som kallas Hive Query Language (HiveQL), som kan användas för att utföra SQL-liknande uppgifter. Det är de stora nyheterna, men det finns mer att Hive än vad som stämmer överens med ögat, som de säger, eller fler tillämpningar av den här nya tekniken än vad du kan presentera i en vanlig hissstigning.

Till exempel möjliggör Hive det koncept som kallas Enterprise Data Warehouse (EDW) augmentation, ett ledande användarfall för Apache Hadoop, där datalager är uppbyggda som RDBMSs byggda speciellt för dataanalys och rapportering.

tillägg till företaget och att den kan augment och komplettera befintliga EDWs. Hive, HBase och Sqoop möjliggör EDW augmentation. Nästan förknippad med RDBMS / EDW-tekniken är extrakt, transform och laddningsteknik (ETL). För att förstå vad ETL gör, hjälper det att veta att i många användningsfall inte data kan laddas omedelbart i relationsdatabasen - det måste först utvinnas från sin ursprungliga källa, omvandlas till ett lämpligt format och laddas sedan in i RDBMS eller EDW.

Ett företag eller en organisation kan exempelvis extrahera ostrukturerad textdata från ett internetforum, omvandla data till ett strukturerat format som är både värdefullt och användbart och sedan ladda de strukturerade data i sin EDW.

Du kan se att Hive är ett kraftfullt ETL-verktyg i sin egen rätt, tillsammans med den stora aktören i detta rike: Apache Pig. Igen kan användarna försöka ställa in Hive and Pig som

de nya ETL-verktygen för datacentret. (Låt dem försöka.)

Som med debatten om EDW kontra Apache Hadoop är dessa Apache Hadoop-teknologier inte direkta ersättning s för befintliga ETL-verktyg, utan istället är kraftfulla nya ETL-verktyg att vara används när det är lämpligt. Sist men inte minst, Apache Hive ger dig kraftfulla analysverktyg, allt inom ramen för HiveQL. Dessa verktyg bör se och känna sig välkända för IT-proffs som förstår hur man använder SQL.