Video: HDInsight: Fast Interactive Queries with Hive on LLAP | Azure Friday 2024
Apache Hive är otvivelaktigt det mest utbredda datasökningsgränssnittet i Hadoop-community. Ursprungligen var designmålen för Hive inte för fullständig SQL-kompatibilitet och hög prestanda, men skulle tillhandahålla ett enkelt, något välkänt gränssnitt för utvecklare som behöver utfärda batchfrågor mot Hadoop.
Denna ganska piecemeal approach fungerar inte längre, så efterfrågan växer för riktigt SQL-stöd och bra prestanda. Hortonworks svarade på denna efterfrågan genom att skapa Stinger-projektet, där det investerade sina utvecklingsresurser för att förbättra Hive för att vara snabbare, att skala på petabyte nivå och vara mer kompatibel med SQL-standarder. Arbetet skulle levereras i tre faser.
I fas 1 och 2 såg du ett antal optimeringar för hur frågor bearbetades och dessutom stöd för traditionella SQL-datatyper. tillägget av ORCFile-formatet för effektivare bearbetning och lagring; och integration med YARN för bättre prestanda.
I fas 3 sker de verkligt signifikanta utvecklingen som avkallar Hive från MapReduce. Specifikt innebär det att release av Apache Tez, som är en alternativ behandlingsmodell för Hadoop, utformad för interaktiv arbetsbelastning.
Utöver Stinger-projektet, speglar Hortonworks ett ambitiöst initiativ för att Hive ska kunna stödja redigeringsdata på radnivå med fullständig överensstämmelse med ACID-egenskaperna för databasystem: Atomicity, Consistency, Isolation levels, och hållbarhet.