Video: Big Data analysis Hadoop with Mapreduce, HIVE, PIG , Zookeeper and Spark class 9 2024
Hadoop är ett rikt och snabbt utvecklande ekosystem med en växande uppsättning nya applikationer. I stället för att försöka hålla fast vid alla krav på nya möjligheter, är Pig utformad för att kunna utökas via användardefinierade funktioner , även kända som UDF.
UDF kan skrivas i ett antal programmeringsspråk, inklusive Java, Python och JavaScript. Utvecklare lägger också ut och delar en växande samling UDF-filer online. (Se Piggy Bank och DataFu, för att bara nämna två exempel på sådana onlinesamlingar.) Några av de Pig-UDF-er som ingår i dessa repositorier är LOAD / STORE-funktioner (XML, till exempel), datumtidsfunktioner, text, matte, och statistikfunktioner.
Pig kan också vara inbäddad i värdsprog som Java, Python och JavaScript, vilket gör att du kan integrera Pig med dina befintliga applikationer. Det bidrar också till att övervinna begränsningar i gris språket. En av de vanligaste referensbegränsningarna är att gris inte stöder kontrollflödesdeklarationer: om / annars, medan slinga, för slinga och tillståndsdeklarationer.
Gris stöder dataflöde, men måste inbäddas på ett annat språk för att ge kontrollflödet. Det finns skillnader, dock med inbäddning av gris i ett kontrollflödesspråk. Till exempel om ett grisdeklaration är inbäddat i en slinga, varje gång slingan repeterar och körs Pig-satsen, orsakar det att ett separat MapReduce-jobb ska köras.