Hem Personliga finanser Hadoop-baserade landningszonen - dummies

Hadoop-baserade landningszonen - dummies

Video: Hybridlösningar för Big data - TechDays 2012 2024

Video: Hybridlösningar för Big data - TechDays 2012 2024
Anonim

När du försöker pussa ut vad en analysmiljö kan se ut i framtiden, snubblar du över mönstret för den Hadoopbaserade landningszonen gång på gång. Faktum är att det inte längre är en framtidsinriktad diskussion eftersom landningszonen har blivit den sättet som framåtriktade företag nu försöker spara IT-kostnader och ge en plattform för innovativ dataanalys.

Så vad exakt är landningszonen? På den mest grundläggande nivån är landningszonen bara den centrala platsen där data kommer att landa i ditt företag - veckovis extraheringar av data från operativa databaser, till exempel eller från system som genererar loggfiler. Hadoop är ett användbart förråd för att landa data, av följande skäl:

  • Det kan hantera alla typer av data.

  • Det är lätt skalbar.

  • Det är billigt.

  • När du landat data i Hadoop har du möjlighet att fråga, analysera eller bearbeta data på olika sätt.

Detta diagram visar bara en del av berättelsen och är inte alls komplett. När allt kommer omkring behöver du veta hur data flyttas från landningszonen till datalagret osv.

Utgångspunkten för diskussionen om modernisering av ett datalager måste vara hur organisationer använder datalager och de utmaningar IT-avdelningarna står inför med dem.

I början av 1980-talet började företagsledare att ha rapporter som genererades från denna relationella data, när organisationerna lyckades lagra sin operativa information i relationsdatabaser (t.ex. försäljningstransaktioner eller leverantörskedjestatuser). De tidigaste relationella butikerna var operativa databaser och utformades för OLTP (Online Transaction Processing), så att poster kunde infogas, uppdateras eller raderas så fort som möjligt.

Det här är en opraktisk arkitektur för storskalig rapportering och analys, så databaser för relativ onlineanalytisk bearbetning (ROLAP) utvecklades för att möta detta behov. Detta ledde till utvecklingen av en helt ny typ av RDBMS: a datalager, som är en separat enhet och lever tillsammans med en organisations operativa datalager.

Det här gäller att använda specialverktyg för ökad effektivitet. Du har operativa datalager som är konstruerade för att effektivt hantera transaktioner och datalager som är konstruerade för att stödja upprepad analys och rapportering.

Datavarehus är under ökad stress men av följande skäl:

  • Ökad efterfrågan att hålla längre perioder av data online.

  • Ökad efterfrågan på bearbetningsresurser för att omvandla data för användning i andra lager och data mars.

  • Ökad efterfrågan på innovativ analys, vilket kräver att analytiker ställer frågor om lagerdata, utöver den vanliga rapporteringen som redan görs. Detta kan medföra betydande ytterligare behandling.

I figuren kan du se datalagret som presenteras som den primära resursen för de olika typerna av analyser som anges längst till höger i figuren. Här ser du också konceptet för en landningszon som representeras, där Hadoop lagrar data från en rad inkommande datakällor.

För att aktivera en Hadops landningszon måste du se till att du kan skriva data från de olika datakällorna till HDFS. För relationsdatabaser skulle en bra lösning vara att använda Sqoop.

Men landningen av data är bara början.

När du flyttar data från många källor till din landningszon är det en fråga som du oundvikligen kommer att behöva köra in i datakvaliteten. Det är vanligt att företag har många operativa databaser där nyckeltal är olika, till exempel att en kund kan kallas "D. deRoos "i en databas, och" Dirk deRoos "i en annan.

Ett annat kvalitetsproblem ligger i system där det finns en stor tillit till manuell datainmatning, antingen från kunder eller personal. Det är inte ovanligt att hitta förnamn och efternamn omkopplade eller annan felaktig information i datafälten.

Datakvalitetsfrågor är en stor sak för datalagringsmiljöer, och det är därför som mycket arbete går in i rengörings- och valideringssteg, eftersom data från andra system bearbetas när det laddas in i lageret. Allt kommer ner till lita på : Om de data du ställer frågor är smutsiga kan du inte lita på svaren i dina rapporter.

Så det finns stor potential att ha tillgång till många olika datasatser från olika källor i din Hadops landningszon, du måste faktor i datakvalitet och hur mycket du kan lita på data.

Hadoop-baserade landningszonen - dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...