Video: Hybridlösningar för Big data - TechDays 2012 2024
När du försöker pussa ut vad en analysmiljö kan se ut i framtiden, snubblar du över mönstret för den Hadoopbaserade landningszonen gång på gång. Faktum är att det inte längre är en framtidsinriktad diskussion eftersom landningszonen har blivit den sättet som framåtriktade företag nu försöker spara IT-kostnader och ge en plattform för innovativ dataanalys.
Så vad exakt är landningszonen? På den mest grundläggande nivån är landningszonen bara den centrala platsen där data kommer att landa i ditt företag - veckovis extraheringar av data från operativa databaser, till exempel eller från system som genererar loggfiler. Hadoop är ett användbart förråd för att landa data, av följande skäl:
-
Det kan hantera alla typer av data.
-
Det är lätt skalbar.
-
Det är billigt.
-
När du landat data i Hadoop har du möjlighet att fråga, analysera eller bearbeta data på olika sätt.
Detta diagram visar bara en del av berättelsen och är inte alls komplett. När allt kommer omkring behöver du veta hur data flyttas från landningszonen till datalagret osv.
Utgångspunkten för diskussionen om modernisering av ett datalager måste vara hur organisationer använder datalager och de utmaningar IT-avdelningarna står inför med dem.
I början av 1980-talet började företagsledare att ha rapporter som genererades från denna relationella data, när organisationerna lyckades lagra sin operativa information i relationsdatabaser (t.ex. försäljningstransaktioner eller leverantörskedjestatuser). De tidigaste relationella butikerna var operativa databaser och utformades för OLTP (Online Transaction Processing), så att poster kunde infogas, uppdateras eller raderas så fort som möjligt.
Det här är en opraktisk arkitektur för storskalig rapportering och analys, så databaser för relativ onlineanalytisk bearbetning (ROLAP) utvecklades för att möta detta behov. Detta ledde till utvecklingen av en helt ny typ av RDBMS: a datalager, som är en separat enhet och lever tillsammans med en organisations operativa datalager.
Det här gäller att använda specialverktyg för ökad effektivitet. Du har operativa datalager som är konstruerade för att effektivt hantera transaktioner och datalager som är konstruerade för att stödja upprepad analys och rapportering.
Datavarehus är under ökad stress men av följande skäl:
-
Ökad efterfrågan att hålla längre perioder av data online.
-
Ökad efterfrågan på bearbetningsresurser för att omvandla data för användning i andra lager och data mars.
-
Ökad efterfrågan på innovativ analys, vilket kräver att analytiker ställer frågor om lagerdata, utöver den vanliga rapporteringen som redan görs. Detta kan medföra betydande ytterligare behandling.
I figuren kan du se datalagret som presenteras som den primära resursen för de olika typerna av analyser som anges längst till höger i figuren. Här ser du också konceptet för en landningszon som representeras, där Hadoop lagrar data från en rad inkommande datakällor.
För att aktivera en Hadops landningszon måste du se till att du kan skriva data från de olika datakällorna till HDFS. För relationsdatabaser skulle en bra lösning vara att använda Sqoop.
Men landningen av data är bara början.
När du flyttar data från många källor till din landningszon är det en fråga som du oundvikligen kommer att behöva köra in i datakvaliteten. Det är vanligt att företag har många operativa databaser där nyckeltal är olika, till exempel att en kund kan kallas "D. deRoos "i en databas, och" Dirk deRoos "i en annan.
Ett annat kvalitetsproblem ligger i system där det finns en stor tillit till manuell datainmatning, antingen från kunder eller personal. Det är inte ovanligt att hitta förnamn och efternamn omkopplade eller annan felaktig information i datafälten.
Datakvalitetsfrågor är en stor sak för datalagringsmiljöer, och det är därför som mycket arbete går in i rengörings- och valideringssteg, eftersom data från andra system bearbetas när det laddas in i lageret. Allt kommer ner till lita på : Om de data du ställer frågor är smutsiga kan du inte lita på svaren i dina rapporter.
Så det finns stor potential att ha tillgång till många olika datasatser från olika källor i din Hadops landningszon, du måste faktor i datakvalitet och hur mycket du kan lita på data.