Data upptäckt och sandlådor i Hadoop - dummies

Datafunnet blir en allt viktigare aktivitet för organisationer som bygger på deras data som en differentiator. Idag beskriver det de flesta företag, eftersom möjligheten att se trender och extrahera betydelse från tillgängliga dataset gäller för nästan vilken bransch som helst.

Vad detta kräver är två kritiska komponenter: analytiker med kreativitet att tänka på nya sätt att analysera dataset för att ställa nya frågor (ofta kallas dessa analytiker datavetenskapare ); och att ge dessa analytiker tillgång till så mycket data som möjligt.

Tänk på det traditionella analysmetoden i dagens IT-landskap: Företagssamhället bestämmer nu vanligtvis affärsvraven att fråga - de skickar en begäran och IT-teamet bygger ett system som svarar på specifika frågor. Från ett tekniskt perspektiv, eftersom det här arbetet traditionellt har gjorts i en relationsdatabas har det varit IT-teamets ansvar att bygga scheman, ta bort dataöverlappning och så vidare.

De investerar mycket tid på att göra dessa uppgifter sökbara och att snabbt svara på förplanerade frågor som affärsenheten vill svara på. Därför anses relationella databaser typiskt schema-på-skriv eftersom du måste göra mycket arbete för att kunna skriva till databasen.

(I många fall är arbetsbeloppet värt investeringen, men i en värld av stora data är värdet och kvaliteten på många nyare typer av data du arbetar med okänd.)

Denna relationella databasmetoden är väl lämpad för många vanliga affärsprocesser, till exempel övervakning av försäljning via geografi, produkt eller kanal. extrahera insikt från kundundersökningar, kostnads- och lönsamhetsanalyser och mycket mer - i princip frågas frågorna gång på gång.

Data är vanligtvis mycket strukturerad och är troligtvis högt betrodda i denna miljö i denna miljö. Denna aktivitet är guidad analys .

Som en analogi är det som om ditt 8-åriga barn tar en paus för urtag i skolan. För det mesta kan hon göra vad hon vill inom skolans grunder - så länge hon är kvar inom den inhägnade omkretsen; hon kan dock inte hoppa på staketet för att upptäcka vad som är på utsidan. Specifikt kan ditt barn utforska ett känt, skyddat område (inom schema) och analysera vad som finns inom det området.

Tänk nu att din analysmiljö har en funktionszon. I det här scenariot levererar IT data (det är troligt att det inte kommer att vara fullt förtroende, och det är troligen "smutsigt") på en flexibel upptäcktsplattform för företagsanvändare att ställa så gott som varje fråga de vill ha.

I analogi får ditt barn klättra på skolgårdsgärdet (detta område är schema-less), vågar in i skogen och återkommer med vad som helst som hon upptäcker. (Naturligtvis, i IT-världen behöver du inte oroa dig för att företagsanvändare går vilse eller blir giftiga murgröna.)

Om du funderar på det, speglar data upptäckten i vissa avseenden utvecklingen av guldbrytning. Under guldförloppet gamla år skulle guldslagningar sparka resursinvesteringar eftersom någon upptäckte guld - det var synligt för det blotta ögat, det hade tydligt värde och det berodde därför på investeringen.

För femtio år sedan hade ingen råd att göra min guldmalm för guld eftersom det inte fanns kostnadseffektiv eller kompetent teknik (utrustning för att flytta och hantera stora mängder malm var inte tillgänglig) och rika malm var fortfarande tillgänglig (jämfört med idag var guld relativt lättare att hitta). Det var helt enkelt inte kostnadseffektivt (eller till och med möjligt) att arbeta genom bruset (låggradig malm) för att hitta signalerna (guldet).

Med Hadoop har IT-butiker nu kapitalutrustningen att bearbeta miljoner ton malm (data med lågt värde per byte) för att hitta guld som är nästan osynligt för blotta ögat (data med högt värde per byte). Och det är precis vad upptäckten handlar om.

Det handlar om att ha ett billigt och flexibelt förråd där investeringar från noll till noll görs för att berika uppgifterna tills en upptäckt är gjord. Efter det att en upptäckt gjordes kan det vara meningsfullt att be om fler resurser (för att mina guldfyndet) och formalisera det i en analysprocess som kan distribueras i ett datalager eller specialiserad data mart.

När insikter görs i upptäcktszonen är det troligt en bra tid att engagera IT-avdelningen och formalisera en process eller låta dem hjälpa till för en djupare upptäckt. Faktum är att det här nya mönstret även kan gå in i området med guidad analys.

Poängen är att IT tillhandahöll upptäcktszonen för företagsanvändare att fråga och uppfinna frågor som de inte har tänkt på tidigare. Eftersom den här zonen är bosatt i Hadoop är den flexibel och tillåter användarna att våga sig in i den vilda blåen.

Observera att siffran har en sandlådazon. I vissa referensarkitekturer kombineras denna zon med upptäcktszonen. Håll dessa zoner separata eftersom detta område används av applikationsutvecklare och IT-butiker för att göra egna undersökningar, testapplikationer och kanske formalisera slutsatser och upptäckter i Discovery Zone när IT-hjälp krävs efter det att en potentiell upptäckt har gjorts.

Referensarkitekturen är flexibel och kan enkelt tweaked. Ingenting är gjutet i sten: du kan ta vad du behöver, lämna det du inte gör och lägg till dina egna nyanser.

Exempelvis kan vissa organisationer välja att samlokalisera alla zoner i ett enda Hadoop-kluster; vissa kan välja att utnyttja ett enda kluster som är utformat för flera ändamål; och andra kan fysiskt separera dem.