Hem Personliga finanser Data upptäckt och sandlådor i Hadoop - dummies

Data upptäckt och sandlådor i Hadoop - dummies

Video: CONAN EXILES : MEN GE MEJ ETT BRAKE ! (svenska) 2024

Video: CONAN EXILES : MEN GE MEJ ETT BRAKE ! (svenska) 2024
Anonim

Datafunnet blir en allt viktigare aktivitet för organisationer som bygger på deras data som en differentiator. Idag beskriver det de flesta företag, eftersom möjligheten att se trender och extrahera betydelse från tillgängliga dataset gäller för nästan vilken bransch som helst.

Vad detta kräver är två kritiska komponenter: analytiker med kreativitet att tänka på nya sätt att analysera dataset för att ställa nya frågor (ofta kallas dessa analytiker datavetenskapare ); och att ge dessa analytiker tillgång till så mycket data som möjligt.

Tänk på det traditionella analysmetoden i dagens IT-landskap: Företagssamhället bestämmer nu vanligtvis affärsvraven att fråga - de skickar en begäran och IT-teamet bygger ett system som svarar på specifika frågor. Från ett tekniskt perspektiv, eftersom det här arbetet traditionellt har gjorts i en relationsdatabas har det varit IT-teamets ansvar att bygga scheman, ta bort dataöverlappning och så vidare.

De investerar mycket tid på att göra dessa uppgifter sökbara och att snabbt svara på förplanerade frågor som affärsenheten vill svara på. Därför anses relationella databaser typiskt schema-på-skriv eftersom du måste göra mycket arbete för att kunna skriva till databasen.

(I många fall är arbetsbeloppet värt investeringen, men i en värld av stora data är värdet och kvaliteten på många nyare typer av data du arbetar med okänd.)

Denna relationella databasmetoden är väl lämpad för många vanliga affärsprocesser, till exempel övervakning av försäljning via geografi, produkt eller kanal. extrahera insikt från kundundersökningar, kostnads- och lönsamhetsanalyser och mycket mer - i princip frågas frågorna gång på gång.

Data är vanligtvis mycket strukturerad och är troligtvis högt betrodda i denna miljö i denna miljö. Denna aktivitet är guidad analys .

Som en analogi är det som om ditt 8-åriga barn tar en paus för urtag i skolan. För det mesta kan hon göra vad hon vill inom skolans grunder - så länge hon är kvar inom den inhägnade omkretsen; hon kan dock inte hoppa på staketet för att upptäcka vad som är på utsidan. Specifikt kan ditt barn utforska ett känt, skyddat område (inom schema) och analysera vad som finns inom det området.

Tänk nu att din analysmiljö har en funktionszon. I det här scenariot levererar IT data (det är troligt att det inte kommer att vara fullt förtroende, och det är troligen "smutsigt") på en flexibel upptäcktsplattform för företagsanvändare att ställa så gott som varje fråga de vill ha.

I analogi får ditt barn klättra på skolgårdsgärdet (detta område är schema-less), vågar in i skogen och återkommer med vad som helst som hon upptäcker. (Naturligtvis, i IT-världen behöver du inte oroa dig för att företagsanvändare går vilse eller blir giftiga murgröna.)

Om du funderar på det, speglar data upptäckten i vissa avseenden utvecklingen av guldbrytning. Under guldförloppet gamla år skulle guldslagningar sparka resursinvesteringar eftersom någon upptäckte guld - det var synligt för det blotta ögat, det hade tydligt värde och det berodde därför på investeringen.

För femtio år sedan hade ingen råd att göra min guldmalm för guld eftersom det inte fanns kostnadseffektiv eller kompetent teknik (utrustning för att flytta och hantera stora mängder malm var inte tillgänglig) och rika malm var fortfarande tillgänglig (jämfört med idag var guld relativt lättare att hitta). Det var helt enkelt inte kostnadseffektivt (eller till och med möjligt) att arbeta genom bruset (låggradig malm) för att hitta signalerna (guldet).

Med Hadoop har IT-butiker nu kapitalutrustningen att bearbeta miljoner ton malm (data med lågt värde per byte) för att hitta guld som är nästan osynligt för blotta ögat (data med högt värde per byte). Och det är precis vad upptäckten handlar om.

Det handlar om att ha ett billigt och flexibelt förråd där investeringar från noll till noll görs för att berika uppgifterna tills en upptäckt är gjord. Efter det att en upptäckt gjordes kan det vara meningsfullt att be om fler resurser (för att mina guldfyndet) och formalisera det i en analysprocess som kan distribueras i ett datalager eller specialiserad data mart.

När insikter görs i upptäcktszonen är det troligt en bra tid att engagera IT-avdelningen och formalisera en process eller låta dem hjälpa till för en djupare upptäckt. Faktum är att det här nya mönstret även kan gå in i området med guidad analys.

Poängen är att IT tillhandahöll upptäcktszonen för företagsanvändare att fråga och uppfinna frågor som de inte har tänkt på tidigare. Eftersom den här zonen är bosatt i Hadoop är den flexibel och tillåter användarna att våga sig in i den vilda blåen.

Observera att siffran har en sandlådazon. I vissa referensarkitekturer kombineras denna zon med upptäcktszonen. Håll dessa zoner separata eftersom detta område används av applikationsutvecklare och IT-butiker för att göra egna undersökningar, testapplikationer och kanske formalisera slutsatser och upptäckter i Discovery Zone när IT-hjälp krävs efter det att en potentiell upptäckt har gjorts.

Referensarkitekturen är flexibel och kan enkelt tweaked. Ingenting är gjutet i sten: du kan ta vad du behöver, lämna det du inte gör och lägg till dina egna nyanser.

Exempelvis kan vissa organisationer välja att samlokalisera alla zoner i ett enda Hadoop-kluster; vissa kan välja att utnyttja ett enda kluster som är utformat för flera ändamål; och andra kan fysiskt separera dem.

Data upptäckt och sandlådor i Hadoop - dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...