Hem Personliga finanser Loggdataanalys med Hadoop-dummies

Loggdataanalys med Hadoop-dummies

Anonim

Loganalys är ett vanligt fall för ett inledande Hadoop-projekt. Faktum är att de tidigaste användningarna av Hadoop var för storskalig analys av Clickstream loggar - loggar som registrerar data om de webbsidor som folk besöker och i vilken ordning de besöker dem.

Alla dataloggar som genereras av din IT-infrastruktur kallas ofta datautsläpp. En logg är en biprodukt från en fungerande server, precis som rök som kommer från en arbetsmotorens avgasrör. Datautsläpp har konnotation för förorening eller avfall, och många företag utvänder utan tvekan denna typ av data med den tanken i åtanke.

Loggdata växer ofta snabbt, och på grund av de höga volymerna som produceras kan det vara tråkigt att analysera. Och det potentiella värdet av dessa data är ofta oklart. Så frestelsen i IT-avdelningar är att lagra denna loggdata i så lite tid som möjligt. (När allt kostar pengar för att behålla data, och om det inte finns något uppfattat affärsvärde, varför lagra det?)

Men Hadoop ändrar matematiken: Kostnaden för lagring av data är relativt billigt och Hadoop var ursprungligen utvecklad speciellt för storskalig batchbehandling av loggdata.

Användningsfallet för loggdataanalys är en användbar plats för att starta din Hadoopresa eftersom chansen är bra att de data du arbetar med blir raderade eller "tappade till golvet. "Vissa företag som konsekvent registrerar terabyte (TB) eller mer av kundens webbaktivitet per vecka kasserar data utan analys (vilket gör att du undrar varför de störde att samla in det).

För att komma igång snabbt är uppgifterna i det här användningsfallet troligt lätta att få och omfattar i allmänhet inte samma problem som du kommer att stöta på om du startar din Hadoop-resa med andra (styrda) uppgifter.

När branschanalytiker diskuterar de snabbt ökande volymerna av data som finns (4,1 exabytes från 2014 - mer än 4 miljoner 1TB-hårddiskar) står loggdata för mycket av denna tillväxt. Och inte konstigt: Nästan varje aspekt av livet leder nu till att data genereras. En smartphone kan generera hundratals loggar per dag för en aktiv användare, som spårar inte bara röst-, text- och dataöverföring utan även geolokaliseringsdata.

De flesta hushåll har nu smarta mätare som loggar sin elanvändning. Nyare bilar har tusentals sensorer som registrerar aspekter av deras tillstånd och användning. Varje klick och musrörelse du gör när du surfar på Internet orsakar en kaskad av loggposter som ska genereras.

Varje gång du köper någonting - även utan att använda ett kreditkort eller betalkort - registrerar du aktiviteten i databaser - och i loggar.Du kan se några av de vanligaste källorna till loggdata: IT-servrar, webbklikstreamer, sensorer och transaktionssystem.

Varje bransch (liksom alla loggtyper som just beskrivits) har stor potential för värdefull analys - speciellt när du kan nollställa en viss typ av aktivitet och sedan korrelera dina fynd med en annan dataset för att skapa sammanhang.

Tänk på den här typiska webbaserade surf- och köpupplevelsen:

  1. Du surfar på webbplatsen och letar efter objekt att köpa.

  2. Du klickar på för att läsa beskrivningar av en produkt som fångar ditt öga.

  3. Till sist lägger du till en vara i din varukorg och fortsätter till kassan (köpåtgärden).

Efter att ha sett fraktkostnaden bestämmer du dock att varan inte är värt priset och du stänger webbläsarfönstret. Varje klick du har gjort - och sedan slutat göra - har potential att erbjuda värdefull insikt till företaget bakom denna e-handelsplats.

I det här exemplet antar du att denna verksamhet samlar in klientdata (data om varje musklick och sidvisning som en besökare "berör") i syfte att förstå hur man bättre kan betjäna sina kunder. En gemensam utmaning bland e-handelsföretag är att känna igen nyckelfaktorerna bakom övergivna kundvagnar. När du utför en djupare analys av klientdata och undersöker användarbeteendet på webbplatsen är det bundet till att mönster kommer fram.

Känner ditt företag svaret på den till synes enkla frågan, "Är vissa produkter övergivna mer än andra? "Eller svaret på frågan," Hur mycket intäkter kan återhämtas om du sänker vagnen över 10 procent? "Följande ger ett exempel på vilken typ av rapporter du kan visa för dina företagsledare att söka sina investeringar i din Hadoop-orsak.

För att komma till den punkt där du kan generera data för att bygga upp de visade graferna, isolerar du webbläsningssessionerna för enskilda användare (en process som kallas sessionisering) , identifierar innehållet i deras kundvagnar, och sedan upprätta transaktionstillståndet i slutet av sessionen - allt genom att undersöka klientdata.

Följande är ett exempel på hur man monterar användarnas webbläsningssessioner genom att gruppera alla klick och webbadresser efter IP-adress.

I ett Hadoop-sammanhang arbetar du alltid med nycklar och värden - varje fas i MapReduce matar in och matar data i uppsättningar av nycklar och värden. Nyckeln är IP-adressen, och värdet består av tidstämpeln och webbadressen. Under kartfasen samlas användarsessioner parallellt för alla filblock i klientdatasatsen som lagras i ditt Hadoop-kluster.

Kartfasen returnerar dessa element:

  • Den sista sidan som besökte

  • En lista över objekt i kundvagnen

  • Transaktionens status för varje användarsession (indexerad av IP-adressnyckeln) < Reduceraren plockar upp dessa poster och utför aggregeringar för att totalt antal och värde av vagnar överges per månad och för att ge totalt antal av de vanligaste sista sidorna som någon visade innan användarens session avslutades.

Loggdataanalys med Hadoop-dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...