10 Hadoop Resurser värda en bokmärke - dummies
Följande är tio fantastiska Hadoop-resurser som är värdiga att skapa en bokmärke i din webbläsare. Dessa resurser hjälper dig att skapa en livslångt lärande plan för Hadoop. Central nervsystemet: Apache. org Apache Software Foundation (ASF) är det centrala samhället för open source-mjukvaruprojekt. Inte bara ett projekt kan vara ett Apache-projekt - ...
Data transformation i Hadoop - dummies
Tanken på Hadoop-inspirerade ETL motorer har fått mycket dragkraft under de senaste åren. Hadoop är trots allt en flexibel datalagrings- och behandlingsplattform som kan stödja stora mängder data och operationer på den data. Samtidigt är det feltolerant och det ger möjlighet till kapital- och mjukvarukostnader.
Datablock i Hadoop Distributed File System (HDFS) - dummies
När du lagrar en filen i HDFS, bryter systemet ner det i en uppsättning enskilda block och lagrar dessa block i olika slavnoder i Hadoop-klustret. Det här är en helt vanlig sak att göra, eftersom alla filsystem bryter ner filer i block innan de lagras till disken. HDFS har ingen ...
Data warehouse modernisering med Hadoop - dummies
Datalagret är nu under stress och försöker klara av ökade krav på deras ändliga Medel. Hadoop kan ge betydande lättnad i denna datalagringssituation. Den snabba ökningen av mängden data som genereras i världen har också påverkat datalager, eftersom de datamängder de hanterar ökar - delvis för att ...
Utveckla Oozie Workflows i Hadoop-dummies
Oozie-arbetsflöden är i sin tur inriktade grafer där du kan definiera åtgärder (Hadoop-applikationer) och dataflöde, men utan looping - vilket betyder att du inte kan definiera en struktur där du kör en specifik operation om och om tills ett villkor är uppfyllt (till exempel för en loop). Oozie-arbetsflöden är ganska flexibla i det där ...
Data upptäckt och sandlådor i Hadoop - dummies
Data upptäckt blir en allt viktigare aktivitet för organisationer som är beroende av deras data som en differentiator. Idag beskriver det de flesta företag, eftersom möjligheten att se trender och extrahera betydelse från tillgängliga dataset gäller för nästan vilken bransch som helst. Vad detta kräver är två kritiska komponenter: analytiker med kreativitet att tänka ...
Jämför Hadoop Distributions - dummies
Hittar du att Hadoop ekosystem har många komponenter, som alla finns som egna Apache-projekt. Eftersom Hadoop har vuxit betydligt och står inför några betydande ytterligare förändringar, kanske olika versioner av dessa komponenter med öppen källkod kanske inte är helt kompatibla med andra komponenter. Detta innebär stora svårigheter för människor som vill få ...
Faktorer som ökar skalaen för statistisk analys i Hadoop - dummies
Anledningen till att människor prövar deras data innan man kör statistisk analys i Hadoop är det att denna typ av analys ofta kräver betydande datorresurser. Det handlar inte bara om datamängder: det finns fem huvudfaktorer som påverkar omfattningen av statistisk analys: Det här är enkelt, men vi måste nämna det: volymen data på ...
Komprimera data i Hadoop - dummies
De enorma datavolymer som är realiteter i en typisk Hadoop-implementering gör komprimering nödvändig. Datakomprimering sparar definitivt mycket lagringsutrymme och kommer säkerligen att påskynda rörelsen för data i hela ditt kluster. Det är inte överraskande att ett antal tillgängliga komprimeringssystem, kallat codecs, finns där ute för att ...
Hadapt och Hadoop - dummies
Sent i år 2010, var Hadapt bildad som en start av två Yale University studenter och en biträdande professor i datavetenskap. Professor Daniel Abadi och Kamil Bajda-Pawlikowski, doktorand från Yales datavetenskapliga avdelning, hade arbetat med forskningsprojektet HadoopDB. Efter det att detta papper publicerades, var Justin Borgman, en student från ...
Hadoop och Hive dummies
För att göra en lång historia kort, erbjuder Hive Hadoop en bro till RDBMS världen och ger en SQL-dialekt som kallas Hive Query Language (HiveQL), som kan användas för att utföra SQL-liknande uppgifter. Det är de stora nyheterna, men det finns mer att hiva än vad de möter ögat, som de säger eller fler applikationer av ...
Kantnodor i Hadoop Clusters - dummies
Kantnodor är gränssnittet mellan Hadoop-klustret och det externa nätverket. Av denna anledning kallas de ibland gateway noder. Vanligtvis används kantnodar för att köra klientapplikationer och klusteradministrationsverktyg. De används också ofta som scenarier för data som överförs till Hadoop-klustret. Som sådan är Oozie, ...
Bedrägeri Detektion med Hadoop - dummies
Den stora volymen av transaktioner gör det svårare att upptäcka bedrägerier på grund av datamängden, Ironiskt nog kan samma utmaning hjälpa till att skapa bättre bedrägeribekämpande modeller - ett område där Hadoop lyser. I dagens sammanlänkade värld gör den stora volymen och komplexiteten av transaktioner det svårare än någonsin att hitta bedrägeri. Vad används ...
Grafbehandling i Hadoop - dummies
Innebär en av de mer spännande nya NoSQL-teknikerna lagring och bearbetning av grafdata. Du kanske tror att detta uttalande är gammal nyhet eftersom datavetenskapare har utvecklat grafanalystekniker i årtionden. Vad du säger kan väl vara sant, men det nya är att med hjälp av Hadoop kan du göra graf ...
Federation of Famous Distributed File System (HDFS) - dummies
Lösningen att expandera Hadoop-kluster är i obestämd tid att federera NamnNoden. Innan Hadoop 2 kom in i scenen, hade Hadoop-kluster att leva med det faktum att NameNode ställde gränser för hur mycket de kunde skala. Få kluster kunde skala över 3 000 eller 4 000 noder. NameNode behöver behålla poster för ...
Hadoop Distributed File System (HDFS) Hög tillgänglighet - dummies
Ofta i Hadops barndom, en stor mängd av diskussionen var centrerad på NameNodes representation av en enda punkt av fel. Hadoop har i allmänhet alltid haft en robust och feltolerant arkitektur, med undantag för detta nyckelområde. Utan NameNode finns det inget Hadoop-kluster. Med Hadoop 2 kan du konfigurera HDFS så att det finns ...
Hadoop som databehandlingsmotor - dummies
Ett av de tidigaste användningsfallen för Hadoop i företaget var som en programmatisk transformationsmotor som används för att förbehandla data som är bunden till ett datalager. I huvudsak använder detta användningsområde kraften i Hadoop ekosystemet för att manipulera och tillämpa omvandlingar till data innan det laddas in i ett datalager. Även om den faktiska omvandlingen ...
Hadoop som ett frågeformulär för Cold Warehouse Data - dummies
En mängd studier visar att de flesta data I ett företag är datalagret sällan frågat. Databasleverantörer har svarat på sådana observationer genom att genomföra egna metoder för att sortera ut vilken data som placeras där. En metod beställer datalunetet i beteckningar som är heta, varma eller kalla, där heta data (ibland kallas aktiva ...
Hadoop som en arkivdata destination - dummies
Den billiga kostnaden för lagring för Hadoop plus möjligheten att fråga Hadoop data med SQL gör Hadoop det främsta målet för arkivdata. Det här användarfallet har en liten inverkan på din organisation eftersom du kan börja bygga din Hadoop-färdighet på data som inte lagras på prestationsmissionskritiska system. Dessutom gör du inte ...
Hadoop Administration Commands - dummies
Någon Hadoop-administratör värd sitt salt måste behärska en omfattande uppsättning kommandon för klusteradministration. Följande lista sammanfattar de viktigaste kommandona, vilket anger vad kommandot gör såväl som syntax och exempel. Känn dem, och du kommer att gå långt längs vägen till Hadops visdom. balancer: Kör klusterbalanseringsverktyget. ...
Hadoop Distributed File System (HDFS) för Big Data Projects - dummies
Hadoop Distributed File Systemet är ett mångsidigt, fjädrande, klusterriktat sätt att hantera filer i en stor datamiljö. HDFS är inte det slutliga målet för filer. Det är snarare en datatjänst som erbjuder en unik uppsättning funktioner som behövs när datamängder och hastighet är höga. Eftersom data skrivs en gång och ...
Hadoop MapReduce för Big Data - dummies
För att fullt ut förstå Hadoop MapReduces kapacitet, är det viktigt att skilja mellan MapReduce algoritmen) och en implementering av MapReduce. Hadoop MapReduce är ett genomförande av algoritmen utvecklad och underhållen av Apache Hadoop-projektet. Det är bra att tänka på denna implementering som MapReduce-motor, för det är just det det ...
Hadoop Integration med R-dummies
I början var stora data och R inte naturliga vänner. R programmering kräver att alla objekt laddas i huvudminnet på en enda maskin. Begränsningarna av denna arkitektur realiseras snabbt när stora data blir en del av ekvationen. Däremot saknas distribuerade filsystem som Hadoop ...
Hur man får Apache Oozie Set Up i Hadoop - dummies
Apache Oozie ingår i alla större Hadoop distribution, inklusive Apache Bigtop. I ditt Hadoop-kluster ska du installera Oozie-servern på en kantnod, där du också skulle köra andra klientapplikationer mot gruppens data, som visas. Edge noder är utformade för att vara en gateway för det utvändiga nätverket till Hadoop-klustret. Detta ...
Importera data med Sqoop - dummies
Redo att dyka in i att importera data med Sqoop? Börja med att titta på figuren, som illustrerar stegen i en typisk Sqoop-importoperation från ett RDBMS eller ett datalagringssystem. Ingenting för komplicerat här - bara en typisk produktdatabord från ett (typiskt) fiktivt företag som importeras till ett typiskt ...
Image Klassificering med Hadoop-dummies
Bildklassificering kräver en betydande mängd databehandlingsresurser, vilket dock har begränsat skalan av implementeringar. Bildklassificering är ett hett ämne i Hadoop-världen eftersom ingen vanlig teknik kunde, förrän Hadoop kom med, öppna dörrar för den här typen av dyr bearbetning på så massiv och effektiv ...
Lokala och distribuerade metoder för löpgrisskript i Hadoop - dummies
Innan du kan köra din första Grisskript i Hadoop, du måste ta hand om hur grisprogram kan packas med gris-servern. Gris har två lägen för att köra skript: Lokalt läge: Alla skript körs på en enda maskin utan att kräva Hadoop MapReduce och HDFS. Detta kan vara användbart för ...
Inmatning Splits i Hadops MapReduce - dummies
Hur HDFS har upprättats bryter ner mycket stora filer till stora block (till exempel, mäter 128 MB) och lagrar tre kopior av dessa block på olika noder i klustret. HDFS har ingen medvetenhet om innehållet i dessa filer. I GARN, när ett MapReduce-jobb startas, resurshanteraren (den ...
Hantera stora datauppgifter och -program med Hadoop YARN - dummies
Jobbplanering och spårning för stora data är integrerade delar av Hadoop MapReduce och kan användas för att hantera resurser och applikationer. De tidiga versionerna av Hadoop stödde ett rudimentärt jobb och uppgiftsspårningssystem, men eftersom den blandning av arbete som stöddes av Hadoop ändrats kunde schemaläggaren inte fortsätta. I synnerhet den gamla ...
Sammanfogning av tabeller med Hive-dummies
Du vet förmodligen redan att experter i relationell databasmodellering och design brukar spendera mycket av deras tid som utformar normaliserade databaser eller scheman. Databas normalisering är en teknik som skyddar mot förlust av data, redundans och andra avvikelser eftersom data uppdateras och hämtas. Experterna följer ett antal regler för att komma fram till en ...
Hanterar Big Data med Hadoop: HDFS och MapReduce - dummies
Hadoop, en öppen källkod , använder HDFS (Hadoop Distributed File System) och MapReduce för att analysera stora data på kluster av handelsvaror - det vill säga i en distribuerad datormiljö. Hadops Distributed File System (HDFS) utvecklades för att göra det lättare för företag att hantera stora datamängder på ett enkelt och pragmatiskt sätt. Hadoop ...
Nätverk och Hadoop Clusters - dummies
Som med vilket distribuerat system som helst, kan nätverk göra eller bryta ett Hadoop-kluster: "Gå billigt. "En stor chatter äger rum mellan masternoderna och slavnoderna i ett Hadoop-kluster som är väsentligt för att hålla klyftan i drift, så företagsklassbyte rekommenderas definitivt. För varje rack i ditt kluster, kommer du ...
Loggdataanalys med Hadoop-dummies
Loganalys är ett allmänt användningsfall för ett inledande Hadoop-projekt. Faktum är att de tidigaste användningarna av Hadoop var för storskalig analys av klickloggar - loggar som registrerar data om de webbsidor som folk besöker och i vilken ordning de besöker dem. Alla loggar över data som genereras av din IT-infrastruktur ...
Loggdata med Flume i HDFS - dummies
Några data som hamnar i Hadoop Distributed File System ( HDFS) kan landa där via databasbelastningsoperationer eller andra typer av batchprocesser, men vad händer om du vill fånga upp data som strömmar i data med hög genomströmning, till exempel applikationsloggdata? Apache Flume är det nuvarande vanliga sättet att ...
Håll reda på datablock med NameNode i HDFS - dummies
NamnNoden fungerar som adressboken för Hadoop Distributed File System (HDFS) eftersom det inte bara vet vilka block som utgör enskilda filer utan också var var och en av dessa block och deras replikor lagras. När en användare lagrar en fil i HDFS, är filen uppdelad i datablock och tre kopior av ...
Gris latin i Hadops grisprogram - dummies
Gris latin är språket för grisprogram. Pig översätter Pig Latin-skriptet till MapReduce-jobb som det kan utföras inom Hadoop-klyftan. När vi kom med gris latin följde utvecklingsgruppen tre nyckeldesignprinciper: Håll det enkelt. Pig Latin ger en strömlinjeformad metod för att interagera med Java MapReduce. Det är en ...
NoSQL Data Stores jämfört med Hadoop-dummies
NoSQL-datalager som ursprungligen abonnerade på idén "Just Say No to SQL" ( att parafrasera från en anti-drogreklamkampanj på 1980-talet), och de var en reaktion på de uppfattade begränsningarna av (SQL-baserade) relationella databaser. Det är inte att dessa personer hatade SQL, men de var trött på att tvinga fyrkantiga pinnen i runda hål av ...
Replikerande datablock i Hadoop Distributed File System - dummies
Hadoop Distributed File System (HDFS) är konstruerad för att lagra data på billig och mer opålitlig maskinvara. Billig har en attraktiv ring till den, men det ger upphov till oro för systemets tillförlitlighet som helhet, särskilt för att säkerställa den höga tillgängligheten av data. Planerade före katastrofen gjorde hjärnorna bakom HDFS ...
Hantera filer med Hadoop-filsystemkommandon - dummies
HDFS är en av de två huvudkomponenterna i Hadoop-ramverket; den andra är beräknings paradigmet som kallas MapReduce. Ett distribuerat filsystem är ett filsystem som hanterar lagring över ett nätverkskluster av maskiner. HDFS lagrar data i block, enheter vars standardstorlek är 64 MB. Filer som du vill lagra i ...
På Hadoop och R Language-dummies <[SET:descriptionsv]I maskinlärningsdisciplinen har en rik och omfattande katalogbok för tekniker
I maskinlärningsdisciplinen har en rik och omfattande katalogbok för tekniker