Regioner i HBase - dummies
Regionservrarna är en sak, men du måste också titta på hur enskilda regioner fungerar. I HBase är ett bord både spritt över ett antal RegionServers samt består av enskilda regioner. När tabeller delas upp blir splittringarna regioner. Regioner lagrar en rad nyckelparametrar, och varje ...
Maskin Lärande med Mahout i Hadoop - dummies
Maskininlärning avser en gren av artificiell intelligenssteknik som ger verktyg som möjliggör datorer för att förbättra sin analys baserat på tidigare händelser. Dessa datorsystem utnyttjar historiska data från tidigare försök att lösa en uppgift för att förbättra prestationen för framtida försök till liknande uppgifter. När det gäller förväntade resultat, maskinlärande ...
Kör program före Hadoop 2 - dummies
Eftersom många befintliga Hadoop-implementeringar fortfarande inte använder ännu en resursförhandlare ( GARANTI), ta en snabb titt på hur Hadoop lyckades sin databehandling före Hadoop 2. Dagar koncentrera sig på den roll som JobTracker master daemons och TaskTracker slavdemoner spelade för att hantera MapReduce-bearbetningen. Hela punkten med att använda distribuerade system ...
Riskmodellering med Hadoop-dummies
Riskmodellering är ett annat stort användningsfall som har fått energi av Hadoop. Du kommer att upptäcka att den nära matchar användningsfallet med bedrägeribekämpning, eftersom det är en modellbaserad disciplin. Ju mer data du har och ju mer du kan "ansluta prickarna", desto oftare kommer dina resultat att ge bättre riskprognosmodeller. Det allomfattande ordet ...
Master nodar i Hadoop Clusters - dummies
Huvudnoderna i distribuerade Hadoop-kluster är värd för olika lagrings- och hanteringshanteringstjänster, beskrivs i denna lista, för hela Hadoop-klyftan. Redundans är avgörande för att man undviker enstaka misslyckanden, så du ser två växlar och tre huvudnodar. NameNode: Hanterar HDFS-lagring. För att säkerställa hög tillgänglighet har du både en aktiv ...
Kör statistiska modeller i Hadops MapReduce - dummies
Konvertera statistiska modeller för att köra parallellt är en utmanande uppgift. I det traditionella paradigmet för parallell programmering regleras minnesåtkomst genom användning av trådar - delprocesser som skapats av operativsystemet för att distribuera ett gemensamt minne över flera processorer. Faktorer som tävlingsförhållanden mellan konkurrerande trådar - när två eller ...
Schemaläggning och koordinering av Oozie-arbetsflöden i Hadoop-dummies
När du har skapat en uppsättning arbetsflöden kan du använd en rad Oozie-koordinatorjobb för att schemalägga när de körs. Du har två schemaläggningsalternativ för körning: en viss tid och tillgången till data i samband med en viss tid. Tidsbaserad schemaläggning för Oozie-koordinatorjobb Oozie-koordinatorjobb kan schemaläggas till ...
Skript med gris latin i Hadoop - dummies
Hadoop är ett rikt och snabbt utvecklande ekosystem med en växande uppsättning nya tillämpningar. I stället för att försöka hålla fast vid alla krav på nya möjligheter, är Pig utformad för att kunna utökas via användardefinierade funktioner, även kända som UDF. UDF kan skrivas i ett antal programmeringsspråk, inklusive Java, Python och ...
Slave Node och Diskfel i HDFS - dummies
Som död och skatter, diskfel , jämn nod eller rackfel) är oundvikliga i Hadoop Distributed File System (HDFS). I det visade exemplet kunde klyftan fortsätta fungera, även om ett rack skulle misslyckas. Prestanda skulle leda till att du har förlorat hälften av dina bearbetningsresurser, men systemet är fortfarande online ...
Sätt upp Hadoop Environment med Apache Bigtop - dummies
Om du är bekväm med att arbeta med VM och Linux , var god att installera Bigtop på en annan VM än vad som rekommenderas. Om du är väldigt djärv och har hårdvaran, fortsätt och försök att installera Bigtop på ett kluster av maskiner i fullt distribuerat läge! Steg 1: Hämta en VM Hadoop kör på alla populära Linux-filer ...
SQL Access och Apache Hive - dummies
Apache Hive är otvivelaktigt det mest utbredda datasökningsgränssnittet i Hadoop-community. Ursprungligen var designmålen för Hive inte för fullständig SQL-kompatibilitet och hög prestanda, men skulle tillhandahålla ett enkelt, något välkänt gränssnitt för utvecklare som behöver utfärda batchfrågor mot Hadoop. Denna ganska piecemeal approach fungerar inte längre, så ...
Slavnoder i Hadoop Clusters - dummies
I ett Hadoop-universum, slavnoder är där Hadoop-data lagras och där data bearbetning sker. Följande tjänster gör det möjligt för slavnoder att lagra och bearbeta data: NodeManager: Koordinerar resurserna för en enskild slavnod och rapporterar till Resurshanteraren. ApplicationMaster: Spårar utvecklingen av alla uppgifter som körs på ...
Slave Noder i Hadoop Distributed File System (HDFS) - dummies
I ett Hadoop-kluster , varje datanod (även känd som slavnod) kör en bakgrundsprocess med namnet DataNode. Denna bakgrundsprocess (även känd som en demon) håller reda på de skivor data som systemet lagrar på sin dator. Det talar regelbundet till master-servern för HDFS (känd som NameNode) till ...
SQLs betydelse för Hadoop-dummies
Det finns tvingande skäl att SQL har visat sig vara robust. IT-industrin har haft 40 års erfarenhet av SQL, eftersom den först utvecklades av IBM i början av 1970-talet. Med ökningen av antagandet av relationsdatabaser på 1980-talet har SQL sedan dess blivit en standardkompetens för de flesta IT ...
Sqoop 2. 0 Förhandsgranskning - dummies
Med all framgång kring Sqoop 1. x vid sin examen från Apache-inkubatorn , Sqoop har fart! Så, som du kanske förväntar dig, är Sqoop 2. 0 i arbetet med spännande nya funktioner på vägen. Du kan se att Sqoop 1. 99. 3 är nedladdningsbar, komplett med dokumentation. Du undrar nog hur många 1.99.x-utgåvor kommer att vara ...
Socketkontakter och drivrutiner - dummies
Kopplingar går i allmänhet hand i hand med en JDBC-drivrutin. Sqoop bunter inte JDBC-drivrutinerna eftersom de vanligtvis är proprietära och licensierade av RDBMS eller DW-leverantören. Så det finns tre möjliga scenarier för Sqoop, beroende på vilken typ av datahanteringssystem (RDBMS, DW eller NoSQL) du försöker ...
Sqoopexporter Användning av uppdaterings- och uppdateringsinställningsmetoden - dummies
Med infogningsläge, poster exporterade av Sqoop läggs till i slutet av måltabellen. Sqoop tillhandahåller också ett uppdateringsläge som du kan använda genom att tillhandahålla kommandoradsargumentet -update-key . Denna åtgärd gör att Sqoop genererar ett SQL UPDATE-meddelande för att köras på RDBMS eller datalagret. Antag att du ...
SQuirreL som Hive Client med JDBC Driver - dummies
SQuirreL SQL är ett open source-verktyg som fungerar som en Hive-klient. Du kan ladda ner den här universella SQL-klienten från SourceForge-webbplatsen. Det ger ett användargränssnitt till Hive och förenklar uppgifterna för att fråga stora tabeller och analyserar data med Apache Hive. Figuren illustrerar hur Hive-arkitekturen skulle fungera när ...
Social Sentiment Analysis med Hadoop - dummies
Socialt sentimentanalys är lätt det mest överhypade av Hadoop-användningarna, vilket borde vara ingen överraskning, med tanke på att världen är ständigt ansluten och den nuvarande uttrycksfulla befolkningen. Detta användarfall utnyttjar innehåll från forum, bloggar och andra sociala medier för att utveckla en känsla av vad människor gör (till exempel livshändelser) ...
Apache Hadoop Ecosystem - dummies
Hadoop är mer än MapReduce och HDFS (Hadoop Distributed File System): Det är också en familj av relaterade projekt (ett ekosystem, verkligen) för distribuerad databehandling och storskalig databehandling. De flesta (men inte alla) av dessa projekt är värd Apache Software Foundation. I tabellen visas några av dessa projekt. Relaterade Hadoop Projekt Projektnamn Beskrivning ...
Kommandot alternativen Hadoop dfsadmin - dummies
Dfsadminverktygen är en specifik uppsättning verktyg som är utformade för att hjälpa dig att förstöra information om ditt Hadoop Distributed File-system (HDFS). Som en extra bonus kan du använda dem för att utföra vissa administrativa operationer på HDFS. Alternativ Vad det gör-Reportera rapporter grundläggande filsystem information och statistik. -safemode enter | ...
Ta HBase för testkörning - dummies
Här hittar du hur du laddar ner och distribuerar HBase i fristående läge . Det är otroligt enkelt att installera HBase och börja använda tekniken. Tänk bara på att HBase vanligtvis distribueras på ett kluster av handelsservrar, men du kan även enkelt distribuera HBase i en fristående konfiguration istället för att lära eller demonstrera ...
Hybrid Data Preprocess Option i Hadoop-dummies
Förutom att behöva lagra större volymer kalldata, Ett tryck som du ser i traditionella datalager är att ökade mängder bearbetningsresurser används för transformation (ELT) arbetsbelastningar. Tanken bakom att använda Hadoop som förbehandlingsmotor för att hantera dataomvandling innebär att värdefulla behandlingscykler frigörs, vilket gör att ...
Arkitekturen av Apache Hive - dummies
När du granskar elementen i Apache Hive som visas kan du se längst ner att Hive sitter ovanpå Hadoop Distributed File System (HDFS) och MapReduce-system. I fallet MapReduce har figurerna både Hadoop 1 och Hadoop 2 komponenterna. Med Hadoop 1 konverteras Hive-frågor till MapReduce-kod ...
Hadoop-baserade landningszonen - dummies
När du försöker ta reda på vilken analysmiljö som kan se ut i Framtiden snubblar du över mönstret på den Hadoopbaserade landningszonen gång på gång. Faktum är att det inte längre är en framtidsinriktad diskussion eftersom landningszonen har blivit det sätt som framåtriktade företag nu försöker spara IT ...
HBase MasterServer - dummies
Startar en diskussion om HBase (Hadoop Database) arkitektur genom att beskriva RegionServers istället för MasterServer kan överraska dig . Termen RegionServer tycks innebära att det beror på (och är sekundär till) MasterServer och att du därför bör diskutera MasterServer först. Som den gamla låten går, "det är inte nödvändigtvis så. "The ...
Nycklarna för att framgångsrikt anta Hadoop-dummies
I ett allvarligt Hadoop-projekt, bör du börja med att arbeta med IT Ledare från VD på ner för att hjälpa till att lösa dina företags smärtpunkter - dessa problem (verkliga eller uppfattade) som väcker stort i alles hjärta. Företagen vill se värdet av sina IT-investeringar, och med Hadoop kan det komma i en rad ...
Hive CLI Client-dummies
Den första Hive-klienten är Hive-kommandoradsgränssnittet (CLI). För att behärska de finare punkterna i Hive CLI-klienten kan det hjälpa till att granska den (lite upptagen) Hive-arkitekturen. I den andra figuren är arkitekturen strömlinjeformad för att endast fokusera på de komponenter som krävs när CLI körs. Dessa är komponenterna ...
HBase Client Ecosystem - dummies
HBase är skrivet i Java, ett elegant språk för att bygga distribuerad teknik som HBase, men ansikte det - inte alla som vill utnyttja HBase-innovationer är en Java-utvecklare. Därför finns det ett rikt HBase-klientekosystem där ute, vars enda syfte är att göra den tunga Java-lyftningen för dig och ...
MapReduces betydelse i Hadoop - dummies
För det mesta av Hadops historia. när det gäller databehandling. Tillgången till MapReduce har varit orsaken till Hadops framgång och samtidigt en viktig faktor för att begränsa ytterligare antagande. MapReduce gör det möjligt för skickliga programmörer att skriva distribuerade applikationer utan att behöva oroa sig för ...
Attributen till HBase-dummies
HBase (Hadoop Database) är en Java-implementering av Googles BigTable. Google definierar BigTable som en "gles, distribuerad, beständig multidimensionell sorterad karta. "Det är en ganska kortfattad definition, men du kommer också att hålla med om att det är lite på den komplexa sidan. För att bryta ner BigTables komplexitet lite, följer en diskussion om varje attribut. Hbase är gles ...
Grisarkitekturen i Hadoop-dummies
"Enkel" betyder ofta "elegant" när det gäller de arkitektoniska ritningarna för den nya Silicon Valley herrgård du har planerat för när pengarna börjar rulla in efter att du genomför Hadoop. Samma princip gäller för programarkitektur. Gris består av två (räkna, två) komponenter: Språket i sig: Som ett bevis på att programmerare ...
MapReduce Application Flow i Hadoop - dummies
I kärnan, MapReduce är en programmeringsmodell för behandling av dataset som lagras på ett distribuerat sätt över ett Hadoop-klusters slavnoder. Nyckelbegreppet här är delning och erövring. Specifikt vill du bryta en stor dataset i många mindre bitar och bearbeta dem parallellt med samma algoritm. ...
Pig Latin Application Flow i Hadoop - dummies
I sin kärna är Pig Latin ett dataflow-språk där du definierar en dataström och en serie omvandlingar som appliceras på data som den strömmar genom din ansökan. Detta står i kontrast till ett kontrollflödes språk (som C eller Java), där du skriver en serie instruktioner. I kontrollflödet ...
Principerna för Sqoop Design - dummies
När det gäller Sqoop är en bild ofta värd tusen ord, så kolla in figuren, som ger dig ett fågelperspektiv av Sqoop-arkitekturen. Tanken bakom Sqoop är att den utnyttjar kartuppgifter - uppgifter som utför parallellimport och export av relationsdatabasstabeller - direkt inifrån ...
Reduktionsfasen av Hadops MapReduce Application Flow-dummies
Reduktionsfasen behandlar nycklarna och deras individuella listor av värden så att det som normalt returneras till klientprogrammet är en uppsättning nyckel- / värdepar. Här är blås-för-blåsan hittills: En stor datasats har delats upp i mindre bitar, kallad ingångssplitt och enskilda instanser av mapperuppgifter har bearbetat var och en ...
Webbläsaren som Hive Client-dummies
Med Hive CLI kräver endast ett kommando för att starta Hive-skalet, men när du vill komma åt Hive med en webbläsare måste du först starta HWI-servern och sedan peka din webbläsare i den port som servern lyssnar på. Följande illustrerar hur denna typ av Hive-klient ...