Hem Personliga finanser Begränsningarna för provtagning i Hadoop

Begränsningarna för provtagning i Hadoop

Video: Total retropubisk prostatektomi - kort version 2025

Video: Total retropubisk prostatektomi - kort version 2025
Anonim

Statistisk analys är långt ifrån att vara ett nytt barn i kvarteret, och det är säkert gamla nyheter att det beror på att man hanterar stora mängder data för att få ny insikt. Mängden data som traditionellt bearbetas av dessa system var emellertid inom intervallet mellan 10 och 100 (eller hundratals) gigabyte - inte terabyte- eller petabyteområdena som ses idag, med andra ord.

Och det krävde ofta en dyr symmetrisk multi-bearbetning (SMP) maskin med så mycket minne som möjligt för att hålla data som analyseras. Det beror på att många av de algoritmer som användes av de analytiska metoderna var ganska "beräkna intensiva" och utformades för att köra i minnet - eftersom de kräver flera, och ofta frekventa, passerar igenom data.

Människor försökte göra analysen av arbetsbelastningen lite mer rimlig genom att analysera enbart en sampling av data, med tanke på dyra hårdvara och ett ganska stort engagemang när det gäller tid och RAM. Tanken var att hålla bergen på databerättelser säkert stashed i datalager, bara att flytta en statistiskt signifikant sampling av data från sina förråd till en statistisk motor.

Medan provtagning är en bra ide i teorin är det i praktiken ofta en opålitlig taktik. Att hitta en statistiskt signifikant provtagning kan vara utmanande för glesa och / eller skevda dataset, vilket är ganska vanligt. Detta leder till dåligt bedömda provtagningar, som kan introducera avvikande och avvikande datapunkter, och kan i sin tur förspänna resultaten av din analys.

Begränsningarna för provtagning i Hadoop

Redaktörens val

Hur man skapar en webbplats i Dreamweaver - dummies

Hur man skapar en webbplats i Dreamweaver - dummies

Definierar en Dreamweaver-webbplats mer smidigt om du har filer du planerar att använda på din webbplats organiserade i en mapp - med, om du vill, undermappar för bilder, video och kanske andra element som ljud. Med dina filer separerade i en organiserad mappstruktur är du redo att definiera en Dreamweaver-webbplats. ...

Hur man skapar en HTML-sida med Dreamweavers nya dokumentfönster - dummies

Hur man skapar en HTML-sida med Dreamweavers nya dokumentfönster - dummies

Du kan skapa en HTML-sida ny HTML-sida genom att använda Dreamweaver's New Document-fönstret, som erbjuder fler alternativ än Välkommen-skärmen, inklusive tillgång till alla mallar du har skapat med Dreamweaver, samt en samling av förutformade layouter, vilket kan ge dig en början på dina design. Du kan skapa många typer av filer ...

Hur man skapar en layout med en kolumn i Dreamweaver - dummies

Hur man skapar en layout med en kolumn i Dreamweaver - dummies

Innan du dyka in för att skapa en komplicerad vätskegriddesign i Dreamweaver, överväg att prova en enklare. Börja med att skapa en enkel vätskegridlayout med en kolumn, följ dessa enkla instruktioner: Välj Arkiv → Nytt. Fönstret Ny dokument öppnas. Obs! Se till att du har slutfört installationsprocessen innan du börjar arbeta med en ny vätska ...

Redaktörens val

Hur man använder Urklippspanel i Excel 2010 - dummies

Hur man använder Urklippspanel i Excel 2010 - dummies

Office Urklipp kan lagra flera nedskärningar och kopior från alla Microsoft Office-program som körs under Windows, inte bara Excel 2010. I Excel betyder det att du kan fortsätta klistra in saker från Office Clipboard i en arbetsbok även efter avslutad flyttning eller kopiering. Använd följande tekniker för att arbeta med ...

Hur man använder referensfunktioner i Excel 2016 - dummies

Hur man använder referensfunktioner i Excel 2016 - dummies

Referensfunktionerna i Excel 2016 på Lookup & Reference Kommandoknappens rullgardinsmeny på Formulas-fliken i bandet är utformad för att specifikt hantera olika aspekter av cellreferenser i arbetsbladet. Denna grupp av funktioner inkluderar: ADRESS för att returnera en cellreferens som en textinmatning i en cell i ...

Hur man använder Sparklines i Excel 2016 - dummies

Hur man använder Sparklines i Excel 2016 - dummies

Excel 2016 stöder en speciell typ av informationsgrafik kallad sparkline som representerar trender eller variationer i samlade data. Sparklines är små grafer i allmänhet om storleken på texten som omger dem. I Excel 2016 är kalkylblad höjden på kalkylbladscellerna, vars data de representerar och kan vara någon av de ...

Redaktörens val

Hur man undviker analysfel på Miller Analogies Test - dummies

Hur man undviker analysfel på Miller Analogies Test - dummies

Miller Analogies Testwriters är bra på att komponera frågor som är subtilt utformade för att lura dig. Du kan undvika vanliga analogfällor på MAT, om du har en plan för attack och en metod för att lösa dem. I allmänhet är den senare frågan i MAT, desto mer sannolikt är det ...

Hur man registrerar sig för MAT (Miller Analogies Test) - dummies

Hur man registrerar sig för MAT (Miller Analogies Test) - dummies

Efter att ha beslutat att ta Miller Analogies Test (MAT), du måste hitta en plats att faktiskt ta provet. Mer än 600 CTC, eller kontrollerade testcenter, administrerar matvaran i hela USA och Kanada, och även utomlands. För att hitta ett testcenter, gå till Miller Analogies Test-webbplatsen och leta efter en ...