Video: Träna för din hjärna - en föreläsning med Anders Hansen 2024
Anledningen människor prövar deras data innan de kör statistisk analys i Hadoop är att denna typ av analys ofta kräver betydande datorresurser. Det handlar inte bara om datamängder: det finns fem huvudfaktorer som påverkar omfattningen av statistisk analys:
-
Det här är enkelt, men vi måste nämna det: volymen av data som du utför analysen bestämmer definitivt analysens omfattning.
-
Antalet transformationer som behövs för datasättningen innan man tillämpar statistiska modeller är definitivt en faktor.
-
Antalet parvisa korrelationer du behöver beräkna spelar en roll.
-
Graden av komplexitet hos de statistiska beräkningar som ska tillämpas är en faktor.
-
Antalet statistiska modeller som ska tillämpas på din dataset spelar en viktig roll.
Hadoop erbjuder ett sätt ut ur detta dilemma genom att tillhandahålla en plattform för att utföra massivt parallella bearbetningsberäkningar på data i Hadoop.
På så sätt kan den vända det analytiska dataflödet; istället för att flytta data från sitt repository till analysservern, levererade Hadoop analys direkt till data. Mer specifikt tillåter HDFS att lagra dina bergs data och sedan ta beräkningen (i form av MapReduce-uppgifter) till slavnoderna.
Den gemensamma utmaningen som uppstår genom att flytta från traditionella symmetriska multibearbetningsstatistiksystem (SMP) till Hadoop-arkitekturen är dataläget. På traditionella SMP-plattformar delar flera processorer åtkomst till en enda huvudminnesresurs.
I Hadoop kopierar HDFS partitioner av data över flera noder och maskiner. Även statistiska algoritmer som utformades för att bearbeta data i minnet måste nu anpassa sig till dataset som spänner över flera noder / rack och kunde inte hoppas att passa i ett enda minnesblock.