Video: IT Chapter Two 2024
Konvertera statistiska modeller för att springa parallellt är en utmanande uppgift. I det traditionella paradigmet för parallell programmering regleras minnesåtkomst genom användning av trådar - delprocesser som skapats av operativsystemet för att distribuera ett gemensamt minne över flera processorer.
Faktorer som tävlingsförhållanden mellan konkurrerande trådar - när två eller flera trådar försöker byta delad data samtidigt - kan påverka algoritmens prestanda såväl som påverka precisionen av de statistiska resultaten som ditt program matar ut - särskilt för långvariga analyser av stora provuppsättningar.
En pragmatisk inställning till detta problem är att anta att inte många statistiker kommer att känna till MapReduces ins och outs (och vice versa), inte heller kan du förvänta dig att de kommer att vara medvetna om alla fallgropar den parallella programmeringen medför. Bidragsgivare till Hadoop-projektet har (och fortsätter att utveckla) statistiska verktyg med dessa realiteter i åtanke.
Resultatet: Hadoop erbjuder många lösningar för att implementera de algoritmer som krävs för att utföra statistisk modellering och analys, utan att överbelasta statistikern med nyanserade parallella programmeringshänsyn.