På Hadoop och R Language-dummies <[SET:descriptionsv]I maskinlärningsdisciplinen har en rik och omfattande katalogbok för tekniker

Video: Technology Stacks - Computer Science for Business Leaders 2016 2025

Maskininlärningsdisciplinen har en rik och omfattande katalogteknik. Mahout ger en rad statistiska verktyg och algoritmer till bordet, men det fångar bara en bråkdel av dessa tekniker och algoritmer, eftersom uppgiften att konvertera dessa modeller till en MapReduce-ram är en utmanande.

Med tiden kommer Mahout säkert att fortsätta att expandera sin statistiska verktygslåda, men tills dess måste alla datavetenskapare och statistikern där ute vara medvetna om alternativ statistisk modelleringsprogramvara - det är där R kommer in.

R-språket är ett kraftfullt och populärt open-source statistiskt språk och utvecklingsmiljö. Det erbjuder ett rikt analyticsekosystem som kan hjälpa datavetenskapare med datautforskning, visualisering, statistisk analys och databehandling, modellering, maskininlärning och simulering. R-språket används vanligen av statistiker, datavinnare, dataanalytiker och (nuvarande) datavetenskapare.

R språkprogrammerare har tillgång till Omfattande R Archive Network (CRAN) -biblioteken, som vid tidpunkten för denna skrivning innehåller över 3000 statistiska analyspaket. Dessa tillägg kan dras in i något R-projekt, vilket ger rika analytiska verktyg för att köra klassificering, regression, kluster, linjär modellering och mer specialiserade maskininlärningsalgoritmer.

Språket är tillgängligt för dem som är bekanta med enkla datastrukturtyper - vektorer, skalärer, datarammer (matriser) och liknande - vanligtvis används av statistiker och programmerare.

Utanför lådan är en av de stora fallgroparna med att använda R-språket bristen på stöd som det erbjuder för att köra samtidiga uppgifter. Statistiska språkverktyg som R excel vid noggrann analys men saknar skalbarhet och inbyggt stöd för parallella beräkningar.

Dessa system är icke-distribuerbara och utvecklades inte för skalbarhet för den moderna petabyte-världen av stora data. Förslag för att övervinna dessa begränsningar måste förlänga R: s räckvidd utöver inläsningsmiljöer och enkla datormodeller, samtidigt som man behåller R: s känsla för lättanvändbara statistiska algoritmer.