Video: Ab Stimulator Belt | Full Review | Pros and Cons 2024
Ett open source-verktyg som är unikt användbart i prediktiv analys är Apache Mahout. Detta maskinlärningsbibliotek innehåller omfattande versioner av kluster, klassificering, samarbetsfiltrering och andra data-miningalgoritmer som kan stödja en storskalig prediktiv analysmodell.
Ett mycket rekommenderat sätt att bearbeta de data som behövs för en sådan modell är att köra Mahout i ett system som redan kör Hadoop. Hadoop designerar en mastermaskin som orkestrerar de andra maskinerna (t.ex. kartmaskiner och reducera maskiner) som används i sin distribuerade bearbetning. Mahout ska installeras på den här huvudmaskinen.
Föreställ dig att du har stor mängd strömad data - Google-nyhetsartiklar - och du vill gruppera efter ämne, med hjälp av en av klustringsalgoritmerna. När du har installerat Hadoop och Mahout kan du exekvera en av algoritmerna - som K-means - på dina data.
Genomförandet av K-medel under Mahout använder ett MapReduce-tillvägagångssätt, vilket gör att det skiljer sig från den normala implementeringen av K-medel. Mahout delar upp K-medelalgoritmen i dessa delprocedurer:
-
KmeansMapper läser inmatningsdatasatsen och kommer att tilldela varje ingångspunkt till dess närmast inledningsvis valda medel (klusterrepresentanter).
-
KmeansCombiner proceduren kommer att ta alla poster - par - som produceras av KmeansMapper och producerar delbelopp för att underlätta beräkningen av de efterföljande klusterrepresentanterna.
-
KmeansReducer tar emot värdena som produceras av alla subtaskarna (combiners) för att beräkna de faktiska centroiderna i klusterna som är den slutliga utgången av K-medel.
-
KmeansDriver hanterar processens iterationer tills alla kluster har konvergerat. Utgången från en given iteration, en partiell klusterutgång, används som ingång för nästa iteration. Processen med att kartlägga och minska datasetet tills uppgiften av poster och kluster visar inga ytterligare ändringar.
Apache Mahout är ett nyligen utvecklat projekt; dess funktionalitet har fortfarande mycket utrymme för att rymma tillägg. Under tiden använder Mahout redan MapReduce för att genomföra klassificering, kluster och annan maskininlärningsteknik - och kan göra det i stor skala.