Video: Kenneth Cukier: Big data is better data 2024
Olika statistiska data-, data-mining- och maskininlärningsalgoritmer är tillgängliga för användning i din prediktiva analysmodell. Du har bättre möjlighet att välja en algoritm efter att du har definierat målen för din modell och valt de data du ska arbeta på. Några av dessa algoritmer har utvecklats för att lösa specifika affärsproblem, förbättra befintliga algoritmer eller tillhandahålla nya möjligheter - vilket kan göra några av dem mer lämpliga för dina ändamål än andra. Du kan välja mellan en rad algoritmer för att ta itu med affärsrelaterade frågor som följande:
- För kundsegmentering och / eller gemenskapsdetektering på den sociala sfären, behöver du till exempel klustringsalgoritmer.
- För att behålla kunden eller att utveckla ett rekommenderingssystem använder du klassificeringsalgoritmer.
- För kreditvärdighet eller förutsägelse av nästa utfall av tidsstyrda händelser, skulle du använda en regressionsalgoritm.
Som tid och resurser tillåter bör du köra så många algoritmer av lämplig typ som möjligt. Att jämföra olika körningar med olika algoritmer kan ge överraskande fynd om data eller affärsinformation som är inbäddad i data. Om du gör det ger du mer inblick i affärsproblemet och hjälper dig att identifiera vilka variabler i din data som har prediktiv effekt.
En del prediktiva analysprojekt lyckas bäst genom att bygga en ensemble-modell, en grupp av modeller som arbetar med samma data. En ensemblemodell använder en fördefinierad mekanism för att samla resultat från alla dess komponentmodeller och ge slutresultatet för användaren.
Modeller kan ta olika former - en fråga, en samling scenarier, ett beslutsträd eller en avancerad matematisk analys. Dessutom fungerar vissa modeller bäst för vissa data och analyser. Du kan (till exempel) använda klassificeringsalgoritmer som använder beslutsregler för att bestämma resultatet av ett givet scenario eller transaktion och ta itu med frågor som dessa:
- Är den här kunden troligt att svara på vår marknadsföringskampanj?
- Är denna överföring av pengar sannolikt en del av ett penningtvättprogram?
- Är det här lånets sökande sannolikt som standard på lånet?
Du kan använda oövervakade klusteralgoritmer för att hitta vilka relationer som finns i din dataset. Du kan använda dessa algoritmer för att hitta olika grupperingar bland dina kunder, bestämma vilka tjänster som kan grupperas ihop, eller bestämma till exempel vilka produkter som kan upplösas.
Regressionsalgoritmer kan användas för att prognostisera kontinuerliga data, såsom att förutsäga trenden för en aktierörelse med tanke på sina tidigare priser.
Besluts träd, stödvektorer, neurala nätverk, logistik och linjära regressioner är några av de vanligaste algoritmerna. Även om deras matematiska implementeringar skiljer sig, genererar dessa prediktiva modeller jämförbara resultat. Beslutets träd är mer populära, eftersom de är lätta att förstå; Du kan följa vägen till ett visst beslut.
Klassificeringsalgoritmer är bra för typen av analys när målet är känt (som att identifiera spam-e-postmeddelanden). Å andra sidan, när målvariabeln är okänd är klustringsalgoritmer din bästa satsning. De låter dig gruppera eller gruppera dina data i meningsfulla grupper baserat på likheterna mellan gruppmedlemmarna.
Dessa algoritmer är allmänt populära. Det finns många verktyg, både kommersiella och öppna källor, som implementerar dem. När data ackumulering blomstrar och accelererar (det vill säga stora data), och kostnadseffektiv hårdvara och plattformar (som cloud computing och Hadoop), upplever predictive analyticsverktyg en boom.
Data och affärsmål är inte de enda faktorer som ska beaktas när du väljer en algoritm. Sakkunskapen hos dina datavetenskapare är av enormt värde vid denna tidpunkt. Att välja en algoritm som kommer att få jobbet är ofta en knepig kombination av vetenskap och konst. Konstdelen kommer från erfarenhet och kompetens inom affärsområdet, vilket också spelar en viktig roll för att identifiera en modell som kan betjäna affärsmålen exakt.