Video: Learn Data Science Tutorial - Full Course for Beginners 2024
Data i prediktiv analys kan identifieras som strömad, statisk eller en blandning av de två. Strömdata ändras kontinuerligt; Exempel är den ständiga strömmen av Facebook-uppdateringar, tweets på Twitter och de ständigt växlande aktiekurserna medan marknaden fortfarande är öppen.
Strömdat data ändras kontinuerligt; statiska data är fristående och innesluten. Problemen som är förknippade med statiska data inkluderar luckor, avvikelser eller felaktiga data, som alla kan kräva viss rengöring, förberedelse och förbehandling innan du kan använda statiska data för en analys.
Som med strömad data kan andra problem uppstå. Volymen kan vara ett problem; den stora mängd icke-stop-data som ständigt anländer kan vara överväldigande. Ju snabbare data strömmar in, desto svårare är det för analysen att komma ikapp.
De två huvudmodellerna för att analysera strömdata är följande:
-
Undersök endast de senaste datapunkterna och fatta beslut om modellens tillstånd och nästa steg. Detta tillvägagångssätt är inkrementellt - väsentligen bygger upp en bild av data när den kommer.
-
Utvärdera hela datasetet, eller en delmängd av det, för att fatta beslut varje gång nya datapunkter kommer fram. Detta tillvägagångssätt innehåller fler datapunkter i analysen - vad utgör "hela" datasetet varje gång nya data läggs till.
Beroende på verksamhetens karaktär och beslutets förväntad inverkan är en modell bättre än den andra.
Några företagsdomäner, till exempel analys av miljö-, marknads- eller intelligensdata, pris nya data som kommer i realtid. Alla dessa data måste analyseras eftersom den strömmar - och tolkas inte bara korrekt utan omedelbart.
På grund av den nyligen tillgängliga informationen redogörs modellen för hela den inre representationen av omvärlden. Genom att göra så får du den mest aktuella grunden för ett beslut som du kan behöva göra och agera snabbt.
Exempelvis kan en prediktiv analysmodell bearbeta ett aktiekurs som en dataflöde, även när data förändras snabbt, analysera data i samband med omedelbara marknadsförhållanden som existerar i realtid och bestämmer sedan huruvida man ska handla särskilt lager.
Det skiljer sig tydligt från att analysera strömad data från att analysera statiska data. Att analysera en blandning av båda datatyperna kan vara ännu mer utmanande.