Video: Nicholas Christakis: How social networks predict epidemics 2024
Stor dataanalys har fått mycket hype nyligen och med god anledning. Du måste känna till egenskaperna hos stor dataanalys om du vill vara en del av den här rörelsen. Företag vet att något är där ute, men tills nyligen har det inte kunnat gruva det. Detta trycker på kuvertet på analys är en spännande aspekt av den stora dataanalysrörelsen.
Företagen är glada att kunna komma åt och analysera data som de har samlat in eller vill få insikt från, men har inte kunnat hantera eller analysera effektivt. Det kan innebära att du visualiserar enorma mängder av olika data, eller det kan innebära avancerad analyserad streaming på dig i realtid. Det är evolutionärt i vissa avseenden och revolutionärt i andra.
Så, vad är annorlunda när ditt företag trycker på kuvertet med stor dataanalys? Infrastrukturen som stöder stor dataanalys är annorlunda och algoritmer har ändrats för att vara infrastrukturmedveten.
Stor dataanalys bör ses från två perspektiv:
-
Beslutsriktad
-
Åtgärdsorienterad
Beslutsorienterad analys är mer lik traditionell affärsinformation. Titta på selektiva delmängder och representationer av större datakällor och försök att tillämpa resultaten på processen för att göra affärsbeslut. Visst kan dessa beslut leda till någon form av åtgärd eller processförändring, men syftet med analysen är att öka beslutsfattandet.
Åtgärdsinriktad analys används för snabb respons, när ett mönster kommer fram eller specifika typer av data detekteras och åtgärd krävs. Att dra fördel av stora data genom analys och orsaka proaktiva eller reaktiva beteendeförändringar ger stor potential för tidiga adoptörer.
Hitta och utnyttja stora data genom att skapa analysapplikationer kan hålla nyckeln till att extrahera värde snarare än senare. För att uppnå denna uppgift är det effektivare att bygga dessa anpassade program från början eller genom att utnyttja plattformar och / eller komponenter.
Se först på några av de extra egenskaper som stor dataanalys gör som skiljer sig från traditionella analysformer bortsett från de tre volymerna, hastigheten och variationen:
-
Det kan vara prog. En av de största förändringarna i analysen är att du tidigare handlade med datasatser du manuellt kan ladda in en applikation och utforska. Med stor dataanalys kan du bli utsatt för en situation där du kanske börjar med rådata som ofta måste hanteras programmässigt för att göra någon form av undersökning på grund av omfattningen av data.
-
Det kan vara data driven. Medan många datavetenskapare använder en hypotesdriven metod för dataanalys (utveckla en förutsättning och samla in data för att se om den förutsättningen är korrekt), kan du också använda data för att driva analysen - speciellt om du har samlat enorma mängder av det. Till exempel kan du använda en maskininlärningsalgoritm för att göra denna typ av hypotesfri analys.
-
Det kan använda många attribut på . Tidigare kan du ha hanterat hundratals attribut eller egenskaper hos den datakällan. Nu kan du hantera hundratals gigabyte data som består av tusentals attribut och miljoner observationer. Allt händer nu i större skala.
-
Det kan vara iterativt. Mer beräkningseffekt betyder att du kan iterera på dina modeller tills du får dem hur du vill ha dem. Här är ett exempel. Antag att du bygger en modell som försöker hitta prediktorer för vissa kundbeteenden som är associerade. Du kan börja utvinna ett rimligt urval av data eller ansluta till var data finns. Du kan bygga en modell för att testa en hypotes.
I det förflutna har du kanske inte haft så mycket minne för att din modell ska fungera effektivt, du behöver en enorm mängd fysiskt minne för att gå igenom de nödvändiga iterationer som krävs för att träna algoritmen. Det kan också vara nödvändigt att använda avancerade datatekniker som naturlig språkbehandling eller neurala nätverk som automatiskt utvecklar modellen baserat på inlärning, eftersom mer data läggs till.
-
Det kan vara snabbt för att få beräkningscyklerna du behöver genom att utnyttja en molnbaserad infrastruktur som en tjänst. Med Infrastructure as a Service (IaaS) -plattformar som Amazon Cloud Services (ACS) kan du snabbt tillhandahålla ett kluster av maskiner för att ta in stora dataset och analysera dem snabbt.