Video: The Global Prayer Room | 24/7 Live Stream 2024
När data strömmar i enorma mängder, lagring allt kan vara svårt eller till och med omöjligt. Det kan inte ens vara användbart att lagra allt. Här är några siffror om vad du kan förvänta dig att hända inom en enda minut på Internet:
- 150 miljoner e-postmeddelanden skickade
- 350, 000 nya tweet skickade på Twitter
- 2. 4 miljoner frågor begärda på Google
- 700 000 personer inloggade på deras konto på Facebook
Med tanke på sådana volymer kanske inte ackumulering av data hela dagen för inkrementell analys verkar vara effektiv. Du lagrar det enkelt bort någonstans och analyserar det på följande eller på en senare dag (vilket är den utbredda arkivstrategin som är typisk för databaser och datalager). Användbara datasökningar tenderar emellertid att fråga om de senaste data i strömmen, och data blir mindre användbara när det åldras (i vissa sektorer, till exempel ekonomisk, kan en dag vara mycket).
Dessutom kan du förvänta dig ännu mer data att komma fram i morgon (antalet data ökar dagligen) och det gör det svårt om inte omöjligt att dra data från repositories när du trycker in nya data. Att dra gamla data från repositories när ny data släpper in är relaterad till straffet av Sisyphus. Sisyphus, som en grekisk myt berättar, mottog en fruktansvärd bestraffning från gud Zeus: Att vara tvungen att evigt rulla en enorm boulder uppe på en kulle, bara för att se den rulla tillbaka ner varje gång.
Ibland gör sakerna ännu mer omöjliga att hantera, data kan komma så fort och i så stora mängder som att skriva till disk är omöjligt: Ny information kommer snabbare än den tid som krävs för att skriva den till hårddisk. Detta är ett problem som är typiskt för partikelexperiment med partikelacceleratorer som Large Hadron Collider, vilket kräver att forskare bestämmer vilken data som ska behållas. Naturligtvis kan du ködata för en tid, men inte för länge, eftersom köen snabbt växer och blir omöjlig att bibehålla. Om du exempelvis håller i minnet kommer ködata automatiskt att leda till ett fel i minnet.
Eftersom nya dataflöden kan göra den tidigare behandlingen av gamla data föråldrade, och förskjutning inte är en lösning, har människor utformat flera strategier för att hantera massiva och ändrade datamängder omedelbart. Människor använder tre sätt att hantera stora mängder data:
- Lagrad: Vissa data lagras eftersom det kan hjälpa till att svara oklara frågor senare. Denna metod bygger på tekniker för att lagra den omedelbart och analysera den senare mycket snabbt, oavsett hur massiv det är.
- Sammanfattad: Vissa data sammanfattas för att hålla allt som det är meningslöst; endast viktiga uppgifter hålls.
- Konsumeras: Återstående data förbrukas eftersom användningen är förutbestämd. Algoritmer kan direkt läsa, smälta och omvandla data till information. Därefter glömmer systemet data för alltid.
När man talar om massiv data som kommer in i ett datorsystem hörs det ofta i förhållande till vatten: strömmande data, dataströmmar, datasvängslang.
Du upptäcker hur dataströmmar är som att förbruka kranvatten: Med öppningen kan du lagra vattnet i koppar eller drickflaskor, eller du kan använda den för att laga mat, rengöra plattor eller tvätta hand. Under alla omständigheter är det mesta eller hela vattnet borta, men det visar sig vara mycket användbart och verkligen viktigt.