Video: The era of blind faith in big data must end | Cathy O'Neil 2024
Att bara ha en snabbare dator räcker inte för att säkerställa rätt prestanda för hantering av stora data. Du måste kunna distribuera komponenter i din stora datatjänst över en rad noder. I distribuerad databehandling är en nod ett element som ingår i ett systemkluster eller inom ett rack.
En nod innehåller typiskt CPU, minne och någon typ av disk. En nod kan dock också vara en CPU och minne som är beroende av närliggande lagring i ett ställ.
Inom en stor datamiljö kluster dessa noder ihop för att ge skalan. Du kan till exempel börja med en stor dataanalys och fortsätt att lägga till fler datakällor. För att tillgodose tillväxten lägger en organisation helt enkelt fler noder i ett kluster så att det kan skala ut för att tillgodose växande krav.
Det räcker dock inte att helt enkelt expandera antalet noder i klustret. Det är snarare viktigt att kunna skicka en del av den stora dataanalysen till olika fysiska miljöer. Där du skickar dessa uppgifter och hur du hanterar dem gör skillnaden mellan framgång och misslyckande.
I vissa komplexa situationer kanske du vill utföra många olika algoritmer parallellt, även inom samma grupp, för att uppnå den analyshastighet som krävs. Varför skulle du utföra olika stora datalgoritmer parallellt inom samma rack? Ju närmare varandra fördelningsfördelningen är, desto snabbare kan de utföra.
Även om det är möjligt att distribuera stor dataanalys över nätverk för att dra nytta av tillgänglig kapacitet, måste du göra denna typ av distribution baserat på krav på prestanda. I vissa situationer tar bearbetningshastigheten baksätet. Men i andra situationer är det snabbt att få resultat snabbt. I den här situationen vill du se till att nätverksfunktionerna ligger i närheten av varandra.
I allmänhet måste den stora datamiljön optimeras för typen av uppgiftsuppgift. Därför är skalbarhet det som gör att stora data fungerar framgångsrikt. Även om det skulle vara teoretiskt möjligt att driva en stor datamiljö inom en enda stor miljö är det inte praktiskt.
För att förstå behoven för skalbarhet i stora data måste man bara titta på molnbarbarhet och förstå både krav och tillvägagångssätt. Liksom cloud computing kräver stora data införandet av snabba nätverk och billiga kluster av hårdvara som kan kombineras i ställen för att öka prestanda. Dessa kluster stöds av mjukvaruautomatisering som möjliggör dynamisk skalning och lastbalansering.
Designen och implementeringen av MapReduce är utmärkta exempel på hur distribuerad databehandling kan göra stora data operativt synliga och prisvärda. I huvudsak är företagen ett av de unika vändpunkterna i datateknik där teknikkoncept sammanfaller vid rätt tidpunkt för att lösa de rätta problemen. Kombinera distribuerad databehandling, förbättrade hårdvarusystem och praktiska lösningar som MapReduce och Hadoop ändrar datahantering på djupa sätt.