Video: hadoop yarn architecture 2024
Datastyrning är viktigt för ditt företag oavsett vad dina stora datakällor är eller hur de hanteras. I den traditionella världen av datalager eller relationsdatabashantering är det troligt att ditt företag har välförståda regler om hur data ska skyddas.
Till exempel i vårdvärlden är det viktigt att hålla patientdata privat. Du kan kanske lagra och analysera data om patienter så länge namn, personnummer och andra personuppgifter maskeras. Du måste se till att obehöriga personer inte har tillgång till privata eller begränsade uppgifter.
Vad händer när du översvämmer din miljö med stora datakällor som kommer från en mängd olika källor? Några av dessa källor kommer från kommersiella tredjepartsleverantörer som noggrant har granskat uppgifterna och maskerat ut känsliga data.
Det är dock ganska troligt att de stora datakällorna kan vara osäkra och oskyddade och innehålla mycket personuppgifter. Under första behandlingen av dessa data analyserar du noggrant mycket data som inte visar sig vara relevanta för din organisation. Därför vill du inte investera resurser för att skydda och styra data som du inte tänker behålla.
Om känsliga personuppgifter passerar över ditt nätverk kan du utsätta ditt företag för oavsiktliga efterlevnadskrav. För data som är verkligt exploratory, med okänt innehåll, kan det vara säkrare att utföra den inledande analysen i en "murad" miljö som är intern men segmenterad eller i molnet.
När du än bestämt dig för att en delmängd av data kommer att analyseras djupare, så att resultaten kan integreras i din affärsprocess, är det viktigt att inleda en process för att noggrant tillämpa styrningskrav på den data.
Vilka frågor bör du tänka på när du införlivar dessa obehandlade källor i din miljö? Tänk på följande:
-
Bestäm i förväg om vem som får tillgång till nya datakällor i början och efter att data har analyserats och förstått.
-
Förstå hur dessa data kommer att segregeras från andra företags data.
-
Förstå vad ditt ansvar är att utnyttja data. Om uppgifterna är privatägda måste du se till att du följer kontrakt eller användningsregler. Vissa data kan kopplas till ett användaravtal med en leverantör.
-
Förstå var dina uppgifter kommer att vara fysiskt placerade. Du kan inkludera data som är kopplade till kunder eller potentiella kunder i specifika länder som har strikta sekretesskrav.Du måste vara medveten om detaljerna i dessa källor för att undvika att bryta mot bestämmelserna.
-
Förstå hur din data behöver behandlas om den fysiskt flyttas från en plats till en annan. Ska du lagra några av dessa data med en molnleverantör? Vilken typ av löften kommer den leverantören att erbjuda när det gäller var data kommer att lagras och hur bra kommer det att säkras?
Bara för att du har skapat en säkerhets- och styrprocess för dina traditionella datakällor betyder det inte att du kan anta att anställda och partners utvidgar dessa regler till nya datakällor. Du måste överväga två viktiga problem: synligheten av data och förtroendet hos dem som arbetar med data.
-
Synlighet: Medan företagsanalytiker och partners du arbetar med kan vara angelägna om att använda dessa nya datakällor, kanske du inte är medveten om hur dessa data kommer att användas och kontrolleras. Med andra ord kan du inte ha kontroll över din synlighet i dina resurser som körs utanför din kontroll.
Denna situation är särskilt besvärlig om du måste se till att din leverantör följer regler eller lagar för överensstämmelse. Detta gäller även när du använder en molnleverantör för att hantera den data eftersom lagringen kan vara mycket billig att hantera.
-
Oskyddade anställda: Även om ditt företag kan genomgå en omfattande bakgrundskontroll på alla sina anställda, litar du nu på att inga skadliga insidenter arbetar i olika affärsenheter utanför IT. Du måste också anta att din molnleverantör flitigt har kontrollerat sina anställda.
Denna oro är verklig, eftersom nästan 50 procent av säkerhetsbrott orsakas av insiders. Om ditt företag kommer att använda dessa nya datakällor på ett mycket distribuerat sätt, måste du ha en plan för att hantera både inre och yttre hot.
Du har ett ansvar att se till att dina nya stora datakällor inte öppnar ditt företag för oförutsedda hot eller styrningsrisker. Det är ditt ansvar att ha god säkerhet, styrningsprocesser och utbildning på plats i hela din informationshanteringsmiljö.
Som med alla tekniska livscykler måste du ha en process för att bedöma din organisations förmåga att möta alla aktörers beredskap att följa säkerhets- och styrningskraven. Du kan redan ha processer för datasäkerhet, integritet och styrning på plats för dina befintliga strukturerade databaser och datalager. Dessa processer måste utökas för din stora dataimplementering.