Video: Per och Sten Sundblad, del 1 2024
I perspektivet kommer målet att utforma en arkitektur för dataanalys ner till att bygga en ram för att fånga, sortera och analysera stora data för ändamålet att upptäcka effektiva resultat.
Tänk på arkitekturen som omvandlar stora data till genomförbara resultat.Det finns inget korrekt sätt att utforma den arkitektoniska miljön för stor dataanalys. De flesta mönster måste emellertid uppfylla följande krav för att stödja de utmaningar som stora data kan ge. Dessa kriterier kan fördelas huvudsakligen över sex lager och kan sammanfattas enligt följande:
- Din arkitektur ska innehålla en stor dataplatform för lagring och beräkning, som Hadoop eller Spark, som kan skala ut.
- Din arkitektur ska innehålla storskalig programvara och stora datainställningar som kan analysera, lagra och hämta stora data. Dessa kan bestå av komponenterna i Spark, eller komponenterna i Hadoop ekosystem (som Mahout och Apache Storm). Du kanske också vill anta ett stort data storskaligt verktyg som ska användas av datavetenskapare i din verksamhet. Dessa inkluderar Radoop från RapidMiner, IBM Watson och många andra.
- Din arkitektur ska stödja virtualisering. Virtualisering är ett viktigt element i cloud computing eftersom det tillåter att flera operativsystem och applikationer körs samtidigt på samma server. På grund av denna förmåga går virtualisering och cloud computing ofta hand i hand. Du kan också anta ett privat moln i din arkitektur. Ett privat moln erbjuder samma arkitektur som ett offentligt moln, förutom att tjänsterna i ett privat moln är begränsade till ett visst antal användare via en brandvägg. Amazon Elastic Computer Cloud är en av de största leverantörerna av privata molnlösningar och lagringsutrymme för företag, och kan skala när de växer.
- Din arkitektur kan behöva erbjuda analys i realtid om ditt företag arbetar med snabb data (data som strömmar i strömmar med snabb hastighet). I ett scenario där du skulle behöva överväga en infrastruktur som kan stödja avledning av insikter från data i nära realtid utan att vänta på att data ska skrivas till disken. Till exempel kan Apache Sparks strömmande bibliotek limmas med andra komponenter för att stödja analyser på snabba dataströmmar.
- Din arkitektur ska redogöra för Big Data-säkerhet genom att skapa ett styrsystem om tillgången till data och resultaten. Den stora datasäkerhetsarkitekturen ska överensstämma med de vanliga säkerhetsmetoderna och principerna i din organisation som styr tillgången till datakällor.
Om du letar efter ett robust verktyg för att hjälpa dig att komma igång med dataanalys utan att behöva ha expertis i algoritmerna och komplexiteten bakom att bygga prediktiva modeller, bör du bland annat prova KNIME, RapidMiner eller IBM Watson.
De flesta av de föregående verktygen erbjuder en omfattande, färdig verktygslåda som består av funktioner som kan komma igång. Till exempel har RapidMiner ett stort antal algoritmer från olika tillstånd i den predictive analytics livscykeln, så det ger en enkel väg att snabbt kombinera och distribuera analysmodeller.
Med RapidMiner kan du snabbt ladda och förbereda dina data, skapa och utvärdera prediktiva modeller, använda dataprocesser i dina applikationer och dela dem med dina företagsanvändare. Med mycket få klick kan du enkelt bygga en enkel prediktiv analysmodell.
Dra och släpp analys med RapidMiner.RapidMiner kan användas av både nybörjare och experter. RapidMiner Studio är en programprogramvara med öppen källkod som har ett användarvänligt grafiskt gränssnitt där du kan dra och släppa algoritmer för datalastning, dataförbehandling, prediktiva analysalgoritmer och modellutvärderingar för att bygga upp din dataanalysprocess.
RapidMiner byggdes för att ge datavetenskapare en omfattande verktygslåda som består av mer än tusen olika operationer och algoritmer. Data kan laddas snabbt, oavsett om din datakälla finns i Excel, Access, MS SQL, MySQL, SPSS, Salesforce eller något annat format som stöds av RapidMiner. Förutom datatillförsel, prediktiv modellbyggnad och modellutvärdering ger detta verktyg dig också verktyg för datavisualisering som inkluderar justerbara självorganiserande kartor och 3-D-grafer.
RapidMiner erbjuder ett öppet program för programmeringsgränssnitt (API) som gör att du kan integrera dina egna algoritmer i en pipeline som är inbyggd i RapidMiner. Det är också kompatibelt med många plattformar och kan köras på större operativsystem. Det finns ett framväxande internetgemenskap för datavetenskapare som använder RapidMiner där de kan dela sina processer och fråga och svara på frågor.
Ett annat lättanvänt verktyg som används allmänt i analysvärlden är KNIME. KNIME står för Konstanz Information Miner. Det är en öppen källdataanalys som kan hjälpa dig att bygga prediktiva modeller genom ett datapipeliningskoncept. Verktyget erbjuder drag-och-släpp-komponenter för ETL (extraktion, transformation och laddning) och komponenter för prediktiv modellering samt datavisualisering.
KNIME och RapidMiner är verktyg som du kan få ditt datavetenskapsteam att enkelt komma igång med att bygga prediktiva modeller. För ett utmärkt användarfall på KNIME, kolla in papperet "De sju teknikerna för dimensionalitetsminskning. "
RapidMiner Radoop är en produkt av RapidMiner som utökar predictive analytics verktygslådan på RapidMiner Studio för att köras på Hadoop och Spark-miljöer.Radoop inkapslar MapReduce, Pig, Mahout och Spark. När du har definierat dina arbetsflöden på Radoop, utförs instruktionerna i Hadoop eller Spark-miljön, så du behöver inte programmera prediktiva modeller utan fokusera på modellbedömning och utveckling av nya modeller.
För säkerhet stöder Radoop Kerberos-autentisering och integreras med Apache Ranger och Apache Sentry.