Innehållsförteckning:
- Amazons Public Elastic Compute Cloud för stora data
- Googles stora datatjänster
- Microsoft Azure för stora data
- OpenStack för stora data
Video: DEMO: ScaleIO Storage Pools 2024
Molnleverantörer finns i alla former och storlekar och erbjuder många olika produkter för stora data. Vissa är hushållsnamn medan andra nyligen kommer fram. Några av de molnleverantörer som erbjuder IaaS-tjänster som kan användas för stora data inkluderar Amazon. com, AT & T, GoGrid, Joyent, Rackspace, IBM och Verizon / Terremark.
Amazons Public Elastic Compute Cloud för stora data
För närvarande är en av de mest profilerade IaaS-tjänsteleverantörerna Amazon Web Services med sitt Elastic Compute Cloud (Amazon EC2). Amazon började inte med en vision att bygga en stor infrastrukturtjänster verksamhet.
Istället byggde företaget en enorm infrastruktur för att stödja sin egen detaljhandel och upptäckte att dess resurser var underutnyttjad. I stället för att låta den här tillgången ligga tomgång, bestämde den sig för att utnyttja denna resurs samtidigt som den läggs till botten. Amazonas EC2-tjänst lanserades 2006 och fortsätter att utvecklas.
Amazon EC2 erbjuder skalbarhet under användarens kontroll, med användaren att betala resurser per timme. Användningen av termen elastisk i namnet på Amazons EC2 är betydande. Här hänvisar elasticitet till den förmåga som EC2-användare måste öka eller minska de infrastrukturresurser som är tilldelade för att möta deras behov.
Amazon erbjuder även andra stora datatjänster till kunderna i sin Amazon Web Services-portfölj. Dessa inkluderar följande:
-
Amazon Elastic MapReduce: Målad för bearbetning av stora datamängder. Elastic MapReduce använder en hosted Hadoop-ram som körs på EC2 och Amazon Simple Storage Service (Amazon S3). Användare kan nu köra HBase.
-
Amazon DynamoDB: En fullständigt hanterad, inte bara SQL (NoSQL) databasservice. DynamoDB är en feltolerant, mycket tillgänglig datalagringstjänst som erbjuder självtillhandahållande, transparent skalbarhet och enkel administration. Det implementeras på SSD-skivor (solid state disks) för ökad pålitlighet och hög prestanda.
-
Amazon Simple Storage Service (S3): En webbtjänst som är utformad för att lagra vilken mängd data som helst. Styrkan i sitt designcenter är prestanda och skalbarhet, så det är inte lika funktionellt som andra datalager. Data lagras i "hinkar" och du kan välja en eller flera globala regioner för fysisk lagring för att ta itu med latens- eller regleringsbehov.
-
Amazon High Performance Computing: Inspelad för specialiserade uppgifter, den här tjänsten ger låg latensinställda högpresterande datorklienter. HPC går oftast in i det vanliga på grund av erbjudandet av Amazon och andra HPC-leverantörer som oftast används av forskare och akademiker.Amazon HPC-kluster är avsedda för specifika arbetsbelastningar och kan omkonfigureras enkelt för nya uppgifter.
-
Amazon RedShift: RedShift är tillgänglig i begränsad förhandsgranskning, en databashållningstjänst för petabyteskalor byggd på en skalbar MPP-arkitektur. Administreras av Amazon, erbjuder det ett säkert, pålitligt alternativ till inbyggda datalager och är kompatibel med flera populära business intelligence-verktyg.
Googles stora datatjänster
Google, Internet-sökgiganten, erbjuder också ett antal molntjänster riktade till stora data. Dessa inkluderar följande:
-
Google Compute Engine: En cloudbaserad förmåga för virtuell maskinberäkning erbjuder Google Compute Engine en säker, flexibel databehandling från energieffektiva datacenter. Google erbjuder också arbetshanteringslösningar från flera teknikpartners som har optimerat sina produkter för Google Compute Engine.
-
Google Big Query: Gör det möjligt att köra SQL-liknande frågor i hög hastighet mot stora dataset av potentiellt miljarder rader. Även om det är bra att fråga data, kan data inte ändras efter det att det finns i det. Tänk på Google Big Query ett slags OLAP-system (online analytical processing) för stora data. Det är bra för ad hoc-rapportering eller undersökande analys.
-
Google Prediction API: Ett molnbaserat verktyg för maskininlärning för stora mängder data, Prediction kan identifiera mönster i data och sedan komma ihåg dem. Det kan lära sig mer om ett mönster varje gång det används. Mönstren kan analyseras för en rad olika ändamål, inklusive bedrägeribekämpning, churnanalys och kunders sentiment.
Microsoft Azure för stora data
Microsoft har byggt på en uppsättning utvecklingsverktyg, virtuellt maskinstöd, hantering och medietjänster och mobila enheter i ett PaaS-erbjudande baserat på Windows och SQL-abstraktioner. För kunder med djup kompetens inom.Net, SQLServer och Windows är adoptionen av Azure-baserade PaaS okomplicerad.
För att hantera de nya kraven för att integrera stora data i Windows Azure-lösningar har Microsoft också lagt till Windows Azure HDInsight. Byggd på Hortonworks Data Platform (HDP), som enligt Microsoft erbjuder 100 procent kompatibilitet med Apache Hadoop, stöder HDInsight anslutning med Microsoft Excel och andra BI-verktyg (Business Intelligence). Förutom Azure HDInsight kan också distribueras på Windows Server.
OpenStack för stora data
Initierad av Rackspace och NASA genomför OpenStack en plattform med öppen moln som riktar sig mot offentliga eller privata moln. Medan organisationen hanteras skönt av Rackspace, flyttas den till en separat OpenStack-grund. Även om företag kan utnyttja OpenStack för att skapa egna implementeringar, kräver OpenStack-beteckningen överensstämmelse med en standardimplementering av tjänster.
OpenStacks mål är att tillhandahålla en massivt skalad, multitenant molnspecifikation som kan köras på vilken hårdvara som helst. OpenStack bygger ett stort ekosystem av partners intresserade av att anta sin molnplattform, inklusive Dell, HP, Intel, Cisco, Red Hat och IBM, tillsammans med minst 100 andra som använder OpenStack som grund för sina molnutbud.
I huvudsak är OpenStack ett open source-IaaS-initiativ byggt på Ubuntu, ett operativsystem baserat på Debian Linux-distributionen. Det kan också köras på Red Hats version av Linux.
OpenStack erbjuder en rad tjänster, inklusive beräkning, objektlagring, katalog och förråd, instrumentbrädor, identitet och nätverk. När det gäller stora data meddelade Rackspace och Hortonworks (en leverantör av en öppen källdatahanteringsplattform baserad på Apache Hadoop) att Rackspace kommer att släppa en OpenStack offentlig molnbaserad Hadoop-tjänst som kommer att valideras och stödjas av Hortonworks och möjliggöra kunder för att snabbt skapa en stor datormiljö.