Innehållsförteckning:
- Stora dataegenskaper
- En viktig appell från Hadoop är att den kan hantera olika typer av data. Parallella databashanteringssystem har varit på marknaden i årtionden. De kan stödja parallell utförande eftersom de flesta av tabellerna är partitionerade över noderna i ett kluster och de kan översätta SQL-kommandon till en plan som är uppdelad över noderna i klustret. De hanterar dock mestadels strukturerade data eftersom det är svårt att passa ostrukturerad, friformad data i kolumnerna och raderna i en relationsmodell.
Video: Kenneth Cukier: Big data is better data 2024
Termen stora data används ofta i hybridmolnteknologiens värld på grund av det pågående behovet av att bearbeta ökande mängder data. Det viktigaste faktumet om stora data är att det existerar vid tipppunkten för de lösningar som organisationer historiskt har infört för att hantera stora volymer av komplexa data. Stor datateknik tillåter att människor faktiskt analyserar och utnyttjar dessa uppgifter effektivt.
Stora dataegenskaper
Stora data har generellt tre egenskaper - volym, variation och hastighet:
-
Volym: Stora data är stora i volym. Det hänvisar generellt till åtminstone flera terabyte data. Många stora dataimplementeringar letar efter att analysera informationskällor.
Namn Värde Byte 10 0 Gigabyte 10 9 bytes terabyte 10 12 > bytes Petabyte byte~~POS=HEADCOMP 10 15 bytes Exabyte 10 18 bytes -
Stora data finns i olika former och storlekar. Det innehåller dessa typer av data: Strukturerad data
-
är den typiska typen av data som analytiker används för att hantera. Det inkluderar intäkter och antal försäljningar - vilken typ av data du tycker om, inklusive i en databas. Strukturerade data produceras också på nya sätt i produkter som sensorer och RFID-taggar.
-
har en viss struktur för det men inte hur du tänker på tabeller i en databas. Den innehåller EDI-format och XML. Ostrukturerad data
-
innehåller text, bild och ljud, inklusive alla dokument, e-postmeddelanden, tweet eller bloggar internt till ett företag eller på Internet. Ostrukturerad data står för cirka 80 procent av alla data. Hastighet:
-
-
Det här är den hastighet vid vilken data flyttas. Tänk på sensorer som registrerar data varje millisekund eller dataströmmar som matas ut från medicinsk utrustning. Stora data kommer ofta till dig i en ström, så det har en realtidskaraktär associerad med den. Molnet är en idealisk plats för stora data på grund av sin skalbara lagring, beräkningskraft och elastiska resurser. Molnmodellen är storskalig; distribuerad databehandling och ett antal ramverk och tekniker har uppstått för att stödja denna modell, inklusive
Apache Hadoop:
-
En öppen källkod distribuerad databehandling plattform skriven i Java. Det är ett mjukvarubibliotek som möjliggör distribuerad bearbetning över datorklyftor. Det är verkligen ett distribuerat filsystem. Det skapar en datapool, var och en med ett Hadoop-filsystem. Hadoop utformades för att hantera stora mängder komplexa data.Uppgifterna kan struktureras, ostruktureras eller semistruktureras. Hadoop kan springa över många servrar som inte delar minne eller disk. Se Hadoop för mer information. MapReduce:
-
En mjukvaruram som introducerades av Google för att stödja distribuerad databehandling på stora datamängder. Det är kärnan i vad Hadoop gör med stora data och stor dataanalys. Det är utformat för att dra nytta av molnresurser. Denna beräkning görs på många datorer, kallad kluster , och varje kluster kallas en nod. MapReduce kan hantera både strukturerad och ostrukturerad data. Användare anger en kartfunktion som bearbetar ett nyckel / värdepar för att generera en uppsättning mellanpar och en reduktionsfunktion som sammanfogar dessa par. Stora databaser
En viktig appell från Hadoop är att den kan hantera olika typer av data. Parallella databashanteringssystem har varit på marknaden i årtionden. De kan stödja parallell utförande eftersom de flesta av tabellerna är partitionerade över noderna i ett kluster och de kan översätta SQL-kommandon till en plan som är uppdelad över noderna i klustret. De hanterar dock mestadels strukturerade data eftersom det är svårt att passa ostrukturerad, friformad data i kolumnerna och raderna i en relationsmodell.
Hadoop har börjat en rörelse i det som har kallats
NoSQL, vilket betyder inte bara SQL. Termen avser en uppsättning tekniker som skiljer sig från relationsdatabasystem. En stor skillnad är att de inte använder SQL. De är också avsedda för distribuerade datalager. NoSQL betyder inte att människor inte ska använda SQL. Snarare är tanken att beroende på vad ditt problem är, kan relationsdatabaser och NoSQL-databaser samverka i en organisation. Det finns många exempel på dessa typer av databaser, inklusive följande:
Apache Cassandra:
-
Ett open source-distribuerat datahanteringssystem som ursprungligen utvecklats av Facebook. Det har inga stränga strukturkrav, så det kan hantera alla olika typer av data. Experter hävdar att det utmärker sig vid transaktioner i realtidstransaktioner i realtid. Andra öppna källdatabaser inkluderar MongoDB, Apache CouchDB och Apache HBase. Amazon Simple DB:
-
Amazon liknar denna databas till ett kalkylblad genom att det har kolumner och rader med attribut och objekt som är lagrade i var och en. Till skillnad från ett kalkylblad kan varje cell ha flera värden, och varje objekt kan ha sin egen uppsättning associerade attribut. Amazon indexerar sedan automatiskt data. Amazon annonserade nyligen Amazon Dynamo DB som ett sätt att få stora data NoSQL till molnet. Google BigTable:
-
Denna hybrid är som ett stort bord. Eftersom tabeller kan vara stora delas de i radgränserna i tabeller, vilket kan vara hundratals megabyte eller så. MapReduce används ofta för att generera och ändra data lagrad i BigTable.