Video: Hadoop Processing Frameworks 2024
Att få huvudet runt NoSQL kan vara lite svårt. Om du studerat databaser i skolan kan du ha blivit indoktrinerad i ett relationellt sätt att tänka på. Säg databas för de flesta, och de tror att relationsdatabashanteringssystem . Detta är naturligt eftersom RDBMS under de senaste 30 åren har varit så dominerande.
För att hjälpa dig på denna resa, här är några nyckelord som är vanliga, liksom vad de menar när de tillämpas på NoSQL-databaser.
-
Databaskonstruktion
-
Databas: En enda logisk enhet, potentiell spridning över flera maskiner, i vilken data kan läggas till och som kan ställas in för data som den innehåller.
Relativ termen tabellutrymme kan också tillämpas på en NoSQL-databas eller -samling.
-
Databas: En term från RDBMS hänvisar till en uppsättning skrivskyddade replikssatser lagrade över ett hanterat kluster av maskiner.
I en RDBMS kan dessa vanligen inte ha maskiner tillagda utan nedtider. I NoSQL-kluster är det önskvärt att snabbt skala ut.
-
Partition: En uppsättning data som ska lagras tillsammans på en enda nod för att bearbeta effektivitet eller att replikeras.
Kan också användas för att fråga. I det här fallet kan det ses som en samling .
-
-
Databasstruktur
-
Samling: En uppsättning poster, vanligtvis dokument, som är grupperade ihop. Detta bygger inte på en egendom inom posten, men inom dess metadata. Att tilldela en post till en samling görs vanligtvis vid skapande eller uppdateringstid.
-
Schema: I RDBMS och till viss del kolonnaffärer. Uppbyggnaden av data måste konfigureras i databasen innan någon data laddas.
I dokumentdatabaser kan det, trots att en struktur kan lagras, ibland vara bättre att begränsa strukturerna genom att tillämpa scheman, såsom i en XML Schema Definition. NoSQL anses emellertid som schema-fri, eller som stödjande variabel schema.
-
-
Records
-
Record: En enda atomenhet för data representation i den specifika databasen som beskrivs.
I en RDBMS skulle detta vara en rad, som det är i kolumnaffärer. Detta kan också vara ett värde i en nyckelvärdesbutik, ett dokument i en dokumentbutik eller ett ämne (inte trippel) i en trippelbutik.
-
Rad: Atomenhet i posten i en RDBMS- eller kolonnhandel.
Kan modelleras som ett element i en dokumentbutik eller som en karta i en nyckelvärdesbutik.
-
Fält: Ett enda fält i en post. En kolumn i en RDBMS.
Kan inte vara närvarande i alla poster, men när presenten ska vara av samma typ eller struktur.
-
Tabell: En enda klass av posten. I Bigtable kallas de också bord. I en trippelbutik kan de kallas föremål RDF-typer eller namngivna grafer beroende på sammanhanget. I en dokumentaffär kan de vara samlingar.
-
-
Rekordföreningar
-
Primärtangent: Ett garanterat unikt värde i ett visst bord som kan användas för att alltid referera till en post. En nyckel i en nyckelvärdesbutik, URI i en dokumentbutik eller IRI i en trippel eller grafikbutik.
-
Främmande nyckel: Ett datavärde som anger en post är relaterad till en post i en annan tabell eller en uppsättning uppsättningar. Har samma värde som den primära nyckeln i den relaterade tabellen.
-
Förhållande: En länk eller kant i grafteori, som indikerar att två poster har en semantisk länk. Relationen kan vara mellan två poster i samma eller olika tabeller.
I RDBMS är det normalt andra tabeller, medan det i en trippelbutik är vanligt att relatera ämnen av samma typ (t.ex. personer i en social graf). Vissa databaser, främst grafbutiker, stödjer att lägga till metadata i relationerna.
-
-
Lagringsorganisation
-
Server: En enda datornod i ett kluster. Körs en enskild instans av en databaseserver kod.
-
Cluster: En fysisk gruppering eller servrar som hanteras tillsammans i samma datacenter för att tillhandahålla en enda tjänst. Må kopiera databaser till kluster i andra datacenter.
-
Normal form: En metod för normalisering eller minimering av dubbelarbete, i data i en RDBMS.
NoSQL-databaser leder vanligtvis till en denormaliserad datastruktur för att ge snabbare fråga eller dataåtkomst.
-
-
Replikeringsteknik
-
Diskreplikation: Genomskinlig replikering av data mellan noder i ett enda kluster för att ge hög tillgänglighet motståndskraft vid fel på en enda nod.
-
Databasreplikation: Replikering mellan databaser i olika kluster. Replikerar all data i uppdateringsorder från ett kluster till ett annat. Alltid ensriktad.
-
Flexibel replikering: Ger applikationsstyrd replikering av data mellan databaser i olika kluster. Uppdateringar får inte komma i samma ordning som de applicerades på den första databasen. Innehåller vanligtvis viss anpassad bearbetning, såsom prioritering av datuppdateringar som ska skickas nästa. Kan vara dubbelriktad med lämplig uppdateringskonfliktupplösningskod.
-
-
Sökverktyg
-
Index: En ordnad lista över värden som finns i en viss post.
-
Omvänd index: En ordnad lista över värden (termer) och en lista över primära nycklar till poster som använder dessa villkor.
Ger effektiv effektiv ostrukturerad textsökning och snabba aggregationsfunktioner och sortering när den är cachad i minnet.
-
Fråga: En uppsättning kriterier som resulterar i en lista över poster som matchar frågan exakt, returneras i enlighet med specifika fältvärden.
-
Sök: En uppsättning kriterier som resulterar i en relevansordnad lista som matchar frågan.
Sökningskriterierna kanske inte kräver en exakt match, utan återkommer en relevansberäkning som viktas av att matchen ligger nära kriterierna.Så här gör Google när du utför en sökning.
-