Hem Personliga finanser Mätning Likhet mellan vektorer för maskininlärning - dummies

Mätning Likhet mellan vektorer för maskininlärning - dummies

Innehållsförteckning:

Video: Data Analysis in R by Dustin Tran 2024

Video: Data Analysis in R by Dustin Tran 2024
Anonim

Du kan enkelt jämföra exempel från dina data med hjälp av beräkningar om du tänker på var och en av dem som en vektor. Följande information beskriver hur man mäter likheter mellan vektorer för att utföra uppgifter som att beräkna avståndet mellan vektorer för inlärningsändamål.

Förstå likhet

I en vektorform kan du se varje variabel i dina exempel som en serie koordinater, var och en pekar på en position i en annan rymddimension. Om en vektor har två element, det vill säga, den har bara två variabler. Att arbeta med det är precis som att kontrollera en positions position på en karta med hjälp av det första numret för positionen på öst-västaxeln och den andra på nord- Sydaxeln.

Exempel på värden plottade som punkter på ett diagram.

Exempelvis är siffrorna mellan parenteser (1, 2) (3, 2) och (3, 3) alla exempel på punkter. Varje exempel är en ordnad lista över värden (kallad en tupel) som lätt kan lokaliseras och skrivas ut på en karta med det första värdet av listan för x (den horisontella axeln) och den andra för y (den vertikala axeln). Resultatet är en scatterplot.

Om din dataset, i matrisform, har många numeriska funktioner (kolumnerna), representerar idealt talet av funktionerna dimensionerna i datavalet, medan raderna (exemplen) representerar var och en punkt, vilken matematiskt är en vektor. När din vektor har mer än två element blir visualisering besvärlig eftersom att representera dimensioner ovanför den tredje är inte lätt (vi lever ju trots allt i en tredimensionell värld).

Du kan dock sträva efter att förmedla mer dimensioner i någon form av lämplighet, till exempel genom att använda storlek, form eller färg för andra dimensioner. Det är uppenbarligen inte en lätt uppgift, och ofta är resultatet långt ifrån intuitivt. Men du kan förstå tanken på var punkterna skulle ligga i ditt datalager genom att systematiskt skriva ut många grafer medan du beaktar dimensionerna två för två. Sådana tomter kallas matriser av scatterplots.

Oroa dig inte för multidimensionality. Du utökar de regler du lärde dig i två eller tre dimensioner till flera dimensioner, så om en regel fungerar i ett dubbelriktat utrymme, fungerar det också i en multipel. Därför refererar alla exemplen först till bidimensionella exempel.

Datoravstånd för inlärning

En algoritm kan lära sig genom att använda vektorer av siffror som använder avståndsmätningar. Ofta är det utrymme som anges av dina vektorer en metrisk som är ett utrymme vars avstånd respekterar vissa specifika förhållanden:

  • Inga negativa avstånd existerar, och ditt avstånd är endast noll när utgångspunkten och slutpunkten sammanfaller (kallad nonnegativity).
  • Avståndet är detsamma som går från en punkt till en annan och vice versa (kallad symmetri).
  • Avståndet mellan en inledande punkt och en slutlig är alltid större än, eller värre densamma som, avståndet från början till tredje punkt och därifrån till den sista (kallad triangelikhet < - vilket innebär att det inte finns några genvägar). Avstånd som mäter ett metriskt utrymme är Euklidiskt avstånd, Manhattans avstånd och Chebyshev-avståndet. Dessa är alla avstånd som kan gälla för numeriska vektorer.

Euklidiskt avstånd

Det vanligaste är det euklidiska avståndet, även beskrivet som 2-norm av två vektorer (läs denna diskussion om l1, l2 och linfinitetsnormer). I ett tvådimensionellt plan reflekterar det euklidiska avståndet som den raka linjen som förbinder två punkter, och du beräknar den som kvadratroten av summan av den kvadrerade skillnaden mellan elementen i två vektorer. I det föregående diagrammet kan det euklidiska avståndet mellan punkterna (1, 2) och (3, 3) beräknas i R som sqrt ((1-3) ^ 2 + (2-3) ^ 2), vilket resulterar i en avstånd på ca 2. 236.

Manhattan avstånd

En annan användbar åtgärd är Manhattan-avståndet (även beskrivet som l1-norm av två vektorer). Du beräknar Manhattan-avståndet genom att summera det absoluta värdet av skillnaden mellan vektorerna. Om det euklidiska avståndet markerar den kortaste vägen markerar Manhattans avstånd den längsta vägen, som liknar riktningen för en taxi som flyttar i en stad. (Avståndet är också känt som taxicab eller city-block avstånd.)

Exempelvis är avståndet mellan Manhattan (1, 2) och (3, 3) abs (1-3) och abs (2-3)), vilket resulterar i 3.

Chebyshev-avstånd

Chebyshev-avståndet eller maxmåttet tar maximal av den absoluta skillnaden mellan vektorerna. Det är en distansåtgärd som kan representera hur en kung rör sig i schackspel eller, i lagerlogistik, de operationer som krävs av en overheadkran för att flytta en kista från en plats till en annan.

I maskinlärning kan Chebyshev-avståndet vara användbart när du har många dimensioner att överväga, och de flesta av dem är bara irrelevanta eller överflödiga (i Chebyshev väljer du bara den vars absoluta skillnad är störst). I det exempel som används ovan är avståndet helt enkelt 2, max mellan (1-3) och abs (2-3).

Mätning Likhet mellan vektorer för maskininlärning - dummies

Redaktörens val

Hur man redigerar bilder i Redigera snabbläge för Photoshop Elements 9 - dummies

Hur man redigerar bilder i Redigera snabbläge för Photoshop Elements 9 - dummies

I Photoshop Element, Redigera Snabbt läge är en uppskattad version av Redigera fullt läge som ger grundläggande fixverktyg tillsammans med några unika funktioner, till exempel en förhandsgranskning av bilden. Här är ett steg för steg arbetsflöde som du kan följa i Redigera snabbläge för att reparera dina foton: Välj ett eller flera foton i ...

Hur man redigerar i Photoshop Elements 10: s Snabb Fotoredigeringsläge - dummies

Hur man redigerar i Photoshop Elements 10: s Snabb Fotoredigeringsläge - dummies

Snabb Fotoredigering är en uppskattad version av Full Photo Edit-läge som bekvämt ger grundläggande fixeringsverktyg och kastar i några unika egenskaper, till exempel en förhandsgranskning av bilden. Här är ett steg för steg arbetsflöde som du kan följa i Quick Photo Edit-läget för att reparera dina foton:

Hur man förbättrar Photoshop Elements-bilder med Photo Effects - dummies

Hur man förbättrar Photoshop Elements-bilder med Photo Effects - dummies

Fotoeffekter i Photoshop Elements 11 fungerar som applicera filter; medan dialogrutan Filtreringsgalleri ger dig många alternativ för att tillämpa ett filter, ger den guidade panelen dig filtereffekter och tar dig genom steg för att justera ljusstyrka, ändra färgton och mättnad och göra andra justeringar för att perfekta resultatet. Du ...

Redaktörens val

Hur man tar bort bilder från din Canon EOS 7D Mark II - dummies

Hur man tar bort bilder från din Canon EOS 7D Mark II - dummies

När du granskar en bild, bestämmer du om det är en målvakt. Om du tittar på en bild på din Canon EOS 7D Mark II, gillar du inte bilden av någon anledning kan du radera det. Men borttagning av bilder måste ske med stor försiktighet eftersom uppgiften inte kan ångras. När du har raderat en ...

Hur man redigerar filmer på en Canon EOS 60D - dummies

Hur man redigerar filmer på en Canon EOS 60D - dummies

60D Edit-funktionen gör det härligt enkelt för att ta bort oönskade delar från början eller slutet av en film direkt på din kamera. Denna ombordredigering är praktisk men grundläggande, så förvänta dig inte mirakel. Här är de enkla stegen för att trimma början eller slutet på en film: Klicka på ikonen Redigera (det ser ut ...

Redaktörens val

Hur man arbetar med text i ett Word 2010-tabell - dummies

Hur man arbetar med text i ett Word 2010-tabell - dummies

Text hinner i ett bord i Word 2010 på en cell-vid-cell basis. Varje cell i ett Word-bord kan ha ett eget styckeformat och en egen uppsättning flikar. Grupper av celler, rader och kolumner och hela tabellen kan väljas och formateras samtidigt, om du vill. All standardtext ...

Hur man arbetar med Word 2010: s decimala flik - dummies

Hur man arbetar med Word 2010: s decimala flik - dummies

Du kan använda decimalfliken i Word 2010 till rad upp kolumner av siffror. Även om du kan använda en rätt flik för att göra detta jobb är decimalfliken ett bättre val. I stället för högerjusterad text, som den högra fliken gör, justerar decimalfliken siffror efter deras decimaldel - perioden i ...

Hur man arbetar med flera Word 2010-dokument på samma gång - dummies

Hur man arbetar med flera Word 2010-dokument på samma gång - dummies

O saker Word 2010 kan göra med dokument! Du kan öppna flera Word-dokument samtidigt och arbeta på mycket av dem, växla mellan de olika öppna dokumenten. Öppnar flera Word-dokument samtidigt Det är inte en fråga om hur Word kan fungera på mer än ett dokument åt gången. Nej, ...