Mätning Likhet mellan vektorer för maskininlärning - dummies

Du kan enkelt jämföra exempel från dina data med hjälp av beräkningar om du tänker på var och en av dem som en vektor. Följande information beskriver hur man mäter likheter mellan vektorer för att utföra uppgifter som att beräkna avståndet mellan vektorer för inlärningsändamål.

Förstå likhet

I en vektorform kan du se varje variabel i dina exempel som en serie koordinater, var och en pekar på en position i en annan rymddimension. Om en vektor har två element, det vill säga, den har bara två variabler. Att arbeta med det är precis som att kontrollera en positions position på en karta med hjälp av det första numret för positionen på öst-västaxeln och den andra på nord- Sydaxeln.

Exempel på värden plottade som punkter på ett diagram.

Exempelvis är siffrorna mellan parenteser (1, 2) (3, 2) och (3, 3) alla exempel på punkter. Varje exempel är en ordnad lista över värden (kallad en tupel) som lätt kan lokaliseras och skrivas ut på en karta med det första värdet av listan för x (den horisontella axeln) och den andra för y (den vertikala axeln). Resultatet är en scatterplot.

Om din dataset, i matrisform, har många numeriska funktioner (kolumnerna), representerar idealt talet av funktionerna dimensionerna i datavalet, medan raderna (exemplen) representerar var och en punkt, vilken matematiskt är en vektor. När din vektor har mer än två element blir visualisering besvärlig eftersom att representera dimensioner ovanför den tredje är inte lätt (vi lever ju trots allt i en tredimensionell värld).

Du kan dock sträva efter att förmedla mer dimensioner i någon form av lämplighet, till exempel genom att använda storlek, form eller färg för andra dimensioner. Det är uppenbarligen inte en lätt uppgift, och ofta är resultatet långt ifrån intuitivt. Men du kan förstå tanken på var punkterna skulle ligga i ditt datalager genom att systematiskt skriva ut många grafer medan du beaktar dimensionerna två för två. Sådana tomter kallas matriser av scatterplots.

Oroa dig inte för multidimensionality. Du utökar de regler du lärde dig i två eller tre dimensioner till flera dimensioner, så om en regel fungerar i ett dubbelriktat utrymme, fungerar det också i en multipel. Därför refererar alla exemplen först till bidimensionella exempel.

Datoravstånd för inlärning

En algoritm kan lära sig genom att använda vektorer av siffror som använder avståndsmätningar. Ofta är det utrymme som anges av dina vektorer en metrisk som är ett utrymme vars avstånd respekterar vissa specifika förhållanden:

Inga negativa avstånd existerar, och ditt avstånd är endast noll när utgångspunkten och slutpunkten sammanfaller (kallad nonnegativity).
Avståndet är detsamma som går från en punkt till en annan och vice versa (kallad symmetri).
Avståndet mellan en inledande punkt och en slutlig är alltid större än, eller värre densamma som, avståndet från början till tredje punkt och därifrån till den sista (kallad triangelikhet < - vilket innebär att det inte finns några genvägar). Avstånd som mäter ett metriskt utrymme är Euklidiskt avstånd, Manhattans avstånd och Chebyshev-avståndet. Dessa är alla avstånd som kan gälla för numeriska vektorer.

Euklidiskt avstånd

Det vanligaste är det euklidiska avståndet, även beskrivet som 2-norm av två vektorer (läs denna diskussion om l1, l2 och linfinitetsnormer). I ett tvådimensionellt plan reflekterar det euklidiska avståndet som den raka linjen som förbinder två punkter, och du beräknar den som kvadratroten av summan av den kvadrerade skillnaden mellan elementen i två vektorer. I det föregående diagrammet kan det euklidiska avståndet mellan punkterna (1, 2) och (3, 3) beräknas i R som sqrt ((1-3) ^ 2 + (2-3) ^ 2), vilket resulterar i en avstånd på ca 2. 236.

Manhattan avstånd

En annan användbar åtgärd är Manhattan-avståndet (även beskrivet som l1-norm av två vektorer). Du beräknar Manhattan-avståndet genom att summera det absoluta värdet av skillnaden mellan vektorerna. Om det euklidiska avståndet markerar den kortaste vägen markerar Manhattans avstånd den längsta vägen, som liknar riktningen för en taxi som flyttar i en stad. (Avståndet är också känt som taxicab eller city-block avstånd.)

Exempelvis är avståndet mellan Manhattan (1, 2) och (3, 3) abs (1-3) och abs (2-3)), vilket resulterar i 3.

Chebyshev-avstånd

Chebyshev-avståndet eller maxmåttet tar maximal av den absoluta skillnaden mellan vektorerna. Det är en distansåtgärd som kan representera hur en kung rör sig i schackspel eller, i lagerlogistik, de operationer som krävs av en overheadkran för att flytta en kista från en plats till en annan.

I maskinlärning kan Chebyshev-avståndet vara användbart när du har många dimensioner att överväga, och de flesta av dem är bara irrelevanta eller överflödiga (i Chebyshev väljer du bara den vars absoluta skillnad är störst). I det exempel som används ovan är avståndet helt enkelt 2, max mellan (1-3) och abs (2-3).