Video: Geometry: Measurement of Angles (Level 1 of 9) | Measuring Angles 2024
Både klustring och klassificering baseras på att beräkna likheten eller skillnaden mellan två datapunkter. Om din dataset är numerisk - består av endast antal fält och värden - och kan visas på ett n -dimensionellt diagram, så finns det olika geometriska mätvärden som du kan använda för att skala din multidimensionella data.
En n-dimensionell plot är ett flerdimensionellt scatterplotdiagram som du kan använda för att plotta n antal dimensioner av data.
Några populära geometriska mätvärden som används för att beräkna avstånd mellan datapunkter inkluderar Euclidean, Manhattan eller Minkowski avståndsmätningar. Dessa mätvärden är bara olika geometriska funktioner som är användbara för modellering av avstånd mellan punkter. Den euklidiska metriska är ett mått på avståndet mellan punkter som planeras på ett euklidiskt plan.
Manhattan-metriska är ett mått på avståndet mellan punkter där avstånd beräknas som summan av absolutvärdet av skillnaderna mellan tvåpunktens kartesiska koordinater. Minkowski avståndsmätet är en generalisering av Euklidiska och Manhattan avståndsmätningarna. Ofta kan dessa mätvärden användas - utbytbart.
Om dina data är numeriska men icke-plottbara (som kurvor istället för poäng) kan du generera likhetspoäng baserat på skillnader mellan data istället för de faktiska värdena på själva data.
Slutligen, för icke-numeriska data, kan du använda metrics som Jaccard-distansmätvärdet, vilket är ett index som jämför antalet funktioner som två datapunkter har gemensamt. Till exempel, för att illustrera ett Jaccard-avstånd, tänk på de två följande textsträngarna: Saint Louis de Ha-ha, Quebec och St-Louis de Ha! ha!, QC.
Vilka funktioner har dessa textsträngar gemensamt? Och vilka funktioner skiljer sig åt mellan dem? Jaccard-metriska genererar ett numeriskt indexvärde som kvantifierar likheten mellan textsträngar.