Video: Introduction to Statistics Course Overview 2024
Data miners utnyttjar ofta specialfunktioner för att förpacka mer information till enkla diagram. Etiketter, överlagringar och interaktivt urval är kännetecken för data-mining applikationer, specialfunktioner som gör att du kan vara mer produktiv.
Mileage minskar när hästkraften ökar, vilket framgår av följande figur.
Ökad körning ökar med tiden, vilket du kan se, en scatterplot av körsträckan jämfört med modellår. Det skulle vara till hjälp att få dessa två idéer till ett graf.
Vanliga data-mining metoder för att integrera mer än två variabler i en graf inkluderar
-
Etiketter: Etiketter är värden för en sträng eller kategorisk variabel som har överlagts på scatterplot. Följande bild visar en scatterplot märkt med bilens modellår.
Dataset med många punkter eller långa etiketter kan göra dessa kartor oläsliga, dock! Lösningen är att endast använda ett urval av data. Inställningen för denna typ av provtagning visas i följande bild.
-
Överlagringar: Med överlagringar definierar värdena för en kategorisk variabel punkternas form eller färg. Följande bild visar inställningen för en scatterplot till överlay modell år på körsträcka-mot-hästkraften scatterplot.
Scatterplot för exporterad överlagring visas i följande bild. Det kan vara lättare att läsa färgöverlagringar än punktform överlagringar. Inställningen är oftast mycket densamma.
En annan sak att komma ihåg med scatterplots: Du kan ha flera punkter som faller på samma plats! Om så är fallet kanske du inte kan berätta en punkt för ett fall från en punkt för 100 fall. Åtgärdet är att leta efter ett alternativ att göra flera instanser synliga. Leta efter punktstorlek eller jitter (flyttar poäng något av sina sanna platser för att göra dem alla synliga).
Interaktiva scatterplots är bra tidsbesparande för datavinnare.
Säg att du ser en intressant grupp av fall i en graf, och du vill undersöka bara de fallen. Om du tittar på bara en eller två punkter kan du få den information du vill ha genom att sväva, men det är inte tillfredsställande när du är intresserad av mer än ett par punkter.
Datavalverktyg i interaktiva scatterplots ger dig mer kraft att välja data. Följande bild visar samma grafinställning, men med en grupp punkter markerade genom att klicka och dra musen runt dem. Detta är inte bara en visuell funktion.
Du kan exportera de valda punkterna som en ny dataset. Detta är väldigt användbart och snabbt!
Om de punkter du behöver inte passar snyggt i ett rektangulärt val har du andra alternativ. Se Zoom / Välj-området. Du kan se en knapp med en rektangel för rektangulärt val och en annan med rund form för valfri form.
Här är ett exempel på fritt formulär med hjälp av data om nikotininnehållet hos cigaretter som säljs i olika delar av världen. Denna scatterplot visar nikotin per cigarett för prover från de sex FN-regionerna. (Detta är en icke-traditionell användning av en scatterplot, eftersom regionen inte är en kontinuerlig variabel, det är kategoriskt. Datavinnare använder ofta traditionella verktyg på icke-traditionella sätt.)
Punkterna inom en region faller inte i en perfekt vertikal linje. Små skift (jitter) till vänster och höger är endast gjorda för läsbarhet och utseende. Några cigaretter har exceptionellt höga nivåer av nikotin, och du vill välja dessa fall.
En rullgardinsmeny erbjuder valmöjligheter. Med polygonval kan du markera ett fritt formulärområde på scatterplot.
För att markera, klicka på grafen för att skapa en startpunkt och klicka sedan igen och igen runt den grupp av poäng du vill ha tills du har gjort den form du behöver.
Ett högerklick indikerar att du har slutfört valet; Detta syns från höjdpunkten i grafen.