Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2024
När du arbetar med stor datastatistik identifierar du spridningen av ett dataset från mitten med flera olika sammanfattande åtgärder: varians, standard avvikelse, kvartiler, interkvartilintervall (IQR).
Varians är den genomsnittliga kvadratiska avvikelsen mellan elementen i datasetet och medelvärdet. För ett urval av data beräknas variansen så här:
där
-
x i är värdet av ett enda element i provet.
-
är provvärdet.
-
n är provstorleken.
Standardavvikelsen är kvadratroten av variansen. För de flesta tillämpningar är standardavvikelsen mer användbar än variansen som ett mått på spridning. Det beror på att variationen mäts i kvadrerade enheter, medan standardavvikelsen mäts i samma enheter som data. Till exempel skulle variansen av en dataset som består av priser mäts i dollar kvadratisk och standardavvikelsen skulle mätas i dollar. Standardavvikelse är den mest använda mätningen av spridningen i en dataset.
Quartiles delar en dataset i fyra lika delar. Den första kvartilen (Q 1 ) delar upp data i den lägsta 25 procent av observationerna och den högsta 75 procenten (25 procent av observationerna är mindre än Q 1 < och 75 procent är större än Q 1 ). Den andra kvartilen (Q 2 ) delar upp data till den lägsta 50 procent av observationerna och högst 50 procent. Den tredje kvartilen (Q 3 ) delar upp data till den lägsta 75 procent av observationerna och högst 25 procent. Interkvartilintervallet (IQR) är lika med skillnaden mellan den tredje och den första kvartilen:
Kvartilerna i en dataset illustreras bäst med en
ruttsplot. Följande bild visar en ruttsplot av de dagliga avkastningarna till ExxonMobil 2013. Boxdiagram över dagliga avkastningar till ExxonMobil-aktien 2013.
I rutan visar flera nyckelstatistik för ExxonMobil-avkastningen: > Minsta avkastning visas på ett diagram som en enda punkt längst ner i diagrammet (en ruta visarutestängningar
som enskilda poäng). Q 1 visas som botten av lådan, Q 2 är den solida svarta linjen i mitten av lådan och Q 3 är toppen av lådan. Den maximala avkastningen visas som en enda punkt högst upp i diagrammet.