Video: Hur du TAR BORT gelenaglar 2024
En mycket användbar användning av subdata-data är att hitta och ta bort dubbla värden. R har en användbar funktion, duplicerad (), som hittar dubbla värden och returnerar en logisk vektor som berättar om det specifika värdet är en duplikat av ett tidigare värde. Det betyder att för dubbla värden returneras duplicerad () FALSE för första gången och SANT för varje följande förekomst av det värdet, som i följande exempel:
Om du försöker detta på en dataram, R automatiskt kontrollerar observationerna (det betyder att det behandlar varje rad som ett värde). Så, till exempel, med datarammen iris: >> duplicerad (iris) [1] FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK [10] FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK … [136] FALSK FALSK FALSK FALSK FALSK FALSK FALSK SAND FALSK [145] FALSK FALSK FALSK FALSK FALSK FALSK
Om du tittar försiktigt märker du den raden 143 är en dubblett (eftersom det 143: e elementet i ditt resultat har värdet SANT). Du kan också berätta detta med hjälp av vilken () -funktionen:
>> vilken (duplicerad (iris)) [1] 143
För att ta bort dubbletter från iris måste du utesluta den här raden från dina data. Kom ihåg att det finns två sätt att utesluta data med hjälp av subsättning:
Ange en logisk vektor, där
FALSE
betyder att elementet kommer att uteslutas.-
Den! (utropstecken) operatören är en logisk negation. Det betyder att det omvandlar SANT till FALSKT och vice versa. Så, för att ta bort dubbletterna från iris gör du följande:
I båda fallen märker du att din instruktion har tagit bort rad 143.
-