Hur man tar bort dupliceringsdata i R-dummies

Video: Hur du TAR BORT gelenaglar 2024

En mycket användbar användning av subdata-data är att hitta och ta bort dubbla värden. R har en användbar funktion, duplicerad (), som hittar dubbla värden och returnerar en logisk vektor som berättar om det specifika värdet är en duplikat av ett tidigare värde. Det betyder att för dubbla värden returneras duplicerad () FALSE för första gången och SANT för varje följande förekomst av det värdet, som i följande exempel:

>> duplicerad (c, 1, 2, 1, 4, 4)) [1] FALSK FALSK SANT FALS SANT FALSK

Om du försöker detta på en dataram, R automatiskt kontrollerar observationerna (det betyder att det behandlar varje rad som ett värde). Så, till exempel, med datarammen iris: >> duplicerad (iris) [1] FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK [10] FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK … [136] FALSK FALSK FALSK FALSK FALSK FALSK FALSK SAND FALSK [145] FALSK FALSK FALSK FALSK FALSK FALSK

Om du tittar försiktigt märker du den raden 143 är en dubblett (eftersom det 143: e elementet i ditt resultat har värdet SANT). Du kan också berätta detta med hjälp av vilken () -funktionen:








 >> vilken (duplicerad (iris)) [1] 143

För att ta bort dubbletter från iris måste du utesluta den här raden från dina data. Kom ihåg att det finns två sätt att utesluta data med hjälp av subsättning:

Ange en logisk vektor, där

FALSE

betyder att elementet kommer att uteslutas.

Den! (utropstecken) operatören är en logisk negation. Det betyder att det omvandlar SANT till FALSKT och vice versa. Så, för att ta bort dubbletterna från iris gör du följande:
>> iris [! dupliceras (iris),] Ange negativa värden. Med andra ord:
>> index iris [-index,]
```
I båda fallen märker du att din instruktion har tagit bort rad 143.
```