Hur man använder vanliga uttryck i R-dummies <[SET:descriptionsv]R stöder begreppet regelbundna uttryck, som gör att du kan använda vanliga uttryck i R

Video: Dragnet: Eric Kelby / Sullivan Kidnapping: The Wolf / James Vickers 2024

R stöder begreppet regelbundna uttryck, som låter dig söka efter mönster i text. Du kanske aldrig har hört talas om regelbundna uttryck, men du är noga med det breda konceptet. Om du någonsin använt en * eller en? för att ange vilken bokstav som helst i ett ord, har du använt en form av jokerteckningssökning. Regelbundna uttryck stöder idén om jokertecken och mycket mer.

Vanliga uttryck tillåter tre sätt att göra ett sökmönster mer generellt än ett enda, fast uttryck:

Alternativ: Du kan söka efter instanser av ett mönster eller ett annat, indikerat av | symbol. Till exempel matchar strand | bokträ både strand och bok.

På engelska och amerikanska engelska tangentbord kan du vanligtvis hitta | på samma nyckel som backslash ().
Gruppering: Du grupperar mönster tillsammans med parenteser (). Du skriver till exempel (a | e) ch för att hitta både strand och bok.
Kvantifierare: Du anger om ett element i mönstret måste upprepas eller inte, genom att lägga till * (inträffar noll eller många gånger) eller + (förekommer en eller flera gånger). Om du exempelvis vill hitta antingen bach eller bok (noll eller mer av a och e men inte båda) använder du b (e * | a *) CH.

Prova följande exempel. Skapa först en ny variabel med fem ord: >> rwords <- c ("bach", "back", "beech", "beach", "black")

Hitta antingen

strand > eller bok med alternativ matchning:

>> grep ("beach | beech", rwords) [1] 3 4 Detta betyder att söksträngen hittades i element 3 och 4 av rwords. För att extrahera de faktiska elementen kan du använda delning med fyrkantiga parenteser: >> rwords [grep ("beach | beech", rwords)] [1] "beech" "beach"

Använd nu gruppreglerna för att extrahera samma ord: >> rwords [grep ("be (a | e) ch", rwords)] [1] "beech" "beach"

Slutligen använd kvantifieringsmodifieringen för att extrahera

bach < och

bok

men inte

strand:

rwords [grep ("b (e * | a *) ch", rwords)] [1] "bach" "bok" > Om du vill ha mer hjälp i R om vanliga uttryck, kolla du på Hjälp-sidan? regexp. Några andra bra resurser för att lära mer om reguljära uttryck är Wikipedia och där du kan hitta en snabbguide och handledning.