Innehållsförteckning:
Video: Nassim Haramein 2015 - The Connected Universe 2024
Innan du kan extrahera grupper av liknande dataobjekt från ditt dataset för ditt prediktiva analysprojekt, kanske du måste representera dina data i en tabell format som kallas en datmatris . Detta är ett förbehandlingssteg som kommer före dataklypning.
Så här skapar du en förutsägbar analysmatris av termer i dokument
Antag datasetet som du ska analysera finns i en uppsättning Microsoft Word-dokument. Det första du behöver göra är att konvertera uppsättningen dokument till en datamatris. Flera kommersiella och open source-verktyg kan hantera den uppgiften, som producerar en matris, där varje rad motsvarar ett dokument i datasetet. Exempel på dessa verktyg är RapidMiner och R text mining paket.
A dokument är i grunden en uppsättning ord. En termen är en uppsättning av ett eller flera ord.
Varje term som ett dokument innehåller nämns antingen en eller flera gånger i samma dokument. Antalet gånger en term nämns i ett dokument kan representeras av termfrekvens (TF), ett numeriskt värde.
Vi konstruerar matrisen av termer i dokumentet enligt följande:
-
De termer som visas i alla dokument finns listade över den övre raden.
-
Dokttitlar listas längst ned till vänster kolumnen
-
Numren som visas i matriscellerna motsvarar varje termins frekvens.
Exempelvis är dokument A representerat som antal siffror (5, 16, 0, 19, 0, 0.) där 5 motsvarar antalet gånger som uttrycket predictive analytics upprepas, 16 motsvarar antalet till gånger datavetenskap upprepas, och så vidare. Det här är det enklaste sättet att konvertera en uppsättning dokument till en matris.
Prediktiv Analytics | Datavetenskap | Lärande | Kluster | 2013 | Antropologi | |
---|---|---|---|---|---|---|
Dokument A | 5 | 16 | 0 < 19 | 0 | 0 | Dokument B |
8 | 6 | 2 | 3 | 0 | 0 | Dokument C |
0 < 5 | 2 | 3 | 3 | 9 | Dokument D | 1 |
9 | 13 | 4 | 6 | 7 > Dokument E | 2 | 16 |
16 | 0 | 2 | 13 | Dokument F | 13 | 0 |
19 | 16 > 4 | 2 | Grunderna i val av prediktivt analysterminal | En utmaning för att klustra textdokument är att bestämma hur man väljer de bästa villkoren för att representera alla dokument i samlingen. Hur viktigt en term är i en samling dokument kan beräknas på olika sätt. | Om du exempelvis räknar hur många gånger en term upprepas i ett dokument och jämför det totala med hur ofta det återkommer i hela samlingen får du en känsla av begreppets betydelse i förhållande till andra villkor. | Baserat på den relativa betydelsen av en term på sin frekvens i en samling är det ofta känt som |
viktning
. Den vikt du tilldelar kan baseras på två principer:
Villkor som visas flera gånger i ett dokument gynnas över termer som bara visas en gång.
Villkor som används i relativt få dokument är favoriserade över termer som nämns i alla dokument. Om (till exempel) termen century
-
nämns i alla dokument i datasetet, kanske du inte överväger att ge den tillräckligt med vikt för att ha en kolumn i sig själv i matrisen.
-
På samma sätt kan du enkelt konvertera datasetet till en matris om du arbetar med en dataset för användare av ett online socialt nätverk. Användar-ID eller namn kommer att inneha raderna; kolumnerna kommer att lista funktioner som bäst beskriver dessa användare.