Hem Personliga finanser Så här konverterar du Raw Data till en Predictive Analysis Matrix

Så här konverterar du Raw Data till en Predictive Analysis Matrix

Innehållsförteckning:

Video: Nassim Haramein 2015 - The Connected Universe 2024

Video: Nassim Haramein 2015 - The Connected Universe 2024
Anonim

Innan du kan extrahera grupper av liknande dataobjekt från ditt dataset för ditt prediktiva analysprojekt, kanske du måste representera dina data i en tabell format som kallas en datmatris . Detta är ett förbehandlingssteg som kommer före dataklypning.

Så här skapar du en förutsägbar analysmatris av termer i dokument

Antag datasetet som du ska analysera finns i en uppsättning Microsoft Word-dokument. Det första du behöver göra är att konvertera uppsättningen dokument till en datamatris. Flera kommersiella och open source-verktyg kan hantera den uppgiften, som producerar en matris, där varje rad motsvarar ett dokument i datasetet. Exempel på dessa verktyg är RapidMiner och R text mining paket.

A dokument är i grunden en uppsättning ord. En termen är en uppsättning av ett eller flera ord.

Varje term som ett dokument innehåller nämns antingen en eller flera gånger i samma dokument. Antalet gånger en term nämns i ett dokument kan representeras av termfrekvens (TF), ett numeriskt värde.

Vi konstruerar matrisen av termer i dokumentet enligt följande:

  • De termer som visas i alla dokument finns listade över den övre raden.

  • Dokttitlar listas längst ned till vänster kolumnen

  • Numren som visas i matriscellerna motsvarar varje termins frekvens.

Exempelvis är dokument A representerat som antal siffror (5, 16, 0, 19, 0, 0.) där 5 motsvarar antalet gånger som uttrycket predictive analytics upprepas, 16 motsvarar antalet till gånger datavetenskap upprepas, och så vidare. Det här är det enklaste sättet att konvertera en uppsättning dokument till en matris.

Prediktiv Analytics Datavetenskap Lärande Kluster 2013 Antropologi
Dokument A 5 16 0 < 19 0 0 Dokument B
8 6 2 3 0 0 Dokument C
0 < 5 2 3 3 9 Dokument D 1
9 13 4 6 7 > Dokument E 2 16
16 0 2 13 Dokument F 13 0
19 16 > 4 2 Grunderna i val av prediktivt analysterminal En utmaning för att klustra textdokument är att bestämma hur man väljer de bästa villkoren för att representera alla dokument i samlingen. Hur viktigt en term är i en samling dokument kan beräknas på olika sätt. Om du exempelvis räknar hur många gånger en term upprepas i ett dokument och jämför det totala med hur ofta det återkommer i hela samlingen får du en känsla av begreppets betydelse i förhållande till andra villkor. Baserat på den relativa betydelsen av en term på sin frekvens i en samling är det ofta känt som

viktning

. Den vikt du tilldelar kan baseras på två principer:

Villkor som visas flera gånger i ett dokument gynnas över termer som bara visas en gång.

Villkor som används i relativt få dokument är favoriserade över termer som nämns i alla dokument. Om (till exempel) termen century

  • nämns i alla dokument i datasetet, kanske du inte överväger att ge den tillräckligt med vikt för att ha en kolumn i sig själv i matrisen.

  • På samma sätt kan du enkelt konvertera datasetet till en matris om du arbetar med en dataset för användare av ett online socialt nätverk. Användar-ID eller namn kommer att inneha raderna; kolumnerna kommer att lista funktioner som bäst beskriver dessa användare.

Så här konverterar du Raw Data till en Predictive Analysis Matrix

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...