Hem Personliga finanser Så här konverterar du Raw Data till en Predictive Analysis Matrix

Så här konverterar du Raw Data till en Predictive Analysis Matrix

Innehållsförteckning:

Video: Nassim Haramein 2015 - The Connected Universe 2025

Video: Nassim Haramein 2015 - The Connected Universe 2025
Anonim

Innan du kan extrahera grupper av liknande dataobjekt från ditt dataset för ditt prediktiva analysprojekt, kanske du måste representera dina data i en tabell format som kallas en datmatris . Detta är ett förbehandlingssteg som kommer före dataklypning.

Så här skapar du en förutsägbar analysmatris av termer i dokument

Antag datasetet som du ska analysera finns i en uppsättning Microsoft Word-dokument. Det första du behöver göra är att konvertera uppsättningen dokument till en datamatris. Flera kommersiella och open source-verktyg kan hantera den uppgiften, som producerar en matris, där varje rad motsvarar ett dokument i datasetet. Exempel på dessa verktyg är RapidMiner och R text mining paket.

A dokument är i grunden en uppsättning ord. En termen är en uppsättning av ett eller flera ord.

Varje term som ett dokument innehåller nämns antingen en eller flera gånger i samma dokument. Antalet gånger en term nämns i ett dokument kan representeras av termfrekvens (TF), ett numeriskt värde.

Vi konstruerar matrisen av termer i dokumentet enligt följande:

  • De termer som visas i alla dokument finns listade över den övre raden.

  • Dokttitlar listas längst ned till vänster kolumnen

  • Numren som visas i matriscellerna motsvarar varje termins frekvens.

Exempelvis är dokument A representerat som antal siffror (5, 16, 0, 19, 0, 0.) där 5 motsvarar antalet gånger som uttrycket predictive analytics upprepas, 16 motsvarar antalet till gånger datavetenskap upprepas, och så vidare. Det här är det enklaste sättet att konvertera en uppsättning dokument till en matris.

Prediktiv Analytics Datavetenskap Lärande Kluster 2013 Antropologi
Dokument A 5 16 0 < 19 0 0 Dokument B
8 6 2 3 0 0 Dokument C
0 < 5 2 3 3 9 Dokument D 1
9 13 4 6 7 > Dokument E 2 16
16 0 2 13 Dokument F 13 0
19 16 > 4 2 Grunderna i val av prediktivt analysterminal En utmaning för att klustra textdokument är att bestämma hur man väljer de bästa villkoren för att representera alla dokument i samlingen. Hur viktigt en term är i en samling dokument kan beräknas på olika sätt. Om du exempelvis räknar hur många gånger en term upprepas i ett dokument och jämför det totala med hur ofta det återkommer i hela samlingen får du en känsla av begreppets betydelse i förhållande till andra villkor. Baserat på den relativa betydelsen av en term på sin frekvens i en samling är det ofta känt som

viktning

. Den vikt du tilldelar kan baseras på två principer:

Villkor som visas flera gånger i ett dokument gynnas över termer som bara visas en gång.

Villkor som används i relativt få dokument är favoriserade över termer som nämns i alla dokument. Om (till exempel) termen century

  • nämns i alla dokument i datasetet, kanske du inte överväger att ge den tillräckligt med vikt för att ha en kolumn i sig själv i matrisen.

  • På samma sätt kan du enkelt konvertera datasetet till en matris om du arbetar med en dataset för användare av ett online socialt nätverk. Användar-ID eller namn kommer att inneha raderna; kolumnerna kommer att lista funktioner som bäst beskriver dessa användare.

Så här konverterar du Raw Data till en Predictive Analysis Matrix

Redaktörens val

Vad är en Java-karta? - dummies

Vad är en Java-karta? - dummies

Arrays och specialiserade listor gör det möjligt att utföra en fantastisk uppsättning uppgifter med Java. Det finns dock situationer där en Java-applikation behöver något som är mer relaterat till en databas, utan att egentligen ha allt databasbagage (som att behöva köpa en separat applikation). Till exempel kanske du vill kunna ...

Några få saker om Java Math - dummies

Några få saker om Java Math - dummies

Tro det eller inte, datorer - även de mest kraftfulla - Ha vissa begränsningar när det gäller att utföra matematiska beräkningar. Dessa begränsningar är vanligtvis obetydliga, men ibland slår de sig och biter på dig. Här är de saker du behöver se upp för när du gör matte i Java. Helhetsflöde Det grundläggande problemet ...

Vad är recursion i Java Programmering? - dummies

Vad är recursion i Java Programmering? - dummies

Rekursion är en grundläggande programmeringsteknik som du kan använda i Java, där en metod kallar sig för att lösa ett problem. En metod som använder denna teknik är rekursiv. Många programmeringsproblem kan lösas endast genom rekursion, och vissa problem som kan lösas med andra tekniker löses bättre genom rekursion. En av ...

Redaktörens val

4 Måste-inkludera i din blogg sidobardesign - dummies

4 Måste-inkludera i din blogg sidobardesign - dummies

Din bloggens sidofält är viktig fastighet som bör innehålla de element du vill ha mest. När du utformar din blogg sidofält kan du dra från en nästan oändlig lista över sidospårelement. Genom att välja noggrant vad som ska inkluderas (och vad som inte ska inkluderas) kan du ställa in din blogg från andra.

5 Användbara Wordpress Plugins - dummies

5 Användbara Wordpress Plugins - dummies

Om du bloggar på en självhävd plattform med WordPress-programvara, är det dags att anpassa din blogg med plug-ins - programvara som kan "anslutas" till din befintliga WordPress bloggprogramvara. Plug-ins gör det möjligt för dig att göra allt från funktionsbildspel i dina blogginlägg för att ansluta sociala medier till din webbplats. Här är fem användbara ...

7 Sätt att erövra Writer's Block som en Blogger - dummies

7 Sätt att erövra Writer's Block som en Blogger - dummies

Varje bloggare möter författarens block i ett tid eller annan. Om du är den typ av bloggare som sköter innehåll varje dag, kan författarens block vara stäverande. Kan du inte ta en paus för att få ditt skrivande mojo tillbaka? Prova en (eller flera) av dessa sju sätt att slå författarens block för att få dig tillbaka ...

Redaktörens val

10 Stora elektronikkomponentkällor - dummies

10 Stora elektronikkomponentkällor - dummies

Letar du efter några bra källor till dina elektroniska delar? Denna lista ger dig några fleråriga favoriter, både inom och utanför Nordamerika. Denna lista är inte uttömmande. Du hittar bokstavligen tusentals specialutbud för ny och begagnad elektronik. Plus, Amazon och eBay ger virtuella marknadsplatser för alla sorters säljare - ...

Elektronik Basics: Resistance - dummies

Elektronik Basics: Resistance - dummies

I elektronikvärlden är motståndet inte meningslöst. Faktum är att motstånd kan vara mycket användbart. Utan motstånd skulle elektronik inte vara möjligt. Elektronik handlar om att manipulera strömmen av ström, och ett av de mest grundläggande sätten att manipulera strömmen är att minska det genom resistans. Utan motstånd strömmar strömmen oreglerad och där ...

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

Digital elektronik: Så här installerar du BASIC Stamp Editor och Anslut till Stämpeldummorna

För att berätta för BASIC Stamp vad du vill göra i ditt digitala elektronikprojekt måste du programmera det. BASIC Stamp Windows Editor är den programvara som du använder på din dator för att skapa program som kan laddas ner till en BASIC Stamp-mikrokontroller. Denna programvara är tillgänglig gratis från Parallax webbplats. ...