Hem Personliga finanser Så här konverterar du Raw Data till en Predictive Analysis Matrix

Så här konverterar du Raw Data till en Predictive Analysis Matrix

Innehållsförteckning:

Video: Nassim Haramein 2015 - The Connected Universe 2025

Video: Nassim Haramein 2015 - The Connected Universe 2025
Anonim

Innan du kan extrahera grupper av liknande dataobjekt från ditt dataset för ditt prediktiva analysprojekt, kanske du måste representera dina data i en tabell format som kallas en datmatris . Detta är ett förbehandlingssteg som kommer före dataklypning.

Så här skapar du en förutsägbar analysmatris av termer i dokument

Antag datasetet som du ska analysera finns i en uppsättning Microsoft Word-dokument. Det första du behöver göra är att konvertera uppsättningen dokument till en datamatris. Flera kommersiella och open source-verktyg kan hantera den uppgiften, som producerar en matris, där varje rad motsvarar ett dokument i datasetet. Exempel på dessa verktyg är RapidMiner och R text mining paket.

A dokument är i grunden en uppsättning ord. En termen är en uppsättning av ett eller flera ord.

Varje term som ett dokument innehåller nämns antingen en eller flera gånger i samma dokument. Antalet gånger en term nämns i ett dokument kan representeras av termfrekvens (TF), ett numeriskt värde.

Vi konstruerar matrisen av termer i dokumentet enligt följande:

  • De termer som visas i alla dokument finns listade över den övre raden.

  • Dokttitlar listas längst ned till vänster kolumnen

  • Numren som visas i matriscellerna motsvarar varje termins frekvens.

Exempelvis är dokument A representerat som antal siffror (5, 16, 0, 19, 0, 0.) där 5 motsvarar antalet gånger som uttrycket predictive analytics upprepas, 16 motsvarar antalet till gånger datavetenskap upprepas, och så vidare. Det här är det enklaste sättet att konvertera en uppsättning dokument till en matris.

Prediktiv Analytics Datavetenskap Lärande Kluster 2013 Antropologi
Dokument A 5 16 0 < 19 0 0 Dokument B
8 6 2 3 0 0 Dokument C
0 < 5 2 3 3 9 Dokument D 1
9 13 4 6 7 > Dokument E 2 16
16 0 2 13 Dokument F 13 0
19 16 > 4 2 Grunderna i val av prediktivt analysterminal En utmaning för att klustra textdokument är att bestämma hur man väljer de bästa villkoren för att representera alla dokument i samlingen. Hur viktigt en term är i en samling dokument kan beräknas på olika sätt. Om du exempelvis räknar hur många gånger en term upprepas i ett dokument och jämför det totala med hur ofta det återkommer i hela samlingen får du en känsla av begreppets betydelse i förhållande till andra villkor. Baserat på den relativa betydelsen av en term på sin frekvens i en samling är det ofta känt som

viktning

. Den vikt du tilldelar kan baseras på två principer:

Villkor som visas flera gånger i ett dokument gynnas över termer som bara visas en gång.

Villkor som används i relativt få dokument är favoriserade över termer som nämns i alla dokument. Om (till exempel) termen century

  • nämns i alla dokument i datasetet, kanske du inte överväger att ge den tillräckligt med vikt för att ha en kolumn i sig själv i matrisen.

  • På samma sätt kan du enkelt konvertera datasetet till en matris om du arbetar med en dataset för användare av ett online socialt nätverk. Användar-ID eller namn kommer att inneha raderna; kolumnerna kommer att lista funktioner som bäst beskriver dessa användare.

Så här konverterar du Raw Data till en Predictive Analysis Matrix

Redaktörens val

Hur man skapar en webbplats i Dreamweaver - dummies

Hur man skapar en webbplats i Dreamweaver - dummies

Definierar en Dreamweaver-webbplats mer smidigt om du har filer du planerar att använda på din webbplats organiserade i en mapp - med, om du vill, undermappar för bilder, video och kanske andra element som ljud. Med dina filer separerade i en organiserad mappstruktur är du redo att definiera en Dreamweaver-webbplats. ...

Hur man skapar en HTML-sida med Dreamweavers nya dokumentfönster - dummies

Hur man skapar en HTML-sida med Dreamweavers nya dokumentfönster - dummies

Du kan skapa en HTML-sida ny HTML-sida genom att använda Dreamweaver's New Document-fönstret, som erbjuder fler alternativ än Välkommen-skärmen, inklusive tillgång till alla mallar du har skapat med Dreamweaver, samt en samling av förutformade layouter, vilket kan ge dig en början på dina design. Du kan skapa många typer av filer ...

Hur man skapar en layout med en kolumn i Dreamweaver - dummies

Hur man skapar en layout med en kolumn i Dreamweaver - dummies

Innan du dyka in för att skapa en komplicerad vätskegriddesign i Dreamweaver, överväg att prova en enklare. Börja med att skapa en enkel vätskegridlayout med en kolumn, följ dessa enkla instruktioner: Välj Arkiv → Nytt. Fönstret Ny dokument öppnas. Obs! Se till att du har slutfört installationsprocessen innan du börjar arbeta med en ny vätska ...

Redaktörens val

Hur man använder Urklippspanel i Excel 2010 - dummies

Hur man använder Urklippspanel i Excel 2010 - dummies

Office Urklipp kan lagra flera nedskärningar och kopior från alla Microsoft Office-program som körs under Windows, inte bara Excel 2010. I Excel betyder det att du kan fortsätta klistra in saker från Office Clipboard i en arbetsbok även efter avslutad flyttning eller kopiering. Använd följande tekniker för att arbeta med ...

Hur man använder referensfunktioner i Excel 2016 - dummies

Hur man använder referensfunktioner i Excel 2016 - dummies

Referensfunktionerna i Excel 2016 på Lookup & Reference Kommandoknappens rullgardinsmeny på Formulas-fliken i bandet är utformad för att specifikt hantera olika aspekter av cellreferenser i arbetsbladet. Denna grupp av funktioner inkluderar: ADRESS för att returnera en cellreferens som en textinmatning i en cell i ...

Hur man använder Sparklines i Excel 2016 - dummies

Hur man använder Sparklines i Excel 2016 - dummies

Excel 2016 stöder en speciell typ av informationsgrafik kallad sparkline som representerar trender eller variationer i samlade data. Sparklines är små grafer i allmänhet om storleken på texten som omger dem. I Excel 2016 är kalkylblad höjden på kalkylbladscellerna, vars data de representerar och kan vara någon av de ...

Redaktörens val

Hur man undviker analysfel på Miller Analogies Test - dummies

Hur man undviker analysfel på Miller Analogies Test - dummies

Miller Analogies Testwriters är bra på att komponera frågor som är subtilt utformade för att lura dig. Du kan undvika vanliga analogfällor på MAT, om du har en plan för attack och en metod för att lösa dem. I allmänhet är den senare frågan i MAT, desto mer sannolikt är det ...

Hur man registrerar sig för MAT (Miller Analogies Test) - dummies

Hur man registrerar sig för MAT (Miller Analogies Test) - dummies

Efter att ha beslutat att ta Miller Analogies Test (MAT), du måste hitta en plats att faktiskt ta provet. Mer än 600 CTC, eller kontrollerade testcenter, administrerar matvaran i hela USA och Kanada, och även utomlands. För att hitta ett testcenter, gå till Miller Analogies Test-webbplatsen och leta efter en ...