Hur man visualiserar prediktiv analys Raw data - dummies

En bild är värt tusen ord - speciellt när du försöker få ett bra handtag på din prediktiva analysdata. Vid förbehandlingssteget, medan du förbereder dina data, är det en vanlig praxis att visualisera vad du har till hands innan du fortsätter till nästa steg.

Du börjar med att använda ett kalkylblad som Microsoft Excel för att skapa en datamatris - som består av kandidatdata funktioner (även kallad attribut ). Flera programvarupaket för affärsintelligens (som Tableau) kan ge dig en preliminär översikt över de data som du ska tillämpa analyser på.

Hur man använder tabellvisualiseringar för prediktiv analys

Tabeller är den enklaste, mest grundläggande bildrepresentationen av data. Tabeller (även kända som kalkylblad ) består av rader och kolumner - som motsvarar de objekt och deras attribut som nämns tidigare när de fyller i dina data. Tänk på att titta på online sociala nätverk data. Ett dataobjekt kan representera en användare. Attribut för en användare (dataobjekt) kan vara rubriker i kolumner: Kön, Postnummer eller Födelsedatum.

Cellerna i en tabell representerar värden. Visualisering i tabeller kan hjälpa dig att enkelt upptäcka saknade attributvärden för dataobjekt.

Tabeller kan också ge flexibiliteten att lägga till nya attribut som är kombinationer av andra attribut. Till exempel i sociala nätverk data kan du lägga till en annan kolumn som kallas Ålder, som lätt kan beräknas - som en härledd egenskap - från befintlig födelsedatum. Tabellnätet för sociala nätverk visar en ny kolumn, Ålder, skapad från en annan befintlig kolumn (Födelsedatum).

Streckdiagram används i prediktiv analys

Streckdiagram kan användas för att upptäcka spikar eller anomalier i dina data. Du kan använda den för varje attribut för att snabbt visa minimi- och maximivärden. Streckdiagram kan också användas för att starta en diskussion om hur du normaliserar dina data.

Normalisering är justeringen av värdena för en eller flera attribut på en skala som gör datan mer användbar. Du kan till exempel enkelt se att det finns ett fel i data: Åldersfältet på en post är negativt. Den anomali är lättare avbildad av ett stapeldiagram än av en tabell med data.

Grunderna för cirkeldiagram för prediktiv analys

Kakediagram används huvudsakligen för att visa procentandelar. De kan enkelt illustrera fördelningen av flera objekt och markera den mest dominerande. Råuppgifter för sociala nätverk representeras enligt åldersattributet.Observera att diagrammet inte bara visar en tydlig fördelning av män kontra kvinnor, utan också ett sannolikt fel: R som ett värde för könstyp som eventuellt skapades när data samlades in.

Använda grafdiagram för prediktiv analys

Grafteori tillhandahåller en uppsättning kraftfulla algoritmer som kan analysera data strukturerad och representerad som en graf. I datavetenskap är en graf datastruktur, ett sätt att organisera data som representerar relationer mellan par av dataobjekt. En graf består av två huvuddelar:

Vertices, även kända som noder
Kantar, som ansluter par noder

Kantar kan riktas (ritas som pilar) och kan ha vikter. Du kan bestämma att placera en kant (pil) mellan två noder (cirklar) - i det här fallet medlemmarna i det sociala nätverket som är anslutna till andra medlemmar som vänner:

Pilens riktning indikerar vem "vänner" som först, eller som initierar interaktioner större delen av tiden.

Begrepp av ordmoln för prediktiv analys

Tänk på en lista med ord eller begrepp som är ordnade som ett ordmoln - en grafisk representation av alla ord i listan, vilket visar storleken på varje ord som proportionellt till en metrik som du anger. Om du till exempel har ett kalkylblad med ord och händelser och du vill identifiera de viktigaste orden, prova ett ordsky.

Word-moln fungerar eftersom de flesta organisationsdata är text; Ett vanligt exempel är Twitter: s användning av trendvillkor. Varje term i denna representation har en vikt som påverkar dess storlek som en indikator på dess relativa betydelse.

Ett sätt att definiera den vikt kan vara hur många gånger ett ord visas i din datainsamling. Ju oftare ett ord visas, den "tyngre" dess vikt - och ju större det visas i molnet.

Hur man använder flockningsfåglar representation för prediktiv analys

Naturligt flockningsbeteende i allmänhet är ett självorganiserande system där föremål (i synnerhet levande saker) tenderar att uppträda enligt (a) den miljö de tillhör och (b) deras svar på andra befintliga objekt. Naturliga samhällenas flockningsbeteende som bin, flugor, fåglar, fisk och myror - eller, för den delen, människor - är också kända som svärm intelligens .

Fåglar följer naturliga regler när de beter sig som en flock. Flockmates är fåglar placerade med ett visst avstånd från varandra; dessa fåglar anses vara likartade. Varje fågel flyttar enligt de tre huvudreglerna som organiserar flockningsbeteende.

Separation: Flock-kompisar får inte kollidera med varandra.
Anpassning: Flock-kompisar att flytta i samma medelriktning som sina grannar.
Sammanhållning: Flockmates flytta sig efter deras flockmates genomsnittliga position eller plats.

Modellering av dessa tre regler kan göra det möjligt för ett analytiskt system att simulera flockningsbeteenden. Med hjälp av det självorganiserade naturliga beteendet hos flockande fåglar kan du konvertera ett rakt kalkylblad till en visualisering.Nyckeln är att definiera begreppet likhet som en del av dina data. Börja med ett par frågor:

Vad gör två dataobjekt i dina data liknande?
Vilka attribut kan bäst likställa likheten mellan två dataposter?

Exempelvis i datanätdata representerar dataposterna enskilda användare; De attribut som beskriver dem kan innefatta ålder, postnummer, förhållandestatus, lista med vänner, antal vänner, vanor, händelser