Hem Personliga finanser Hur man genererar avledda data och reducerar dess dimensionalitet för prediktiv Analytics - dummies

Hur man genererar avledda data och reducerar dess dimensionalitet för prediktiv Analytics - dummies

Innehållsförteckning:

Video: Järpar - som de jag fick i skolan 2024

Video: Järpar - som de jag fick i skolan 2024
Anonim

I denna prospekteringsfas av prediktiv analys får du intim kunskap om dina data - vilket i sin tur kommer att hjälpa dig välja de relevanta variablerna att analysera. Denna förståelse kommer också att hjälpa dig att utvärdera resultaten av din modell. Men först måste du identifiera och rengöra data för analys.

Hur genereras härledda data

Avledade attribut är helt nya register som är konstruerade av en eller flera befintliga attribut. Ett exempel skulle vara att skapa register som identifierar böcker som är bästsäljare på bokmässor. Rådata kan inte fånga sådana poster - men för modelleringsändamål kan de härledda dokumenten vara viktiga. Prisförhållande och 200-dagars glidande medelvärde är två exempel på härledda data som används starkt i finansiella applikationer.

Avledade attribut kan erhållas från enkel beräkning, såsom avdragande ålder från födelsedatum. Avledda attribut kan också beräknas genom att summera information från flera poster.

Om du t.ex. konverterar en tabell med kunder och deras inköpta böcker till en tabell kan du spåra antalet böcker som säljs via ett recommender-system, genom riktade marknadsföring och på en mässa - och identifiera demografiska kunder som köpte de böckerna.

Generera sådana ytterligare attribut ger ytterligare prediktiv effekt till analysen. Faktum är att många sådana egenskaper skapas för att sondra deras potentiella prediktiva kraft. Vissa prediktiva modeller kan använda mer avledda attribut än attributen i deras råa tillstånd. Om vissa härledda attribut är särskilt prediktiva och deras makt har visat sig vara relevant, är det vettigt att automatisera processen som genererar dem.

Avledda poster är nya register som ger in nya uppgifter och ger nya sätt att presentera rådata. de kan vara av enormt värde för prediktiv modellering.

Så här minskar du dataens dimensioner

Den data som används i prediktiva modeller samlas vanligtvis från flera källor. Din analys kan dra från data spridda över flera dataformat, filer och databaser eller flera tabeller i samma databas. Att sammanställa data tillsammans och kombinera det i ett integrerat format för datormodellerna att använda är viktigt.

Om din data innehåller något hierarkiskt innehåll kan det behöva vara plattat . Vissa data har vissa hierarkiska egenskaper som föräldra-barns relationer, eller en post som består av andra poster.Till exempel kan en produkt som en bil ha flera tillverkare; plattformig data, i det här fallet betyder att varje tillverkare ingår som en extra egenskap av den post som du analyserar.

Flattande data är avgörande när det slås samman från flera relaterade poster för att bilda en bättre bild.

Exempelvis kan analys av biverkningar för flera läkemedel som tillverkats av flera företag kräva att uppgifterna ska platta på substansnivå. Genom att göra så tar du bort ett till många relationer (i det här fallet många tillverkare och många ämnen för en produkt) som kan orsaka för mycket dubbelarbete genom att upprepa flera ämnesposter som upprepas produkt- och tillverkarinformation vid varje post.

Flattning minskar dimensionality av data, vilket representeras av antalet funktioner som en post eller en observation har.

Till exempel kan en kund ha följande funktioner: namn, ålder, adress, inköpta varor. När du börjar analysen kan du hitta dig själv att utvärdera poster med många funktioner, varav några är viktiga för analysen. Så du bör eliminera alla utom de få funktioner som har mest förutsägande kraft för ditt specifika projekt.

Att reducera dataens dimensioner kan uppnås genom att sätta alla data i ett enda bord som använder flera kolumner för att representera attribut av intresse. I analysens början måste analysen naturligtvis utvärdera ett stort antal kolumner - men det kan minskas som analysen fortskrider.

Denna process kan hjälpas genom att rekonstruera fälten - till exempel genom att gruppera data i kategorier som har liknande egenskaper.

Den resulterande datasatsen - den rengjorda datasatsen - läggs vanligen i en separat databas för analytikerna att använda. Under modelleringsprocessen bör dessa data enkelt nås, hanteras och hållas aktuella.

Hur man genererar avledda data och reducerar dess dimensionalitet för prediktiv Analytics - dummies

Redaktörens val

Fastighetsprofessionens grunder för fastighetslicensexamen - dummies

Fastighetsprofessionens grunder för fastighetslicensexamen - dummies

Fastighetsexamen kommer att förvänta dig att du har ett grundläggande grepp på fastighetsbranschen. Du tror att det bara är uppenbart att veta vad de viktigaste spelarna gör i en fastighetsaffär, men på grund av den terminologi de delar, blir skillnaderna mellan spelarna lite muddlade. Här är snabba beskrivningar ...

Kostnadsmetoden för fastighetslicensexamen - dummies

Kostnadsmetoden för fastighetslicensexamen - dummies

En metod för att uppskatta Värdet på fastigheter kallas kostnaden. Du måste känna till formeln för fastighetslicensexamen. Kostnadsmetoden baseras på tanken att komponenterna i en fastighet eller marken och byggnaderna kan läggas till för att komma fram till ...

Studie för fastighetslicensexamen - dummies

Studie för fastighetslicensexamen - dummies

När var sista gången du tog en multipelvalsexamen ? Eller, för den delen, någon examen? Det är troligt att det var länge sedan. Kanske överväger du huruvida du ska bli en fastighetsmäklare, men du är lite avskräckt av tanken på att du måste göra ett test. Vad du kan ...

Redaktörens val

Följer ett basketspel på tv - dummies

Följer ett basketspel på tv - dummies

Du kommer bli mycket mer ute av att titta på ett basketspel på TV - eller till och med leva - om du gör mer än att se bollen gå in i rammen. Kolla in dessa insider tips för att fånga den verkliga åtgärden och öka din njutning av sporten. Förutse nästa pass Försök att tänka som ...

Top 5 Fantasy Basketball League Sites - Dummies

Top 5 Fantasy Basketball League Sites - Dummies

Att hitta och gå med på en fantasy basketplats kan ibland vara skrämmande uppgift eftersom så många alternativ är tillgängliga och de flesta webbplatser ser lika ut. Bara för att webbplatser ser ut som det betyder inte nödvändigtvis att de mäter i värde. Vissa webbplatser erbjuder gratis ligor, andra betalade - och vissa webbplatser tillhandahåller bara standard liga ...

Tryck på motståndarna i Basket - Dummies

Tryck på motståndarna i Basket - Dummies

Pressen är kort för tryck. Ofta kallad en fullrättspress, det här är ett anfallande försvar som används på backen, där målet är att tvinga en omsättning. Vanligtvis används efter en gjord korg, svänger pressgruppen över motståndarna i backcourt; Om motståndarna lyckas få bollen förbi halvvägs (kallad brytning ...

Redaktörens val

Hur R beräknar oändliga, odefinierade och saknade värden - dummies

Hur R beräknar oändliga, odefinierade och saknade värden - dummies

Lyckligtvis kan R hantera dataanomalier som förvirrar några andra statistiska plattformar. I vissa fall har du inte reella värden att beräkna med. I de flesta verkliga dataset saknas faktiskt åtminstone några värden. Dessutom har vissa beräkningar oändlighet som ett resultat (som att dividera med noll) eller kan inte ...

Hur man lägger till linjer i en plot i R-dummies

Hur man lägger till linjer i en plot i R-dummies

I R, lägger du till rader i en plott på ett mycket liknande sätt att lägga till poäng, förutom att du använder funktionen linjer () för att uppnå detta. Men använd först lite R magi för att skapa en trendlinje genom data, kallad en regressionsmodell. Du använder lm () -funktionen för att uppskatta en linjär ...

Hur man lägger till en andra dimension i R-dummies

Hur man lägger till en andra dimension i R-dummies

Förutom vektorer kan R representera matriser som ett objekt du arbetar och beräknar med. Faktum är att R verkligen lyser när det gäller matrisberäkningar och -operationer. Vektorer är nära relaterade till en större klass av objekt, arrays. Arrayer har två mycket viktiga egenskaper: De innehåller bara en enda typ av värde. De har ...