Hem Personliga finanser Grunderna för dataklyssningar i förklarande analyser - dummies

Grunderna för dataklyssningar i förklarande analyser - dummies

Video: Grunderna för riktigt bra wedgar 2025

Video: Grunderna för riktigt bra wedgar 2025
Anonim

A dataset < (eller datainsamling) är en uppsättning objekt i prediktiv analys. Exempelvis är en uppsättning dokument en dataset där dataelementen är dokument. En uppsättning användaruppgifter för sociala nätverk (namn, ålder, lista över vänner, bilder osv.) Är en dataset där dataelementen är profiler av sociala nätverksanvändare. Dataklypning

är uppgiften att dela en dataset i delmängder av liknande föremål. Objekt kan också hänvisas till som instanser, observationer, enheter eller dataobjekt. I de flesta fall representeras en dataset i tabellformat - en datamatris . En datamatris är en tabell med siffror, dokument eller uttryck som representeras i rader och kolumner enligt följande:

Varje rad motsvarar ett givet objekt i datasetet.
  • Rader kallas ibland som

    objekt, föremål, instanser eller observationer. Varje kolumn representerar en särskild egenskap för ett objekt.

  • Kolumner kallas

    funktioner eller attribut. Användning av dataklypning till en dataset genererar grupper av liknande dataposter. Dessa grupper heter

kluster - samlingar av liknande dataposter.

Liknande

objekt har ett starkt mätbart förhållande bland dem - färska grönsaker, till exempel, liknar varandra än de är frysta livsmedel - och klusteringstekniker använder det förhållandet till gruppen föremålen. Styrkan av ett förhållande mellan två eller flera objekt kan kvantifieras som en

likhetsåtgärd: En matematisk funktion beräknar korrelationen mellan två dataposter. Resultaten av den beräkningen, som heter likhetsvärden, jämför i huvudsak ett visst dataobjekt till alla andra objekt i datasetet. Dessa andra objekt kommer att vara antingen mer eller mindre lika i jämförelse med det specifika objektet.

Beräknade likheter spelar en viktig roll för att tilldela objekt till grupper (

kluster ). Varje grupp har ett objekt som bäst representerar det; Detta objekt kallas en klusterrepresentant . Tänk på en dataset som består av flera typer av frukter i en korg. Korgen har frukter av olika slag som äpplen, bananer, citroner och päron. I detta fall är frukter dataposter. Dataklypningsprocessen extraherar grupper av liknande frukter ur denna dataset (korg med olika frukter).

Det första steget i en dataklypningsprocess är att översätta denna dataset till en datamatris: Ett sätt att modellera denna dataset är att raderna representerar objekten i datasetet (frukter); och kolumnerna representerar egenskaper eller funktioner som beskriver objekten.

Till exempel kan en fruktfunktion vara frukttypen (som banan eller äpple), vikt, färg eller pris. I det här exempeldatasetet har objekten tre funktioner: frukttyp, färg och vikt.

I de flesta fall tillåter man att

Hämta grupper (kluster) av liknande föremål genom att tillämpa en dataklusteringsteknik på fruktdatasetet enligt ovan.

  • Du kan berätta att din frukt är av N antal grupper. Därefter kan du, om du väljer en slumpmässig frukt, göra ett uttalande om det föremålet som en del av en av N-grupperna. Hämta klusterrepresentanter för varje grupp.

  • I det här exemplet skulle en klusterrepresentant plocka en frukttyp ur korgen och lägga den åt sidan. Egenskapen hos denna frukt är sådan att den frukosten bäst representerar det kluster som det tillhör. När du är klar klustring är din dataset organiserad och uppdelad i naturliga grupperingar.

Datakluster avslöjar strukturen i data genom att extrahera naturliga grupperingar från en dataset. Att upptäcka kluster är därför ett viktigt steg mot att formulera idéer och hypoteser om strukturen i dina data och härleda insikter för att bättre förstå det.

Dataklypning kan också vara ett sätt att modellera data: Den representerar en större mängd data av kluster eller klusterrepresentanter.

Dessutom kan din analys söka helt enkelt att partitionera data till grupper av liknande saker - som när

marknadssegmentering partitionerar målmarknadsdata till grupper som Konsumenter som delar samma intressen (

  • Konsumenter som har gemensamma behov (till exempel dem med specifika matallergier)

  • Identifiera kluster av liknande kunder kan hjälpa dig att utveckla en marknadsföringsstrategi som tillgodoser behoven hos specifika kluster.

Dessutom kan dataklypning också hjälpa dig att identifiera, lära eller förutse naturen hos nya dataposter - särskilt hur nya data kan kopplas till att göra förutsägelser. I

mönsterigenkänning kan analysmönster i data (t.ex. köpmönster i specifika regioner eller åldersgrupper) hjälpa dig att utveckla prediktiv analys - förutse i så fall typen av framtida dataposter som kan passar bra med etablerade mönster. Exempel på fruktkorg använder dataklypning för att skilja mellan olika dataposter. Antag att ditt företag monterar egna fruktkorgar och en ny, okänd frukt introduceras på marknaden. Du vill lära dig eller förutsäga vilket kluster det nya objektet kommer att tillhöra om du lägger till det i fruktkorg.

Eftersom du redan har tillämpat dataklypning på fruktdatasetet har du fyra kluster - vilket gör det enklare att förutsäga vilket kluster (specifik typ av frukt) som är lämplig för det nya objektet. Allt du behöver göra är att jämföra den okända frukten med de andra fyra klusterrepresentanterna och identifiera vilket kluster som är den bästa matchen.

Även om processen kan tyckas uppenbar för en person som arbetar med en liten dataset är det inte så uppenbart i större skala - när man måste klara miljontals objekt utan att undersöka var och en.Komplexiteten blir exponentiell när datasetet är stort, mångsidigt och relativt osammanhängande - varför finns klustringsalgoritmer: Datorer gör den typen av arbete bäst.

Grunderna för dataklyssningar i förklarande analyser - dummies

Redaktörens val

Skapa multimediamixfiler med InDesign CS5 - dummies

Skapa multimediamixfiler med InDesign CS5 - dummies

Du kan exportera InDesign Creative Suite 5-dokument till Flash SWF så att de kan ses med hjälp av Flash Player eller redigeras med hjälp av Flash Professional. Sidövergångar kan användas och du kan också använda en interaktiv sidflip som inte är tillgänglig inom Acrobat. Gör så här för att exportera ditt InDesign-dokument till Flash:

Skapa text på ett sökväg i en InDesign CS5-publikation - dummies

Skapa text på ett sökväg i en InDesign CS5-publikation - dummies

Genom att placera text på en väg I en InDesign Creative Suite 5-publikation kan du kurva den längs en linje eller form. Text på en sökväg är särskilt användbar när du vill skapa intressanta titlingseffekter på en sida. Använd pennverktyget för att skapa en sökväg på sidan. Skapa minst en ...

Skapa textramar i InDesign CS5 - dummies

Skapa textramar i InDesign CS5 - dummies

Textramar innehåller vilken text du lägger till i en InDesign Creative Suite 5-publikation . Du kan skapa en ny textram i en InDesign CS5-publikation på många olika sätt: med verktyget Typ, Ramverktyg eller genom att skriva en form. Textramar skapas ibland automatiskt när du importerar text till en publikation. Skapa ...

Redaktörens val

Word 2010 Tangentbordsgenvägar - dummies

Word 2010 Tangentbordsgenvägar - dummies

Word 2010 erbjuder ett antal användbara kortkommandon för att snabbt utföra uppgifter. Här är några genvägar för vanlig Word-formatering, redigering och fil- och dokumentuppgifter. Word 2010 Formateringsgenvägar Kommando Genväg Band Plats Fet Ctrl + B Hemflik, Fontgrupp Kursiv Ctrl + I Hemflik, Teckengrupp Understruken Ctrl + U Hemflik, Teckengrupp Center Ctrl + E ...

Word 2007 För Dummies Cheat Sheet - Dummies

Word 2007 För Dummies Cheat Sheet - Dummies

Word 2007 ser annorlunda ut, men erbjuder fortfarande de praktiska Word-staplarna som Tangentbordsgenvägar som hjälper dig att skapa, formatera, infoga saker och flytta igenom dina Word-dokument. Och Word 2007 erbjuder också ett par nya funktioner för att hjälpa dig att hantera din ordbehandling med lätthet.

Word 2010 Ribbon Commands - dummies

Word 2010 Ribbon Commands - dummies

ÄR du vilse i bandet? Om du nyligen har uppgraderat från Word 2003 kan det vara utmanande att använda Word 2010-bandet för att utföra vanliga Word-operationer. För att göra övergången lättare, är här kommandona för Word 2010 för vanliga kommandon för Word 2003. Word 2003 Command Equivalent Word 2010 Kommandofil → Ny fil ...

Redaktörens val

Hur man använder SketchUps Push / Pull Tool - dummies

Hur man använder SketchUps Push / Pull Tool - dummies

Push / Pull-verktyget är en enkel varelse; Använd den för att extrudera platta ytor i 3D-former. Det fungerar (som allt annat i SketchUp) genom att klicka. Du klickar på ett ansikte en gång för att börja skjuta / dra den, flytta markören tills du gillar vad du ser och klicka sedan igen för att sluta trycka / dra. Det är allt. Push / Pull fungerar bara ...

Hur man använder SketchUps skuggningsfunktion - dummies

Hur man använder SketchUps skuggningsfunktion - dummies

Du ska använda en av SketchUps bästa funktioner: Skuggor. När du aktiverar Shadows aktiverar du SketchUps inbyggda sol. Skuggorna du ser i ditt modelleringsfönster är exakta för vilken tid och plats du ställer in. I det här exemplet är det dock inte oroande om noggrannhet. Gå igenom dessa steg för att låta ...

Hur man använder SketchUps stämpelverktyg - dummies

Hur man använder SketchUps stämpelverktyg - dummies

Så småningom kan du behöva plunka ner en byggnad (eller någon annan struktur) på terrängen som du har skapat kärleksfullt i SketchUp. Stämpelverktyget ger ett enkelt sätt att - du gissade det - stämpla ett byggfotavtryck i en terrängyta, skapa en platt "pad" för att sitta på. Detta verktyg ger också ...