Hem Personliga finanser Titta på grunderna för statistik, maskinlärande och matematiska metoder i datavetenskap

Titta på grunderna för statistik, maskinlärande och matematiska metoder i datavetenskap

Innehållsförteckning:

Video: Data Analysis in R by Dustin Tran 2025

Video: Data Analysis in R by Dustin Tran 2025
Anonim

Del av Data Science for Dummies Cheat Sheet > Om statistiken har beskrivits som vetenskapen att härleda insikter från data, vad är skillnaden mellan en statistiker och en datavetenskapare? Bra fråga! Även om många uppgifter inom datavetenskap kräver en rättvis bit av statistisk kunskap skiljer sig omfattningen och bredden av en datavetenskapares kunskap och färdighetsbas från en statistiker. Kärnkännetecknen beskrivs nedan.

Ämnesexpertise:
  • En av kärnfunktionerna hos datavetenskapare är att de erbjuder en sofistikerad grad av kompetens inom det område som de tillämpar sina analysmetoder på. Datavetenskapare behöver detta så att de verkligen kan förstå följderna och tillämpningarna av de datainsatser de genererar. En datavetenskapare bör ha tillräckligt med ämnesexpertise för att kunna identifiera betydelsen av sina resultat och självständigt bestämma hur man ska gå vidare i analysen.

    Däremot har statistiker vanligtvis en oerhört djup kunskap om statistik, men väldigt liten kompetens inom ämnesfrågor som de tillämpar statistiska metoder på. Största delen av tiden är statistikerna skyldiga att samråda med externa ämnesexperter för att verkligen få ett fast grepp om betydelsen av sina resultat och för att kunna bestämma det bästa sättet att gå vidare i en analys.

    Matematiska och maskininlärningsmetoder:
  • Statistiker använder sig oftast av statistiska metoder och processer när man lär sig insikter från data. Däremot krävs datavetenskapare att dra från en mängd olika tekniker för att härleda datainsikten. Dessa inkluderar statistiska metoder, men inkluderar också metoder som inte är baserade på statistik - som de som finns i matematik, gruppering, klassificering och icke-statistisk maskininlärning. Se betydelsen av statistisk know-how

Du behöver inte gå ut och få en examen i statistik för att utöva datavetenskap, men du borde åtminstone bli bekant med några av de mer grundläggande metoderna som används i statistisk data analys. Dessa inkluderar:

Linjär regression

  • : Linjär regression är användbar för att modellera relationerna mellan en beroende variabel och en eller flera oberoende variabler. Syftet med linjär regression är att upptäcka (och kvantifiera styrkan hos) viktiga korrelationer mellan beroende och oberoende variabler. Tidsserieanalys:

  • Tidsserieanalys innebär analys av en samling av data om attributvärden över tiden för att förutsäga framtida förekomster av åtgärden baserat på tidigare observationsdata. Monte Carlo-simuleringar:

  • Monte Carlo-metoden är en simuleringsteknik som du kan använda för att testa hypoteser, generera parameteruppskattningar, förutse scenariosresultat och validera modeller. Metoden är kraftfull eftersom den kan användas för att snabbt simulera från 1 till 10 000 (eller fler) simuleringsprover för alla processer du försöker utvärdera. Statistik för rumslig data:

  • En grundläggande och viktig egenskap för rumsliga data är att den inte är slumpmässig. Det är rumsligt beroende och autokorrelerat. Vid modellering av rumsliga data, undvik statistiska metoder som antar dina data är slumpmässiga. Kriging och krige är två statistiska metoder som du kan använda för att modellera rumsliga data. Med dessa metoder kan du producera förutsägda ytor för hela studieområden baserat på uppsättningar kända punkter i geografiskt utrymme. Arbeta med gruppering, klassificering och maskininlärningsmetoder

Maskininlärning är tillämpningen av beräkningsalgoritmer för att lära av (eller härleda mönster i) råa dataset.

Clustering är en särskild typ av maskininlärning - utan uppgift maskininlärning, för att vara exakt, vilket innebär att algoritmerna måste lära av oärkta data och som sådana måste de använda inferentiella metoder för att upptäcka korrelationer. Klassificering

å andra sidan kallas övervakad maskininlärning, vilket betyder att algoritmerna lär sig från märkta data. Följande beskrivningar introducerar några av de mer grundläggande klustrings- och klassificeringsmetoderna: k-means clustering:

  • Du brukar använda k-medelalgoritmer för att dela upp datapunkter i en dataset i kluster baserat på närmaste medelvärden. För att bestämma den optimala uppdelningen av dina datapunkter i kluster, så att avståndet mellan punkter i varje kluster minimeras, kan du använda k-means clustering. Närmaste grannalgoritmer:

  • Syftet med en närmaste granneanalys är att söka efter och lokalisera antingen en närmaste punkt i rymden eller närmaste numeriska värde beroende på vilket attribut du använder som jämförelsegrunnlag. Beräkning av kärnämnesdensitet:

  • Ett alternativt sätt att identifiera kluster i dina data är att använda en densitetsutjämningsfunktion. Känslighetsberäkning (KDE) fungerar genom att placera en kärna en viktningsfunktion som är användbar för att kvantifiera densitet - på varje datapunkt i datasatsen och sedan summera kärnorna för att generera en kärntäthetsberäkning för det totala område. Håll matematiska metoder i mixen

Det sägs mycket om värdet av statistiken i dataskyddsutövningen, men tillämpade matematiska metoder nämns sällan. För att vara uppriktig är matematiken grunden för alla kvantitativa analyser. Dess betydelse bör inte understrykas. De två följande matematiska metoderna är särskilt användbara i datavetenskap.

MCDM: MCDM är ett matematiskt beslutsmodelleringssystem som du kan använda när du har flera kriterier eller alternativ som du samtidigt måste utvärdera när du fattar ett beslut.

  • Markov-kedjor : En Markov-kedja är en matematisk metod som kombinerar en serie slumpmässigt genererade variabler som representerar nuvarande tillstånd för att modellera hur förändringar i nuvarande tillståndsvariabler påverkar framtida tillstånd.

Titta på grunderna för statistik, maskinlärande och matematiska metoder i datavetenskap

Redaktörens val

Skapa multimediamixfiler med InDesign CS5 - dummies

Skapa multimediamixfiler med InDesign CS5 - dummies

Du kan exportera InDesign Creative Suite 5-dokument till Flash SWF så att de kan ses med hjälp av Flash Player eller redigeras med hjälp av Flash Professional. Sidövergångar kan användas och du kan också använda en interaktiv sidflip som inte är tillgänglig inom Acrobat. Gör så här för att exportera ditt InDesign-dokument till Flash:

Skapa text på ett sökväg i en InDesign CS5-publikation - dummies

Skapa text på ett sökväg i en InDesign CS5-publikation - dummies

Genom att placera text på en väg I en InDesign Creative Suite 5-publikation kan du kurva den längs en linje eller form. Text på en sökväg är särskilt användbar när du vill skapa intressanta titlingseffekter på en sida. Använd pennverktyget för att skapa en sökväg på sidan. Skapa minst en ...

Skapa textramar i InDesign CS5 - dummies

Skapa textramar i InDesign CS5 - dummies

Textramar innehåller vilken text du lägger till i en InDesign Creative Suite 5-publikation . Du kan skapa en ny textram i en InDesign CS5-publikation på många olika sätt: med verktyget Typ, Ramverktyg eller genom att skriva en form. Textramar skapas ibland automatiskt när du importerar text till en publikation. Skapa ...

Redaktörens val

Word 2010 Tangentbordsgenvägar - dummies

Word 2010 Tangentbordsgenvägar - dummies

Word 2010 erbjuder ett antal användbara kortkommandon för att snabbt utföra uppgifter. Här är några genvägar för vanlig Word-formatering, redigering och fil- och dokumentuppgifter. Word 2010 Formateringsgenvägar Kommando Genväg Band Plats Fet Ctrl + B Hemflik, Fontgrupp Kursiv Ctrl + I Hemflik, Teckengrupp Understruken Ctrl + U Hemflik, Teckengrupp Center Ctrl + E ...

Word 2007 För Dummies Cheat Sheet - Dummies

Word 2007 För Dummies Cheat Sheet - Dummies

Word 2007 ser annorlunda ut, men erbjuder fortfarande de praktiska Word-staplarna som Tangentbordsgenvägar som hjälper dig att skapa, formatera, infoga saker och flytta igenom dina Word-dokument. Och Word 2007 erbjuder också ett par nya funktioner för att hjälpa dig att hantera din ordbehandling med lätthet.

Word 2010 Ribbon Commands - dummies

Word 2010 Ribbon Commands - dummies

ÄR du vilse i bandet? Om du nyligen har uppgraderat från Word 2003 kan det vara utmanande att använda Word 2010-bandet för att utföra vanliga Word-operationer. För att göra övergången lättare, är här kommandona för Word 2010 för vanliga kommandon för Word 2003. Word 2003 Command Equivalent Word 2010 Kommandofil → Ny fil ...

Redaktörens val

Hur man använder SketchUps Push / Pull Tool - dummies

Hur man använder SketchUps Push / Pull Tool - dummies

Push / Pull-verktyget är en enkel varelse; Använd den för att extrudera platta ytor i 3D-former. Det fungerar (som allt annat i SketchUp) genom att klicka. Du klickar på ett ansikte en gång för att börja skjuta / dra den, flytta markören tills du gillar vad du ser och klicka sedan igen för att sluta trycka / dra. Det är allt. Push / Pull fungerar bara ...

Hur man använder SketchUps skuggningsfunktion - dummies

Hur man använder SketchUps skuggningsfunktion - dummies

Du ska använda en av SketchUps bästa funktioner: Skuggor. När du aktiverar Shadows aktiverar du SketchUps inbyggda sol. Skuggorna du ser i ditt modelleringsfönster är exakta för vilken tid och plats du ställer in. I det här exemplet är det dock inte oroande om noggrannhet. Gå igenom dessa steg för att låta ...

Hur man använder SketchUps stämpelverktyg - dummies

Hur man använder SketchUps stämpelverktyg - dummies

Så småningom kan du behöva plunka ner en byggnad (eller någon annan struktur) på terrängen som du har skapat kärleksfullt i SketchUp. Stämpelverktyget ger ett enkelt sätt att - du gissade det - stämpla ett byggfotavtryck i en terrängyta, skapa en platt "pad" för att sitta på. Detta verktyg ger också ...