Hur man utvärderar linjär data med R-dummies

Video: Statistical Programming with R by Connor Harris 2024

Naturligtvis ger R en hel uppsättning olika test och Åtgärder för att utvärdera hur bra din modell passar dina data samt se på modellantagandena. Återigen är översikten som presenteras här långt ifrån komplett, men den ger dig en uppfattning om vad som är möjligt och en utgångspunkt för att se djupare ut i frågan.

Sammanfattning av modellen

Sammanfattning () -funktionen ger dig omedelbart F-testet för modeller konstruerade med aov (). För lm () modeller är detta lite annorlunda. Ta en titt på utdata:

>> Modell. sammanfattande modell. Sammanfattning Samtal: lm (formel = mpg ~ wt, data = mtcars) Residualer: Min 1Q Median 3Q Max -4. 5432 -2. 3647 -0. 1252 1. 4096 6. 8727 Koefficienter: Beräkning Std. Fel t-värde Pr (> | t |) (Avskilj) 37. 2851 1. 8776 19. 858 <2e-16 *** wt -5. 3445 0. 5591 -9. 559 1. 29e-10 *** --- Signif. koder: 0 '***' 0. 001 '**' 0. 01 '*' 0. 05 '. '0. 1' 1 Återstående standardfel: 3. 046 på 30 grader av frihet Multipel R-kvadrat: 0. 7528, Justerad R-kvadrat: 0. 7446 F-statistik: 91. 38 på 1 och 30 DF, p- värde: 1. 294e-10

Det här är en hel del användbar information. Här ser du följande:

Fördelningen av resterna, som ger dig en första idé om hur väl antagandena för en linjär modell håller

Koefficienterna åtföljs av ett t-test, som berättar hur långt varje koefficient skiljer sig avsevärt från noll
De godhetstänkande åtgärderna
2 > och den justerade R ² F-testet som ger dig en uppfattning om huruvida din modell förklarar en betydande del av variansen i dina data.
Du kan använda funktionen coef () för att extrahera en matris med uppskattningarna, standardfel och t-värde och p-värde för koefficienterna från sammanfattningsobjektet så här: >> coef (modell sammanfattning) Uppskattning Std. Fel t-värde Pr (> | t |) (Avskilj) 37. 285126 1. 877627 19. 857575 8. 241799e-19 wt -5. 344472 0. 559101 -9. 559044 1. 293959e-10
Om dessa villkor inte berättar något, kolla upp dem i en bra källa om modellering. För en omfattande introduktion till tillämpning och tolkning av linjära modeller korrekt, kolla in

Applied Linear Statistical Models,

5: e upplagan, av Michael Kutner et al (McGraw-Hill / Irwin).

Hur man testar effekten av modellvillkor För att få en analys av varianstabellen - som funktionen sammanfattning () ger en ANOVA-modell - du använder helt enkelt funktionen anova () och skickar den till lm () -modellen objekt som ett argument, så här: >> Modell. anova modell. Analys av variariabordsvaret: mpg Df Summa Sq Medelvärde Sq F-värde Pr (> F) vikt 1 847.73 847. 73 91. 375 1. 294e-10 *** Restprodukter 30 278. 32 9. 28 --- Signif. koder: 0 '***' 0. 001 '**' 0. 01 '*' 0. 05 '. '0. 1' 1 Här är det resulterande objektet en dataram som låter dig extrahera valfritt värde från den tabellen med hjälp av subset och indexeringsverktygen. Till exempel, för att få p-värdet kan du göra följande: >> Modell. Anova ['wt', 'Pr (> F)'] [1] 1. 293959e-10

Du kan tolka detta värde som sannolikheten för att lägga till variabeln wt till modellen t gör skillnad. Det låga p-värdet här indikerar att en bils vikt förklarar en betydande del av skillnaden i körsträcka (mpg) mellan bilar. Det borde inte komma som en överraskning, en tyngre bil gör det, verkligen behöver mer makt att dra sin egen vikt runt.

Du kan använda funktionen anova () för att jämföra olika modeller också, och många modelleringspaket ger den funktionen. Du hittar exempel på detta på de flesta relaterade hjälpsidor som? anova. lm och? anova. glm.