Hur man kan förutse nya datavärden med R-dummies

Video: 10 gånger The Simpsons förutspått framtiden 2024

Förutom att beskriva relationer kan modeller också användas för att förutse värden för nya data. Därför använder många modellsystem i R samma funktion, som kallas förmodligen (). Varje modelleringsparadigm i R har en förutsägbar funktion med egen smak, men i allmänhet är den grundläggande funktionaliteten densamma för alla.

Så här får du datavärdena

Till exempel har en biltillverkare tre konstruktioner för en ny bil och vill veta vad den förväntade körsträckan är baserad på vikten av varje ny design. För att göra detta skapar du först en dataram med de nya värdena - till exempel så här:

>> nytt. bilar <- data. ram (wt = c (1, 7, 2. 4, 3. 6))

Kontrollera alltid att de variabla namn du använder är desamma som i modellen. När du gör det, ringer du bara funktionen predict () med de lämpliga argumenten, så här: >> förutsäga (Modell, newdata = nya bilar) 1 2 3 28. 19952 24. 45839 18. 04503

Så den lätta bilen har ett förutsagt körsträcka på 28,2 miles per gallon och den tyngsta bilen har en förutsägd körsträcka på 18 miles per gallon enligt denna modell. Självklart, om du använder en otillräcklig modell, kan dina förutsägelser vara ganska mycket också.

Förtroende för dina förutsägelser

För att få en uppfattning om förutsägelsens noggrannhet kan du be om intervaller kring din förutsägelse. För att få en matris med förutsägelsen och ett 95 procent konfidensintervall kring den genomsnittliga prediktionen ställer du in argumentintervallet till "förtroende" så här: >> förutsäga (Modell, newdata = nya bilar, intervall = "förtroende") passar lwr upr 1 28. 19952 26. 14755 30. 25150 2 24. 45839 23. 01617 25. 90062 3 18. 04503 16. 86172 19. 22834

Nu vet du att - enligt din modell - en bil med en vikt på 2,4 ton har,

i genomsnitt

en körsträcka mellan 23 och 25. 9 miles per gallon. På samma sätt kan du be om ett 95 procent prediktionsintervall genom att ställa in argumentintervallet till "prediction":

>> förutsäga (Modell, newdata = nya bilar, intervall = "förutsägelse") passar lwr upr 1 28. 19952 21. 64930 34. 74975 2 24. 45839 18. 07287 30. 84392 3 18. 04503 11. 71296 24. 37710 Denna information berättar att 95 procent av bilarna med en vikt på 2,4 ton har en körsträcka någonstans mellan 18,1 och 30,8 kilometer per gallon - förutsatt att din modell är rättvis självklart. Om du hellre vill skapa ditt eget konfidensintervall kan du också få standardfel på dina förutsägelser genom att ställa in argumentet se. passar till TRUE. Du får inte en vektor eller en matris; i stället får du en lista med en elementformat som innehåller förutsägelserna och ett element se.passform som innehåller standardfel.