Video: Stjernedød 2024
För att hjälpa dig att förstå statistisk analys med Excel, hjälper det att simulera Central Limit Theorem. Det låter nästan inte rätt. Hur kan en befolkning som normalt inte distribueras resultera i en normalt distribuerad provtagningsfördelning?
För att ge dig en uppfattning om hur Central Limit Theorem fungerar, finns det en simulering. Denna simulering skapar något som en samplingsfördelning av medelvärdet för ett mycket litet prov baserat på en befolkning som normalt inte distribueras. Som du ser, trots att befolkningen inte är en normal fördelning, och trots att provet är litet, ser samplingsfördelningen av medelvärdet ganska ut som en normal fördelning.
Föreställ dig en stor befolkning som består av bara tre poäng - 1, 2 och 3 - och var och en är lika sannolikt att visas i ett prov. Föreställ dig också att du slumpmässigt kan välja ett urval av tre poäng från den här befolkningen.
Prov | Medel | Prov | Medel | Prov | Medel |
1, 1, 1 | 1. 00 | 2, 1, 1 | 1. 33 | 3, 1, 1 | 1. 67 |
1, 1, 2 | 1. 33 | 2, 1, 2 | 1. 67 | 3, 1, 2 | 2. 00 |
1, 1, 3 | 1. 67 | 2, 1, 3 | 2. 00 | 3, 1, 3 | 2. 33 |
1, 2, 1 | 1. 33 | 2, 2, 1 | 1. 67 | 3, 2, 1 | 2. 00 |
1, 2, 2 | 1. 67 | 2, 2, 2 | 2. 00 | 3, 2, 2 | 2. 33 |
1, 2, 3 | 2. 00 | 2, 2, 3 | 2. 33 | 3, 2, 3 | 2. 67 |
1, 3, 1 | 1. 67 | 2, 3, 1 | 2. 00 | 3, 3, 1 | 2. 33 |
1, 3, 2 | 2. 00 | 2, 3, 2 | 2. 33 | 3, 3, 2 | 2. 67 |
1, 3, 3 | 2. 33 | 2, 3, 3 | 2. 67 | 3, 3, 3 | 3. 00 |
Om du tittar noga på bordet kan du nästan se vad som händer i simuleringen. Provet betyder att det som förekommer oftast är 2. 00. Provmetoden som visas minst ofta är 1. 00 och 3. 00. Hmmm …
I simuleringen valdes en poäng slumpmässigt från befolkningen och välj sedan slumpvis två Mer. Den gruppen av tre poäng är ett prov. Då beräknar du medelvärdet av det provet. Denna process upprepades för totalt 60 prov, vilket resulterade i 60 provmedel. Slutligen grafiserar du fördelningen av provmedlet.
Hur ser den simulerade samplingsfördelningen av medelutseendet ut? Bilden nedan visar ett arbetsblad som svarar på denna fråga.
I kalkylbladet är varje rad ett prov.Kolumnerna märkta x1, x2 och x3 visar de tre poängen för varje prov. Kolumn E visar medelvärdet för provet i varje rad. Kolumn G visar alla möjliga värden för provvärdet, och kolumn H visar hur ofta varje medel visas i de 60 proven. Kolumnerna G och H och grafen visar att fördelningen har sin maximala frekvens när provet betyder 2. 00. Frekvenserna svänger av som provmedlen går längre bort från 2. 00.
Poängen med allt detta är att befolkningen ser ingenting som en normal fördelning och provstorleken är väldigt liten. Även under dessa begränsningar börjar provtagningsfördelningen av medelvärdet baserat på 60 prov att se väldigt ut som en normal fördelning.
Vad sägs om parametrarna för den centrala gränsteoretiken för provtagningsfördelningen? Börja med befolkningen. Medelvärdet är 2,00 och befolkningsstandardavvikelsen är. 67. (Denna typ av befolkning kräver lite matematik för att kunna bestämma parametrarna.)
Till provtagningsfördelningen. Medelvärdet av de 60 medlen är 1. 98, och deras standardavvikelse (en uppskattning av standardfelet i medelvärdet) är. 48. Dessa siffror nära approximerar de centrala gränsvärdetormerade parametrarna för provtagningsfördelningen av medelvärdet, 2. 00 (lika med populationen medelvärdet) och. 47 (standardavvikelsen, 67, dividerad med kvadratroten av 3, provstorleken).
Om du är intresserad av att göra denna simulering, här är stegen:
- Välj en cell för ditt första slumpmässigt valda nummer.
Välj cell B2.
- Använd kalkylbladsfunktionen
RANDBETWEEN
för att välja 1, 2 eller 3.Detta simulerar att rita ett nummer från en befolkning som består av siffrorna 1, 2 och 3 där du har lika chans att välja varje nummer. Du kan antingen välja
FORMULAS | Math & Trig | RANDBETWEEN
och använd dialogrutan Funktionsargument eller skriv bara= RANDBETWEEN (1, 3)
i B2 och tryck på Enter. Det första argumentet är det minsta antalet RANDBETWEEN returnerar, och det andra argumentet är det största antalet. - Markera cellen till höger om den ursprungliga cellen och välj ett annat slumptal mellan 1 och 3. Gör det igen för ett tredje slumptal i cellen till höger om den andra.
Det enklaste sättet att göra detta är att autofylla de två cellerna till höger om den ursprungliga cellen. I detta arbetsblad är dessa två celler C2 och D2.
- Tänk på att dessa tre celler är ett prov och beräkna deras medelvärde i cellen till höger om den tredje cellen.
Det enklaste sättet att göra detta är bara typ
= AVERAGE (B2: D2)
i cell E2 och tryck på Enter. - Upprepa denna process för så många prover som du vill inkludera i simuleringen. Har varje rad motsvarar ett prov.
60 prover användes här. Det snabba och enkla sättet att göra detta är att välja den första raden av tre slumpmässigt valda nummer och deras medelvärden och sedan autofyll de återstående raderna. Satsen av provmedel i kolumn E är den simulerade samplingsfördelningen av medelvärdet.Använd
Genomsnittlig
och
STDEV. P
för att hitta dess genomsnittliga och standardavvikelsen.
För att se hur denna simulerade samplingsdistribution ser ut, använd arrayfunktionen
FREQUENCY
på provmedlet i kolumn E. Följ dessa steg:
- Ange de möjliga värdena för provmedlet i en array.
Du kan använda kolumn G för detta. Du kan uttrycka de möjliga värdena för provvärdet i fraktionsform (3/3, 4/3, 5/3, 6/3, 7/3, 8/3 och 9/3) som de som gick in i cellerna G2 till och med G8. Excel konverterar dem till decimalform. Se till att de här cellerna är i Nummerformat.
- Välj en array för frekvenserna för de möjliga värdena för provmedlet.
Du kan använda kolumn H för att hålla frekvenserna och välja cellerna H2 till H8.
- I menyn Statistiska funktioner väljer du
FREQUENCY
för att öppna dialogrutan Funktionsargument förFREQUENCY
- I dialogrutan Funktionsargument anger du lämpliga värden för argumenten.
I rutan Data_array anger du de celler som håller provmedlen. I det här exemplet är det E2: E61.
- Identifiera arrayen som håller de möjliga värdena för provmedlet.
FREQUENCY
håller denna matris i rutan Bins_array. För detta arbetsblad går G2: G8 i rutan Bins_array. När du har identifierat båda arraysna visar dialogrutan Funktionsargument frekvenserna i ett par krökningsfästen. - Tryck Ctrl + Shift + Enter för att stänga dialogrutan Funktionsargument och visa frekvenserna.
Använd denna tangenttryckningskombination eftersom
FREQUENCY
är en array-funktion. - Slutligen, med H2: H8 markerad, välj
Infoga | Rekommenderade diagram
och välj kolumnlayouten för att skapa grafen för frekvenserna. Din graf kommer troligen att se lite annorlunda ut än min, för du kommer sannolikt att sluta med olika slumptal.
Först upprepar Excel den slumpmässiga urvalsprocessen när du gör något som gör att Excel kan räkna om kalkylbladet. Effekten är att siffrorna kan förändras när du arbetar igenom detta. (Det betyder att du återställer simuleringen.) Om du till exempel går tillbaka och autofyll en av raderna igen ändras numren och grafen ändras.