Becslések

Becslések versenyeztetése, MSE

Mintavételi hibák

Statisztikai becslések torzítatlansága

STATISZTIKAI BECSLÉSEK

Pontbecslés

Olyan esetekben, amikor valamiért nem tudjuk vagy nem akarjuk a teljes sokaságot megvizsgálni, hogy meghatározzuk a fontosabb statisztikai mutatóit, becslést alkalmazunk. A becslés lényege, hogy egy minta alapján próbálunk ezekre a mutatókra következtetni. Ha például egy TV csatorna szeretné tudni, hogy egy országban az emberek naponta átlagosan hány órát nézik műsoraikat, nyilván nem kérdezhetik meg erről egyesével az ország összes lakosát. Vesznek tehát mondjuk egy 100 főből álló mintát és a minta alapján próbálnak az összes lakosra érvényes TV-nézési szokásokra következtetni. Ezt a fajta következtetési módszert, amikor a konkrétból következtetünk az általánosra indukciónak nevezzük. Kiszámoljuk a 100 fős minta átlagát, szórását vagy egyéb mutatóit és aztán ebből akarjuk megtippelni a teljes sokaságra vonatkozó átlagot, szórást vagy egyéb mutatókat.

A kérdés az, hogy ha tudjuk a minta átlagát, szórását és egyéb mutatóit, akkor abból milyen következtetéseket vonhatunk le a teljes sokaságra.

minta

teljes sokaság

Átlag

= mintaátlag

= sokasági átlag

Szórás

s=minta szórás

=sokasági szórás

Értékösszeg

minta értékösszeg

sokasági értékösszeg

Stb.

Vajon mekkora a sansza, hogy a minta átlaga megegyezik a sokasági átlaggal? Vagy ha nem egyezik meg, akkor mégis milyen távol eshet tőle? Vajon mekkora a sansza, hogy a minta szórása megegyezik a sokasági szórással? Vagy ha nem egyezik meg, milyen összefüggés van közöttük?

Ahhoz, hogy ezekre a kérdésekre választ kapjunk, átmenetileg meg kell fordítanunk a következtetésünk irányát. A célunk az, hogy képesek legyünk következtetni a konkrétból az általánosba, de ehhez előbb meg kell vizsgálnunk azt, hogy mi mondható fordított irányban, amikor az általánosból következtetünk konkrétra. Vizsgálódásunkat egy nagyon egyszerű példával kezdjük.

A teljes sokaság legyen az

1;2;3

Ez szimbolizálja előbbi TV-nézős példánkban az ország összes lakosát, és vegyünk ebből két elemű visszatevéses mintát. Amikor az igazi becslést csináljuk, természetesen csak egyetlen mintánk lesz majd és abból az egyetlen mintából kell becslést adnunk mindenre, de most megnézhetjük az összes lehetséges mintát.

A feladatunk az, hogy a minták alapján adjunk becslést az 1;2;3 számok átlagára, maximumára és értékösszegére.

Az 1;2;3 számok átlaga 2 maximuma 3 értékösszege 6, célunk pedig az, hogy megnézzük, az egyes minták átlaga, maximuma és értékösszege mennyire képes ezeket megbecsülni.

Ha a minta az (1; 1) akkor az átlag 1 a maximum 1 az értékösszeg pedig 2 vagyis mindhárom becslésünk elég távol jár a valóságtól.

Ha az (1; 2) akkor az átlag 1,5 ami már közelebb van a tényleges átlaghoz, a maximum 2, ami szintén nem olyan rossz, az értékösszeg 3.

Ha a minta az (1; 3) akkor az átlag éppen ugyanannyi, mint a sokasági átlag, vagyis a becslésünk tökéletes. A maximum 3, ez szintén stimmel, egyedül az értékösszeg teljesít rosszul.

minta

átlag

max

értékösszeg

(1; 1)

(1; 2)

1,5

(1; 3)

(2; 1)

1,5

(2; 2)

(2; 3)

2,5

(3; 1)

(3, 2)

2,5

(3; 3)

Az átlagra adott becslés kilenc esetből háromszor megegyezik a tényleges átlaggal. Ez 33% ami nem kimondottan jó arány. Van viszont még két eset, amikor a minta átlaga 1,5 további két eset pedig, amikor 2,5 és ezek sincsenek olyan távol a tényleges 2-től. Viszonylag elfogadható becslést tehát hét minta szolgáltat, mivel pedig az összes eset kilenc, az arány nem is olyan rossz. A maximum becslésénél még jobb a helyzet, ott ugyanis a kilenc mintából ötször kaptuk a valódi értéket. A legrosszabbul az értékösszeg szerepelt, ez a kilencből mindössze egyszer stimmel.

A kérdés az, hogy egyáltalán mikor tekinthetünk egy becslést jónak. Nos a becslések sikerességének értékelésekor az egyik alapvető szempont a torzítatlanság.

A mintaátlagok nem adják meg ugyan mindig a tényleges sokasági átlagot, de körülötte ingadoznak. A kilenc esetből három éppen megegyezik a sokasági átlaggal, kettő egy picit kevesebb, kettő egy picit több, míg egy-egy esetben jóval kevesebb vagy jóval több. A kapott becslések tehát a becsülni kívánt sokasági átlag körül helyezkednek el. A maximum és az értékösszeg becslése viszont féloldalas, minden mintából számított érték vagy pont annyi vagy kisebb, mint a tényleges érték. A becsléseknél ezt a féloldalasságot nem szeretjük.

Egy becslést torzítatlannak nevezünk, ha az egyes mintákból kapott becslések várható értéke megegyezik a becsülni kívánt mennyiséggel. Ez a tulajdonság azt jelenti, hogy a becslés során kapott értékek a becsülni kívánt érték körül ingadoznak, és ez az ingadozás szimmetrikus. A torzítatlan becsléseket mindig előnyben részesítjük a torzítottakkal szemben.

Nézzük meg, hogy az előbbi becsléseink közül melyek torzítatlanok és melyek torzítottak.

Az átlag becslése esetében úgy kapunk várható értéket, hogy minden minta átlagát beszorozzuk az adott minta valószínűségével, majd ezeket összeadjuk. Mivel minden minta esélye 1/9 így minden átlagot 1/9-el kell szorozni. Íme:

Ez a várható érték tulajdonképpen nem más, mint a mintaátlagok átlaga. Kiszámolva azt kapjuk, hogy éppen 2 vagyis pont megegyezik a tényleges sokasági átlaggal. A becslés tehát torzítatlan.

Nézzük meg mi a helyzet a maximum becslésével. Itt is átlagoljuk a mintákból kapott értékeket:

A teljes sokaság maximuma nem 2,44 hanem 3 ezért a maximumra kapott becslésünk torzított.

Lássuk mi mondható az értékösszeg becslésre!

A teljes sokaság értékösszege nem 4 hanem 6 tehát ez a becslés is torzított.

A három becslésünk közül tehát egyedül az átlag becslése bizonyult torzítatlannak. Érdemes megfigyelni, hogy az egyes mintákból az átlagra kapott becslések, hogyan helyezkednek el a tényleges sokasági átlag körül. A kilencből három esetben a becslés éppen megegyezik a tényleges átlaggal. Két esetben picit kevesebb, kettőben picit több.

Végül egy-egy esetben már jóval kevesebb vagy jóval több.

Ábrázolva őket oszlopdiagramon, egy jellegzetes háromszög alakú eloszlás rajzolódik ki.

minta

átlag

(1; 1)

(1; 2)

1,5

(1; 3)

(2; 1)

1,5

(2; 2)

(2; 3)

2,5

(3; 1)

(3, 2)

2,5

(3; 3)

Ez a jellegzetes alak valójában a normális eloszlás harang alakú görbéje. Azért ilyen háromszög szerű, mert nagyon kicsi, mindössze három elemű a teljes sokaságunk.

Ha a minta elég nagy, akkor a mintaátlagok eloszlása közelít a normális eloszlás jellegzetes harang-görbéjéhez, még akkor is, ha az eredeti sokaság nem normális eloszlású. Erről szólnak a centrális határeloszlás tételek.

Nézzünk meg egy másik példát is. Ezúttal a teljes sokaság legyen az

1; 2; 3; 4

vagyis ez szimbolizálja most az összes TV-nézőt a minta pedig két elemű visszatevés nélküli.

A sokasági átlag

maximum=4 értékösszeg=10

Lássuk, hogyan becsülhetjük ezt meg a minták alapján.

Még egyszer hangsúlyozzuk, hogy most még úgy akarjuk megbecsülni az átlagot, maximumot és értékösszeget, hogy közben pontosan tudjuk ezeket a tényleges értékeket, ami azért nem olyan rizikós vállalkozás. Ráadásul lehetőségünk van megvizsgálni a létező összes mintát. Valójában később majd csak egy mintánk lesz és abból az egyetlen mintából kell megállapítanunk a teljes sokaságra vonatkozó mutatókat.

A két elemű visszatevés nélküli minták:

minta

átlag

max

értékösszeg

(1; 2)

1,5

(1; 3)

(1; 4)

2,5

(2; 3)

2,5

(2; 4)

(3; 4)

3,5

Nézzük meg, a mintaátlag torzítatlan becslést ad-e a sokasági átlagra.

A mintaátlagok várható érétke, vagyis a mintaátlagok átlaga éppen 2,5 ami a sokasági átlag. A becslés tehát torzítatlan.

Nem ez a helyzet a maximum becslésével. A minták maximumai most sem adnak torzítatlan becslést, megint féloldalasan helyezkednek el. A helyzet az, hogy a maximum becslése sosem lesz jó, a minta maximumból nem tudunk következtetni a teljes sokaság maximumára. Ha például felmérést szeretnénk készíteni Magyarország lakosságának életkoráról, minta alapján becsülhető az átlagéletkor és sok minden más, de a legidősebb lakos életkora nem. Gondoljunk például bele, hogy ezt a legidősebb lakost holnap elüti a villamos. Innentől kezdve már nem ő a legidősebb, de a minta – hacsak éppen nem volt ő is benne – ugyanaz marad, nem képes tehát a változást kimutatni. A sokasági maximum nem becsülhető mintavétellel.

Lássuk mi a helyzet az értékösszeggel.

A sokaság értékösszege ezzel szemben 10 tehát az értékösszegre kapott becslés sem torzítatlan. Ha belegondolunk, nem meglepő, hogy nem jó a becslés, hiszen egy minta mindig kevesebb elemből áll, mint a teljes sokaság. A minta elemeit összeadva nem csoda, ha kevesebbet kapunk, mint a teljes sokaság értékösszege. Ahhoz, hogy legyen sansza a minta értékösszegének utolérni a sokaság értékösszegét, valahogyan arányosítanunk kéne, ezzel kompenzálva a minta azon fogyatékosságát, hogy kevesebb elemből áll. Logikusnak tűnik, hogy ha a minta például a teljes sokaságnak mondjuk 10%-a, akkor a minta értékösszege is csak a teljes sokaság 10%-a. Az arányosítás tehát valami ilyesmi lehetne:

Sokasági értékösszeg becslése= minta értékösszege

N=teljes sokaság elemszáma n=minta elemszáma

Esetünkben N=4 és n=2 tehát a második tippünk az értékösszeg becslésére

minta

átlag

max

értékösszeg

1. tipp

2. tipp

(1; 2)

1,5

(1; 3)

(1; 4)

2,5

(2; 3)

2,5

(2; 4)

(3; 4)

3,5

Lássuk ez vajon torzítatlan-e!

A teljes sokaság értékösszege szintén 10 vagyis a becslés ezúttal torzítatlan.

Érdemes megfigyelni, hogy a becsülni kívánt mennyiséget nem biztos, hogy a mintában is ugyanúgy kell számolni, ahogyan a teljes sokaságban számolnánk. Az átlag becslésénél bevált, hogy ugyanazt csináltuk a mintaelemekkel, amit a teljes sokaságra is csinálnánk, de aztán jött az értékösszeg, ahol a jó becsléshez nem volt elég a minta értékösszege, szükség volt egy korrekciós tényezőre – az arányosításra.

A torzítatlanságon kívül azt is nagyra értékeljük egy becslésnél, ha várható értékéhez viszonyított ingadozása kicsi. Ezt az ingadozást méri a variancia. Ha ugyanarra a mennyiségre két torzítatlan becslésünk is van, akkor a kettő közül azt részesítjük előnyben, aminek a varianciája kisebb. Erről lesz szó a következőkben.

Minimális variancia, MSE

Az előzőekben láttuk, a becsülni kívánt mennyiségeket nem biztos, hogy a mintában is ugyanazzal a módszerrel érdemes számítani, ahogyan a teljes sokaság esetében tennénk. A sokasági átlag becslésére használhatjuk a minta átlagát, mediánját, a legnagyobb és legkisebb mintaelem számtani közepét, és így a becsülni kívánt mennyiségre több különböző becslést is kaphatunk. A kérdés az, hogy ha egy sokasági jellemzőre több becslés jöhet szóba, hogyan válasszunk közülük, vagyis mikor tekintünk egy becslést jónak, kettő közül melyiket tekintjük jobbnak és kijelenthetjük-e valamelyikről, hogy a legjobb?

Két alapvető szempont alapján szoktuk a becsléseket versenyeztetni. Az egyik, a már jól ismert torzítatlanság, vagyis a becslésnek az a tulajdonsága, hogy az összes lehetséges mintán vett becslések átlaga megegyezik a becsülni kívánt sokasági jellemzővel. A másik az úgynevezett minimális variancia kritérium.

A minimális variancia kritérium azt jelenti, hogy ha van két torzítatlan becslésünk, akkor a kettő közül azt tekintjük jobbnak, aminek az összes mintán vett értékeinek varianciája kisebb.

A torzítatlanság és a variancia alapján tehát négyféle csoportba sorolhatjuk a becsléseket.

Vannak olyan becslések, amelyek torzítatlanok, de varianciájuk nagy. Ezek a cél, vagyis a becsülni kívánt sokasági jellemző körül szóródnak, de a szóródás mértéke nagy.

Vannak olyan becslések, amik szintén torzítatlanok, vagyis szintén a cél körül szóródnak de varianciájuk kicsi.

Aztán vannak olyan becslések is, melyek torzítottak, de a varianciájuk kicsi.

Végül vannak, amik torzítottak és a varianciájuk nagy.

Jogosan vetődik föl a kérdés, hogy ha a becslés torzított ugyan, de varianciája kicsi, a becslés viszont torzítatlan, ám varianciája nagy, akkor vajon melyiket tekintjük közülük jobbnak. Az összehasonlításhoz egy mindkét tulajdonságot vizsgáló jellemzőt, az úgynevezett átlagos négyzetes hibát (Mean Square Error = MSE) használjuk.

Az első tag a varianciát, a második tag a várható értéktől való eltérést, vagyis a torzítottságot méri. Ha a becslés torzítatlan, így ez a második tag nulla. Két becslés közül azt részesítjük előnyben, amelyre MSE kisebb.

Az különbségre, vagyis a torzítás mértékére az angol bias szó alapján a jelölés van forgalomban. Használatos tehát az

Képlet is.

Az 1,2,3,10, mint teljes sokaság átlagára szeretnénk becslést adni kételemű visszatevés nélküli mintával. A tényleges átlag 1+2+3+10 osztva 4-gyel, ami egész pontosan 4.

Kétféle becslést fogunk egymással versenyeztetni. Az első becslés a szokásos számtani átlag:

A második becslés pedig egy súlyozott számtani átlag, ahol a minta kisebbik elemét

3-szoros súllyal vesszük:

Lássuk, melyik becslés jobb.

minta

(1; 2)

1,5

1,25

(1; 3)

1,5

(1; 10)

5,5

3,25

(2; 3)

2,5

2,25

(2; 10)

(3; 10)

6,5

4,75

Az első becslés összes mintán vett várható értéke 4, ami megegyezik a teljes sokaság átlagával, ez a becslés így torzítatlan. A második becslés torzított. A torzítatlan becsléseket előnyben részesítjük a torzítottakkal szemben, vagyis ez alapján az első becslés a jobb.

Ha viszont megnézzük, hogy milyen becsléseket ad az egyes mintákban a tényleges sokasági átlagra, ami ugyebár 4, mégsem tűnik olyan rossznak, sőt mintha még jobb is lenne -nél. Ennek oka, hogy varianciája kisebb.

A második becslés tehát torzított ugyan, de varianciája sokkal kisebb. Annyival kisebb, hogy a két becslés közül még a torzítottság ellenére is lesz a jobb.

Az MSE mutató tehát összemérhetővé teszi a torzítást és a varianciát. Két, egymással versenyző becslés közül azt tekintjük jobbnak, amelyre MSE kisebb. Ha mindkét becslés torzítatlan, akkor MSE éppen megegyezik a varianciával, így ebben az esetben továbbra is érvényben marad a minimális variancia kritérium. Ha azonban az egyik becslés, vagy akár mindkettő torzított, akkor a torzítottság mértéke és a variancia együttesen dönti el, hogy melyik becslés a jobb, a minimális variancia helyett a minimális MSE kritériumot alkalmazva.

Mintavételek típusai

A sokaság fontosabb statisztikai mutatóinak, más szóval paramétereinek megállapításához használt becsléseket tehát akkor tekintjük jónak, ha azok egyrészt torzítatlanok, másrészt ha a becsülni kívánt paraméter körüli szórásuk viszonylag kicsi.

Eddigi vizsgálódásaink egyik legfontosabb eredménye a mintaátlagok eloszlásának jellemzése. Ha a teljes sokaság átlaga és szórása pedig , akkor az ebből vett n elemű minták átlagai olyan eloszlással helyezkednek el, aminek átlaga szintén a szórása pedig

Ezt az utóbbit a minta standard hibájának szokás nevezni. A standard hiba tehát azt mondja meg, hogy a mintaátlagok mekkora szórással ingadoznak a tényleges sokasági átlag körül.

Fontos azt is megjegyezni, hogy bármilyen is az alapsokaság eloszlása, kis elemszámú minták esetén a mintaátlagok is ugyanolyan eloszlással helyezkednek el a sokasági átlag körül. Ha viszont a minta elemszáma nagy, akkor bármilyen is az alapsokaság eloszlása, a mintaátlagok eloszlása a normális eloszláshoz közelít. Ezen utóbbi tulajdonság, amit az úgynevezett Centrális határeloszlás tételek alapján tudunk, meghatározó fontosságú lesz a most következőkben, a becsléseknél is és később majd a hipotézisvizsgálat során.

Mielőtt rátérnénk a statisztikai becslések részletes vizsgálatára, érdemes még néhány elméleti jellegű kérdést tisztázni magával a mintavétellel kapcsolatban.

Az első ilyen kérdés a mintavétel során elkövethető hibák kérdése. Ezeket a hibákat alapvetően két osztályba, a mintavételi és az úgynevezett nemmintavételi hibák közé sorolhatjuk.

Nemmintavételi hibának számít például, ha egy felmérés során a válaszoló nem a valóságnak megfelelő válaszokat ad. Szintén nemmintavételi hiba az úgynevezett lefedési hiba, amikor bizonyos típusú elemek kimaradnak a mintavételből. A nemmintavételi hibák tehát a nem becslésből adódó hibák. Hiába kérdezzük meg a teljes lakosságot a TV-nézési szokásáról, ha mindenki letagadja az idióta sorozatokat. Vagy hiába készítünk teljes körű felmérést a

Mintavételi hibának azokat a hibákat nevezzük, amik kimondottan azért fordulnak elő, mert nem tudjuk, vagy nem akarjuk a teljes sokaságot vizsgálni. A mintavételi hiba tehát a sokaság eloszlásán és a mintavételi eljáráson kívül főleg a minta elemszáma határozza meg. Mivel pedig ezeket általában már a mintavételt megelőzően ismerjük, a mintavételi hibának megvan az a kellemes tulajdonsága, hogy legtöbbször előre megállapítható. Vagyis még el sem végeztük a mintavételt, de már tudjuk, hogy mekkora lesz a mintavétel során elkövetett hiba. Ez a kellemes tulajdonság lesz a kiindulópont a becslések és később a hipotézisvizsgálatok elméletének kiépítésében.

Szűkebb értelemben mintavételi hibának számít még az úgynevezett szelekciós torzítás, vagyis amikor a minta nem reprezentatív, a mintaelemek nem elég gondosan lettek kiválogatva és így a minta szerkezete eltér a teljes sokaság szerkezetétől. Ez a hiba nyilvánvalóan magából a mintavételből fakad, így szükségképpen mintavételi hibának kell tekintenünk, ám jellege mégis a nemmintavételi hibára emlékeztet. Egyfelől azért, mert gondosabban megválasztva a mintaelemeket a szelekciós torzítás csökkenthető, másrészt pedig azért, mert a többi nemmintavételi hibához hasonlóan előre nem tervezhető.

A nemmintavételi hibák és a szelekciós torzítás tehát alattomosan felbukkanó jelenségek, amiket a mintavétel alapos előkészítésével jó eséllyel csökkenteni lehet, de valós mértéküket szinte lehetetlen megmondani. Nemhogy előrejelezni nem tudjuk, legtöbbször még utólagos becslésük sem lehetséges.

A következő fontos kérdés magának a mintavételnek a módja.

FAE-minta: Független, azonos eloszlású elemekből álló minta. Minden visszatevéses mintavétel FAE-minta, illetve azok a visszatevés nélküli minták, ahol a sokaság végtelen, vagy véges ugyan, de a minta elemszáma a teljes sokasághoz képest elhanyagolható.

A lényeg itt a függetlenség, hogy minden mintaelem független a többitől. Bármi is az első mintaelem, a második is lehet ugyanaz, sőt a harmadik is, esetleg mindegyik. Ezt garantálja a visszatevéses mintavétel, illetve az, hogy ha a mintavétel nem visszatevéses a sokaság végtelen, tehát minden típusú elemből korlátlan mennyiség áll rendelkezésre. Ez lényegében akkor is teljesül, ha az alapsokaság ugyan véges, de a minta elemszáma hozzá képest elhanyagolható.

EV-minta: Egyszerű véletlen minta. Véges sokaságból visszatevés nélküli minta, ahol bármelyik elem kiválasztásának esélye azonos.

Ebben az esetben a mintaelemek nem függetlenek. Ha egy elemet kiválasztottunk, az elemek száma a sokaságban eggyel csökkent, ami hatással van a következő mintaelem kiválasztására. A véletlen szó itt a sokság bármely elemének azonos eséllyel történő kiválasztására utal.

Rétegzett minta: Az alapsokaságot először valamilyen ismérv alapján viszonylag homogén rétegekbe soroljuk be, majd ezekből a rétegekből veszünk FAE vagy EV mintát.

Ezt megtehetjük úgy is, hogy minden rétegből azonos számú mintaelemet veszünk, vagy úgy, hogy az egyes rétegekből vett minták elemszáma arányos az egyes rétegeknek a teljes sokaságban elfoglalt méretével.

Csoportos minták: A csoportos minták legegyszerűbb esete az úgynevezett egylépcsős minta. Ezt az eljárást homogén véges sokaságoknál alkalmazzuk. Lényege az, hogy a sokaság teljes listája nem áll rendelkezésünkre, vagy nehézkes lenne előállítani, de a sokaság jól meghatározható csoportokba tömörül és maguk a csoportok már könnyebben listázhatók. Az egylépcsős minta során magukat a csoportokat választjuk tehát ki, majd a kiválasztott csoport minden elemét megfigyeljük. Például kiválasztunk öt társasházat, ahol aztán az összes lakót megkérdezzük.

A kétlépcsős minta abban különbözik az egylépcsős mintától, hogy ha kiválasztottuk a csoportokat, utána nem teljes körű felmérést végzünk, hanem a csoportokon belül is mintákat vizsgálunk, legtöbbször EV-mintákat.

Becslés, konfidencia szint, konfidencia intervallum

Átlag, arány, variancia intervallumbecslés (FAE)

Intervallumbecslés

Egy TV csatorna szeretné megtudni, hogy a TV-nézők naponta átlagosan hány percet nézik műsoraikat. 500 embert terveznek megkérdezni, a válaszaik alapján kapott minta- átlaggal pedig szeretnék megbecsülni, hogy 95%-os biztonsággal mi mondható az összes TV-nézőre.

Akit az elméleti jellegű részletek untatnak, az a piros nyílra kattintgatva nyugodtan ugorja át a most következő részt, a feladatok megoldását enélkül is érteni fogja.

Nincs más dolga, mint figyelni, hogy a csiga mikor ér át a túloldalra.

Ha a minta elemszáma nagy, akkor a mintaátlagok a tényleges átlag körül lényegében normális eloszlással helyezkednek el, ezt a Centrális határeloszlás tételek alapján tudjuk. Ennek a normális eloszlásnak a várható értéke a tényleges átlag, amit jelöljünk -vel, szórása pedig

ahol a megkérdezettek száma, most éppen 500, pedig a teljes sokaság, tehát az összes TV-néző erre a csatornára áldozott idejének szórása, vagyis ördög tudja mennyi.

Ha a tényleges átlag mondjuk =80 perc, akkor a megkérdezett 500 ember válaszai alapján kapott mintaátlag a 80 perc körül fog ingadozni olyan normális eloszlást alkotva, amelynek várható értéke ez a bizonyos 80 perc.

Megeshet, hogy mázlink van, és olyan mintát választottunk, aminek a mintaátlaga közel esik a tényleges átlaghoz. Ilyenkor elmondhatjuk, hogy becslésünk pontos.

Ha nincs mázlink, előfordulhat, hogy bármennyire is szuper TV-nézőket igyekeztünk választani a felméréshez, azok válaszaikkal mégis tévútra vittek minket.

A becslésünknek 95%-os megbízhatósági szintet szeretnénk, ami azt jelenti, hogy megadjuk azt a tartományt a tényleges átlag körül, amibe a minta átlagok 95%-a beleesik, így ha nem vagyunk különösen szerencsétlenek, akkor a mi mintánk átlaga is. Ezt megbízhatósági szintet konfidencia szintnek nevezzük. A konfidencia szint szokásos jelölése .

A tényleges átlag körüli tartomány, amibe a mintaátlagok valószínűséggel bele-esnek, a normális eloszlás harang-görbéjének sötétebb középső része.

A normális eloszlást átalakítjuk standard-normális eloszlásra, ami úgy zajlik, hogy mindenkiből kivonjuk a várható értéket, aztán elosztjuk a szórással, ami

A mintaátlag, ami kezdetben volt, a standard normális eloszlásban átalakult:

Vagyis most már ezek esnek valószínűséggel a harang-görbe sötétebb középső részébe.

Itt a standard normális eloszlás eloszlás-táblázatában az -höz tartozó Z érték.

Célunk a sokasági átlag becslése, amit megpróbálunk ebből előbányászni.

Kis bűvészkedéssel

A sokasági átlag tehát valószínűséggel esik a megadott intervallumba. Ezt az intervallumot az konfidencia szinthez tartozó konfidencia intervallumnak nevezzük.

Az megbízhatósági szinthez, vagy másként konfidencia szinthez tartozó konfidencia intervallumok azok az intervallumok, amik a sokasági átlagot valószínűséggel tartalmazzák. A konfidencia intervallum végpontjai:

ahol

= a minta átlaga

= a minta elemszáma

=a teljes sokaság szórása

pedig a standard normális eloszlás -höz tartozó Z értéke.

Az konfidencia szinthez tartozó konfidencia intervallumok tehát a sokasági átlagot valószínűséggel tartalmazzák.

Vannak jó konfidencia intervallumok, amik tartalmazzák a sokasági átlagot, ábránkon ezek sárgával vannak jelölve,

és vannak rossz konfidencia intervallumok, amik nem tartalmazzák, ábránkon pirossal jelölve.

Jól látszik, hogy a jó konfidencia intervallumok éppen azokhoz a mintaátlagokhoz tartoznak, amik a normális eloszlás harang-görbéjének sötétebb valószínűségű részébe esnek, vagyis közel vannak a tényleges átlaghoz. Rosszak pedig azok a konfidencia intervallumok, ahol a mintaátlag ezen kívül esik.

Fontos azonban megérteni, hogy egy konkrét mintavételnél egy konkrét konfidencia intervallumot kapunk, ami már nem valószínűséggel tartalmazza a sokasági átlagot, hanem 0 vagy 1 valószínűséggel, mert vagy jó intervallum és akkor tartalmazza,

vagy rossz és akkor meg nem.

Visszatérve a TV-nézők problémájához, egy 500 fős felméréssel szeretnénk 95%-os megbízhatósággal megállapítani, hogy az emberek naponta átlagosan hány percet nézik a csatorna műsorait. Az 500 fős minta átlaga 80 perc. A kérdés az, hogy a tényleges átlag 95%-os konfidencia szinten milyen értékek között mozog.

Feladatunk tehát a 95%-os konfidencia szinthez tartozó konfidencia intervallum meghatározása.

Az konfidencia szinthez tartozó konfidencia intervallum végpontjai:

ahol

= a minta átlaga

Ez most a felmérés alapján 80 perc

= a minta elemszáma

Most 500 embert kérdeztek meg, tehát n=500

=a teljes sokaság szórása

A helyzet az, hogy ezt a szórást előre ismernünk kell. Jogosan vetődik föl a kérdés,

hogy mi van, ha nem ismerjük, ezzel majd a következő esetben foglalkozunk. A

sokasági szórás például egy korábbi felmérés alapján =25 perc.

pedig a standard normális eloszlás -höz tartozó Z értéke.

Most a konfidencia szint =0,95 így =0,05 és

A képlet alapján

0,5000

1,05

0,8531

0,05

0,5199

1,1

0,8643

0,1

0,5398

1,15

0,8749

0,15

0,5596

1,2

0,8849

0,2

0,5793

1,25

0,8944

0,25

0,5987

1,3

0,9032

0,3

0,6179

1,35

0,9115

0,35

0,6368

1,4

0,9192

0,4

0,6554

1,45

0,9265

0,45

0,6736

1,5

0,9332

0,5

0,6915

1,55

0,9394

0,55

0,7088

1,6

0,9452

0,6

0,7257

1,65

0,9505

0,65

0,7422

1,7

0,9554

0,7

0,7580

1,75

0,9599

0,75

0,7734

1,8

0,9641

0,8

0,7881

1,85

0,9678

0,85

0,8023

1,9

0,9713

0,9

0,8159

1,95

0,9744

0,95

0,8289

0,9772

0,8413

2,05

0,9798

[Szövegdoboz: A normális eloszlás táblázatából ki kell keresnünk a értéket. Itt nem Z=0,975, hanem azt a Z értéket keressük, ami a 0,975 valószínűséghez tartozik. A konfidencia intervallum tehát 2,19 2,19 77,81 80 82,19 Az átlagos idő, amennyit nézik a csatorna műsorait 77,81 és 82,19 perc között van. Fontos azonban megjegyezni, hogy a konfidencia intervallum csak az összes lehetséges mintát véve tartalmazza =0,95 valószínűséggel a sokasági átlagot. Amikor már egy konkrét minta alapján egy konkrét konfidencia intervallumot kapunk, ez a való-]

színűség értelmét veszti. A konkrét konfidencia intervallum már vagy 100%, hogy tartalmazza a sokasági átlagot, vagy 0%. A 95%-os konfidencia szint csak arra enged következtetni, hogy 95% eséllyel választunk olyan mintát, ami a sokasági átlagot tartalmazni fogja.

A sokasági átlag becslésének módszere alkalmazható a sokasági arány becslésére is. Például, ha egy párt népszerűségét akarjuk megbecsülni, vagy, hogy egy TV műsort a lakosság hány százaléka nézett. A következőkben összefoglaljuk az ilyen típusú becsléseket.

Sokasági átlag, arány és variancia intervallumbecslése FAE-minták esetén

Az előzőekben bemutatott módszerrel alapvetően két sokasági jellemzőre, a sokasági átlagra és a sokasági arányra adhatunk intervallumbecslést úgynevezett FAE-minták esetén. A FAE-mintában a mintaelemek független és azonos eloszlású valószínűségi változók. Tipikusan ilyen a visszatevéses mintavétel, vagy ha ugyan visszatevés nélküli a minta, de olyan nagy a teljes sokaság, hogy ennek nincs jelentősége.

A most bemutatott módszerek a sokasági átlag és arány becslésére kis minták (n<30) esetén akkor igazak, ha maga az alapsokaság is normális eloszlású. Nagyobb minták esetén (30<n<100) már nem kell, hogy az alapsokaság normális eloszlású legyen, de közel szimmetrikusnak kell lennie. Ha pedig a minta elemszáma kellően nagy (n>100) akkor a Centrális határeloszlás tételek alapján a mintaátlag és arány még akkor is közel normális eloszlást követ, ha az alapsokaság meglehetősen kellemetlen eloszlású, vagyis nagy minták esetén módszereink jó közelítéssel bármilyen eloszlású alapsokaságra működnek.

Más a helyzet a harmadik fontos ismérv, a sokasági szórás esetében. A sokasági szórás becslésének technikája ugyanis kissé eltér az eddig bemutatottaktól. Ez a módszer csak akkor alkalmazható, ha a teljes sokaság normális eloszlású, de legalábbis közel normális eloszlású. Nézzünk mindegyikre egy-egy példát.

[Szövegdoboz: ÁTLAG INTERVALLUMBECSLÉSE, HA A SOKASÁGI SZÓRÁS NEM ISMERT (FAE MINTA) konfidencia szint = a minta átlaga = a minta elemszáma = a minta szórása, a sokasági szórás nem = a t-eloszlás -höz tartozó értéke.] [Szövegdoboz: VARIANCIA INTERVALLUMBECSLÉSE (FAE MINTA) konfidencia szint = a minta elemszáma = a minta szórása, a sokasági szórás nem = a khi-négyzet eloszlás megfelelő értéke] [Szövegdoboz: ARÁNY INTERVALLUMBECSLÉSE (FAE MINTA) konfidencia szint a minta alapján kapott valószínűség a minta elemszáma. a standard normális eloszlás valószí- nűséghez tartozó Z-értéke, lásd táblázat.] [Szövegdoboz: ÁTLAG INTERVALLUMBECSLÉSE, HA A SOKASÁGI SZÓRÁS ISMERT (FAE MINTA) konfidencia szint = a minta átlaga = a minta elemszáma = a teljes sokaság szórása =a standard normális eloszlás valószí- nűséghez tartozó Z értéke, lásd táblázat]

Egy napilapkiadó kacsa-magazin típusú újság beindításával kívánja szélesíteni olvasóinak látókörét, ezért felmérést készíttet, hogy a jelenleg kapható hasonló kiadványokra naponta átlagosan mennyit költenek az újságolvasók. Az új lap megjelentetése akkor érné meg, ha ez az összeg havi szinten átlagosan legalább 760 forint lenne. A kérdés az, hogy mi mondható 90%-os illetve 95%-os konfidencia szinten erről az átlagról.

400 embert kérdeztek meg, akik havonta átlag 780 forintot fordítanak pletykalapok vásárlására. A kérdés az, hogy milyen becslést tudunk adni a sokasági átlagra, ha ismert, hogy a sokasági szórás =250 forint.

Ezt a szórást előre ismernünk kell vagy egy másik hasonló felmérés alapján vagy egyéb statisztikai adatok alapján. Jogosan vetődik föl a kérdés, hogy mi van akkor, ha ezt a szórást nem ismerjük. Ezzel a következő példánkban foglalkozunk majd.

Ha a kiadó megelégszik a 90%-ban megbízható eredménnyel, akkor a becslés a következő: [Szövegdoboz: ÁTLAG INTERVALLUMBECSLÉSE, HA A SOKASÁGI SZÓRÁS ISMERT konfidencia szint = a minta átlaga = a minta elemszáma = a teljes sokaság szórása =a standard normális eloszlás valószí- nűséghez tartozó Z értéke, lásd táblázat]

, ez a konfidencia szint, amiből kiszámoljuk, hogy

, ez a minta átlaga

, ez a minta elemszáma,

, ez a teljes sokaság szórása.

A konfidencia intervallum tehát

Kikeressük a standard normális eloszlás táblázatából a 0,95-höz tartozó Z értéket, ami alighanem 1,65.

Ekkor becslésünk:

Az összes újságolvasó tehát átlagosan 759,4 és 800,6 forint között költ ilyen típusú újságokra 90%-os konfidencia szinten. Ez azonban nem jelenti, hogy a tényleges átlag 90%-al esne 759,4 és 800,6 közé. A 90% annyit jelent, hogy az összes lehetséges konfidencia intervallum 90%-a tartalmazza a tényleges átlagot, 10%-a pedig nem. Mindaddig, amíg nem számoljuk ki egy konkrét minta alapján a határokat, 90% eséllyel kapunk jó intervallumot. Amint azonban a konkrét minta és vele együtt a határok megvannak, a kapott intervallum már vagy tartalmazza az átlagot vagy nem, így a 90% értelmét veszti. Olyan ez, mint a lottó. Amikor kitöltjük a szelvényt, van valamekkora esélyünk nyerni, de a sorsolás után ez az esély megszűnik, akkor már vagy nyertünk,ami 100%-ot jelent vagy nem, ami pedig 0!%.

Ha a kiadó 95%-os konfidencia szintet választ, vagyis több lottószelvényt tölt ki, nagyobb eséllyel nyer. A sorsolás után viszont ez a nagyobb esély is átalakul 100%-ra vagy 0%-ra. A lottó esetében annyival jobb a helyzet, hogy lehetőségünk van megnézni, vajon nyertünk-e és így kételyeink eloszlanak. Itt a becsléseknél azonban a tényleges értéket általában nem fogjuk tudni, hiszen ezért kell maga a becslés.

Lássuk mi mondható 0,95-ös konfidencia szint esetén

[Szövegdoboz: ÁTLAG INTERVALLUMBECSLÉSE, HA A SOKASÁGI SZÓRÁS ISMERT konfidencia szint = a minta átlaga = a minta elemszáma = a teljes sokaság szórása =a standard normális eloszlás valószí- nűséghez tartozó Z értéke, lásd táblázat]

, így

, ez a minta átlaga

, ez a minta elemszáma,

, ez a teljes sokaság szórása.

A konfidencia intervallum tehát

Kikeressük a standard normális eloszlás táblázatából a 0,975-höz tartozó Z értéket, ami alighanem 1,95.

Ekkor becslésünk:

A sokasági átlag új becslésünk alapján 755,5 és 804,5 közé esik. Annak a kívánalomnak, hogy legalább 760 legyen, 90%-os konfidencia szinten még lényegében megfelelt, 95%-os szinten már kevésbé.

Térjünk rá arra az esetre, amikor a sokasági szórás nem ismert. Ebben az esetben nekünk kell a szórást valahogy előállítani. Egy múzeum látogatóinak átlagéletkorát szeretnénk megállapítani 90%-os konfidencia szinten. Öt embert sikerült találnunk, akiknek válaszai

25, 52, 47, 61, 55

A minta átlaga

A minta szórása pedig

Az 5 fős minta szórása tehát 13,8 ez azonban eléggé eltérhet a teljes sokaság szórásától. Ezt az eltérést korrigálja az úgynevezett t-eloszlás. A t-eloszlás lényegében olyan, mint a normális eloszlás, amiben azonban mégis különbözik tőle, hogy figyelembe veszi a mintánk elemszámát is. Más és más érték tartozik az 5 elemű, a 10 elemű vagy éppen a 25 elemű mintához. A t-eloszlás ezzel korrigálja azt a pontatlanságot, ami abból ered, hogy a mintából számítjuk ki a szórást. Ha például mindössze 5 elemű a mintánk, akkor jobban, ha 50 akkor kevésbé korrigál. Ennek a korrigálásnak a mértékét a minta szabadság foka adja meg, ami n-1.

[Szövegdoboz: ÁTLAG INTERVALLUMBECSLÉSE, HA A SOKASÁGI SZÓRÁS NEM ISMERT konfidencia szint = a minta átlaga = a minta elemszáma = a minta szórása, a sokasági szórás nem = a t-eloszlás -höz tartozó értéke.]

A szabadság fok növekedésével a mintából számított szórás egyre kevésbé tér el a teljes sokaság szórásától, ezért egyre kisebb korrekcióra van szükség. A t-eloszlás értékei tehát a minta elemszámának növekedésével közelítenek a standard normális eloszlás Z értékeihez és 150-nél nagyobb elemszámú minták esetén már lényegében a két eloszlás megegyezik.

Határozzuk meg a 0,9 konfidencia szinthez tartozó konfidencia intervallumot

tehát

[Szövegdoboz: t-eloszlás eloszlástáblázata n-1 1 3,08 6,31 12,71 31,82 63,66 2 1,89 2,92 4,3 6,96 9,92 3 1,64 2,35 3,18 4,54 5,84 4 1,53 2,13 2,78 3,75 4,6 5 1,48 2,02 2,57 3,36 4,03 6 1,44 1,94 2,45 3,14 3,71 7 1,42 1,9 2,36 3 3,5 8 1,4 1,86 2,31 2,9 3,36 9 1,38 1,83 2,26 2,82 3,25 10 1,37 1,81 2,23 2,76 3,17 15 1,34 1,75 2,13 2,6 2,95 24 1,32 1,71 2,06 2,49 2,8 29 1,31 1,7 2,04 2,46 2,76 40 1,3 1,68 2,02 2,42 2,7 60 1,3 1,67 2 2,39 2,66 120 1,29 1,66 1,98 2,36 2,62]

A konfidencia intervallum

Keressük meg a 0,95-höz tartozó t-értéket.

A szabadsági fok n-1=4.

A kapott t-érték 2,13.

A látogatók átlagos életkora tehát 90%-os konfidenciaszinten 34,9 és 61,1 év közé esik.

Eddigi példáinkban a sokasági átlagra próbáltunk meg becslést adni. Most nézzük meg, a sokasági arány becslését. Például egy párt népszerűségét szeretnénk megállapítani, amihez 400 fős közvélemény kutatást végzünk. A felmérés eredménye az, hogy támogatottságuk 54%-os. A kérdés az, hogy mi mondható 90%-os konfidencia szinten a teljes lakosságra vonatkozóan.

[Szövegdoboz: ARÁNY INTERVALLUMBECSLÉSE konfidencia szint a minta alapján kapott valószínűség a minta elemszáma. a standard normális eloszlás valószí- nűséghez tartozó Z-értéke, lásd táblázat.] Nézzük ki kicsoda.

ez a konfidencia szint, amiből alighanem

a minta alapján kapott 54%

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az -höz tartozó Z-t

A tényleges népszerűség tehát 50% és 58% közé esik 90%-os konfidencia szinten.

Sokasági átlag, arány és variancia intervallumbecslése

EV-minták esetén

Az EV-minta abban különbözik a FAE-mintától, hogy az egymást követően kiválasztott mintaelemek nem függetlenek egymástól, a mintavétel ugyanis visszatevés nélkül történik. Ennek akkor van igazán jelentősége, ha a teljes sokaság száma, amit N-el jelölünk viszonylag kicsi a minta elemszámához képest. EV-minták esetén tehát a minta fontos jellemzőjévé válik, hogy mekkora a teljes sokaság vagyis mekkora az N.

Ha a teljes sokaság a minta elemszámához képest viszonylag nagy ( ), akkor az EV-minta és a FAE-minta lényegében ugyanúgy viselkedik. Gondoljuk csak végig, hogy ha N=50 000 és n=50, akkor számít-e, hogy visszatevéssel húzunk? Nem igazán.

Ha viszont a teljes sokaság a minta elemszámához képest nem olyan nagy, a visszatevés nélküliség szerepe felértékelődik. FAE-minta esetén előfordulhat, hogy ugyanazt az elemet többször is beválogatjuk a mintába, szélsőséges esetben akár megeshet, hogy minden mintaelem ugyanaz. Az EV-mintánál ez nem fordulhat elő, itt minden mintaelem kiválasztása függ az előzőekben kiválasztott elemektől, így a minta valahogy jobban megőrzi a teljes sokaság szerkezetét, a becslés pontosabb lesz, mint a FAE-minta esetén.

Az EV-mintának ez az előnye sajnos egyben hátránya is. Mivel a mintaelemek nem függetlenek, a korábban látott intervallumbecslések itt csak részben működnek.

Ha a minta elemszáma viszonylag nagy, a mintaátlagok és az arány jóindulattal közelítőleg normális eloszlású. Kis módosítással tehát korábban kapott eredményeink működnek. Gond a sokasági szórással van, ennek becslése ugyanis sokkal bonyolultabbá válik, vizsgálatától így eltekintünk. Szintén nem marad érvényben a t-eloszlással kapott becslésünk arra az esetre, amikor a sokasági szórás nem ismert. A korábbi négy képletből tehát kettő maradt:

[Szövegdoboz: ARÁNY INTERVALLUMBECSLÉSE (EV-MINTA) konfidencia szint a minta alapján kapott valószínűség a minta elemszáma = a teljes sokaság elemszáma a standard normális eloszlás valószí- nűséghez tartozó Z-értéke, lásd táblázat.] [Szövegdoboz: ÁTLAG INTERVALLUMBECSLÉSE, HA A SOKASÁGI SZÓRÁS ISMERT (EV-MINTA) konfidencia szint = a minta átlaga = a minta elemszáma = a teljes sokaság elemszáma = a teljes sokaság szórása =a standard normális eloszlás valószí- nűséghez tartozó Z értéke, lásd táblázat]

A képletekben megjelenő faktor

Ha a teljes sokaság a minta elemszámához képest nagy ( ), akkor

Ilyenkor, tehát a megjelenő faktor éppen 1, vagyis az EV-mintákra vonatkozó képlet lényegében megegyezik a FAE-mintákra vonatkozó korábbi képletekkel.

Ha a teljes sokaság a minta elemszámához képest kisebb, akkor ez a faktor egy nulla és egy közti szám. Nézzük meg például azt az esetet, amikor mondjuk . Ez azt jelenti, hogy a teljes sokaság minden századik elemét beválogattuk a mintába. Ekkor

A konfidencia intervallum hossza és ezáltal a becslés bizonytalansága a FAE-mintához képest 0,995-szeresére csökken.

Ha vagyis a teljes sokaság minden tizedik elemét beválogatjuk a mintába

A konfidencia intervallum hossza és ezáltal a becslés bizonytalansága a FAE-mintához képest 0,95-szeresére csökken.

Végül szélsőséges esetben, ha vagyis a teljes sokaság minden elemét beválogatjuk a mintába

A konfidencia intervallum hossza és ezáltal a becslés bizonytalansága a FAE-mintához képest 0-ra csökken.

Egy napilap olvasóinak átlagéletkorát szeretnénk megbecsülni. A lapot átlagosan naponta 10 ezren vásárolják, a közel reprezentatívnak tekinthető EV-minta 500 elemű.

életkor

Válaszolók száma

20-39

40-59

318

60-79

125

Össz:

500

Adjunk becslést 95%-os konfidencia szinten a napilapot vásárlók átlagéletkorára, illetve a 40 év alatti vásárlók arányára.

A minta adatai alapján az átlagéletkor:

és a szórás

[Szövegdoboz: ÁTLAG INTERVALLUMBECSLÉSE, HA A SOKASÁGI SZÓRÁS ISMERT (EV-MINTA) konfidencia szint = a minta átlaga = a minta elemszáma = a teljes sokaság elemszáma = a teljes sokaság szórása =a standard normális eloszlás valószí- nűséghez tartozó Z értéke, lásd táblázat] A minta viszonylag nagy elemszáma miatt a jó közelítéssel megegyezik a teljes sokaság szórásával.

0,95 így és

= 52,72

= 500

= 10 000

A konfidencia intervallum

A napilap olvasóinak átlagéletkora 95%-os megbízhatósági szinten:

A 40 év alatti olvasók arányának becslése a minta alapján 57/500=0,114 ami 11,4%.

A konfidencia szint ezúttal is 95%-os.

0,95 így és

0,114

500

= 10 000

A konfidencia intervallum

A 40 év alatti olvasók aránya tehát 8,7% és 14% között van.

Rétegzett minták

Mivel a teljes sokaság, amiből mintánkat vesszük általában heterogén, ez a heterogenitás magában a mintában is jelen van, ami megnöveli a becslés varianciáját, vagyis rontja a becslés pontosságát. Ha azonban a teljes sokaságot felosztjuk viszonylag homogén rétegekre, és a mintát is ezen a rétegek szerint vizsgáljuk, a variancia csökkenthető.

TELJES SOKASÁG

MINTA

SOKASÁGI

RÉTEG

ELEMSZÁM

ÁTLAG

SZÓRÁS

MINTABELI

RÉTEG

ELEMSZÁM

ÁTLAG

SZÓRÁS

…

A sokasági átlag az M darab sokasági réteg részátlagainak súlyozott átlaga:

A sokasági átlag pontbecslését úgy kapjuk, hogy az egyes mintabeli rétegek átlagait súlyozzuk, de a teljes sokaság rétegeinek elemszámával. Világos, hogy a pontos elemszámok helyett jóval hasznosabb az egyes rétegeknek a teljes sokasághoz viszonyított mérete. Ezt jelöljük W-vel.

A konfidencia intervallum ekkor

ahol itt a minta rétegeinek szórása

[Szövegdoboz: ÁTLAG INTERVALLUMBECSLÉSE RÉTEGZETT MINTÁBÓL ahol konfidencia szint = a minta átlaga = a minta elemszáma = a minta j-edik rétegének elemszáma = a teljes sokaság elemszáma = a teljes sokaság j-edik rétegének elemszáma = a teljes sokaság j-edik rétegének a teljes sokasághoz viszonyított aránya a minta j-edik rétegének szórása]

Nézzünk meg egy példát.

Egy város három kerületében 250 000, 320 000 és 180 000 lakos él. Adjunk becslést 90%-os konfidenciaszinten a naponta átlagosan utazással töltött időre az alábbi rétegzett minta alapján:

megkérdezettek

száma

átlag

(perc)

szórás

(perc)

A RÉTEGEK NÉPESSÉGE

1. kerület

180

250 000

2. kerület

220

320 000

3. kerület

100

180 000

ÖSSZ.

500

750 000

A mintanagyság a teljes sokasághoz képest olyan kicsi, hogy

ekkor pedig lényegében egy.

A konfidenciaszint pedig 90%, tehát és ekkor

Kétmintás becslések

A kétmintás becslésekre akkor van szükség, amikor két sokaság valamilyen paraméterét, leginkább az átlagát szeretnénk összehasonlítani, például két ország lakosainak átlagjövedelmét szeretnénk minta alapján becsléssel összehasonlítani. De kétmintás becslés az is, ha néhány olyan vállalat, ami mindkét országban jelen van, egyik és másik országban fizetett átlagbéreit szeretnénk összehasonlítani.

A kétmintás becslések lehetnek független mintás becslések vagy páros mintás becslések.

Páros minták esetében létezik valamilyen hozzárendelés az egyik sokaság elemei és a másik sokaság elemei között és ez a mintában is megőrződik. Ilyen például, ha nők és férfiak átlagkeresetének vizsgálatához házaspárokat vizsgálunk, vagy ha két ország jövedelmi viszonyainak vizsgálatához olyan cégek átlagbéreit vesszük, amelyek mindkét országban jelen vannak.

Független mintás becsléseknél ilyen megfeleltetés a két sokaság elemei közt nincs, vagy ha van, a minta elemeire már nem öröklődik. Míg a páros minták elemszáma a párosítás miatt mindig megegyezik, addig független minták esetében ez nem feltétlen van így.

Ha mindkét sokaság közel normális eloszlású, akkor az átlagok különbségének becslésére a következő formula van forgalomban.

[Szövegdoboz: KÉT ÁTLAG KÜLÖNBSÉGÉNEK BECSLÉSE ahol itt konfidencia szint = az egyik minta átlaga = az másik minta átlaga = az egyik minta elemszáma = a másik minta elemszáma A szabadságfok]

Egy üzemben több gépen töltenek 75 ml-es tubusokba fogkrémet, a tubusokba töltött fogkrém mennyisége normális eloszlású. Hasonlítsuk össze az átlagosan a tubusokba töltött fogkrém mennyiségét 90%-os konfidenciaszinten, ha a két gépről az alábbi 12 elemű minták állnak rendelkezésre:

Egyik gép

Másik gép

A két sokaságból egymástól függetlenül vett két minta alapján szeretnénk összehasonlítani az átlagokat.

A konfidenciaszint így

A szabadságfok =12+12-2=22

Az eltérés tehát 90%-os konfidenciaszinten 0 ml és 1,12 ml között van.

7.1. Egy vasúttársaság nagysebességű járatain az utasok száma lényegében normális eloszlású. Adjunk becslést az utasok átlagos számára 90%-os konfidenciaszinten, ha 10 megvizsgált járaton az utasok száma: 360; 453; 467; 451; 487; 491; 390; 512; 488; 495.

A vonaton 480 ülőhely van. Adjunk becslést, arra, hogy az esetek hány százalékában fordul elő, hogy van ülőhely nélküli utas. (a konfidenciaszint legyen 90%)

Az átlag intervallumbecsléséhez először kiszámoljuk az átlagot.

A sokasági szórást nem ismerjük, úgyhogy itt alighanem t-eloszlásra lesz szükség.

A minta szórása:

A konfidenciaszint amiből

kiszámoljuk, hogy

, ez a minta átlaga

, ez a minta elemszáma,

, ez a minta szórása.

A konfidencia intervallum tehát

Kikeressük a t-eloszlás táblázatából a

0,95-höz tartozó t értéket, a

szabadságfok v=n-1=9

Ekkor becslésünk:

Az utasok átlagos száma tehát 431,2 és 487,6 között van 90%-os konfidenciaszinten.

A vonaton 480 ülőhely van. Adjunk becslést, arra, hogy az esetek hány százalékában fordul elő, hogy van ülőhely nélküli utas. A mintában öt esetben nagyobb az utasok száma 480-nál, tehát p=0,5

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az -höz tartozó Z-t

A kapott becslés alapján 90%-os konfidenciaszinten 24% és 76% közötti azon esetek részaránya, amikor van legalább egy ülőhely nélküli utas.

7.2. Egy bankfiókban a sorra kerülésig eltelt idő lényegében normális eloszlású. Adjunk becslést az átlagos várakozási időre 95%-os konfidenciaszinten az alábbi minta alapján:

5; 12; 4; 7; 6; 8; 4; 3; 2; 5

Az 5 percnél hosszabb várakozást a bank vezetősége nem díjazza, és ezt igyekszik alkalmazottjai tudomására hozni. A minta alapján adjunk becslést, hogy az ügyfelek hány százalékánál haladja meg a várakozási idő az 5 percet.

Az átlag intervallumbecsléséhez először kiszámoljuk az átlagot.

A sokasági szórást nem ismerjük, úgyhogy itt alighanem t-eloszlásra lesz szükség.

A konfidenciaszint amiből

kiszámoljuk, hogy

, ez a minta átlaga

, ez a minta elemszáma,

, ez a minta szórása.

A konfidencia intervallum tehát

Kikeressük a t-eloszlás táblázatából a 0,975-höz tartozó t értéket, a

szabadságfok v=n-1=9

Ekkor becslésünk:

Az átlagos várakozási idő tehát 3,6 és 7,6 perc között van.

Adjunk becslést az 5 percen felüli várakozási idő részarányára. A 10 esetből 4-szer fordul elő 5 percnél nagyobb várakozási idő, így p=0,4.

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az -höz tartozó Z-értéket

A kapott becslés alapján 95%-os konfidenciaszinten 10% és 70% között van az 5 percnél többet várakozók részaránya.

7.3. Egy múzeum látogatóinak átlagéletkorát szeretnénk megbecsülni.

A megkérdezett 30 ember megoszlása:

életkor

látogatók

száma

10-29

30-49

50-69

Össz.

Adjunk becslést 0,95-ös konfidenciaszinten a múzeum látogatóinak átlagéletkorára és az 50 év alatti látogatók %-os arányára.

A minta átlaga

A minta szórása pedig

Először az átlagot becsüljük meg a 0,95

konfidencia szinthez tartozó konfidencia intervallummal.

tehát

A konfidencia intervallum

A szabadsági fok n-1=29.

A kapott t-érték 2,04.

A látogatók átlagos életkora tehát 95%-os konfidenciaszinten 39,3 és 50,1 év közé esik.

Térjünk rá az 50 év alattiak

arányának becslésére.

A mintában 18-an 50 év alattiak, ami a

30 fős mintának 60%-a.

Az arány becslésben tehát p=0,6 a konfidencia szint ugyanúgy 0,95.

Nézzük ki kicsoda.

, amiből alighanem így

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az 0,975-höz tartozó Z értéket

Az 50 év alattiak aránya 95%-os konfidencia szinten 43% és 77% közé esik.

7.4. Egy étteremben felmérést készítettek arról, hogy a vendégek átlagosan mennyi időt töltenek náluk. A 40 megfigyelt vendég adatai:

Az étteremben

eltöltött idő (perc)

vendégek

száma

0-29

30-59

60-89

90-119

Össz.

Adjunk becslést 0,95-ös konfidenciaszinten az étteremben átlagosan eltöltött időre és a másfél óránál tovább maradók részarányára.

Mekkora mintára lenne szükség, ha ugyanezen a konfidenciaszinten az átlag hibáját felére akarjuk csökkenteni?

Mekkora mintára van szükség, ha az eredeti hiba mellett, de 99%-os konfidenciaszintet szeretnénk biztosítani?

A minta átlaga

A minta szórása pedig

Először az átlagot becsüljük meg a 0,95

konfidencia szinthez tartozó konfidencia intervallummal.

tehát

A konfidencia intervallum

A szabadsági fok n-1=39.

A kapott t-érték 2,02.

A vendégek tehát 95%-os konfidenciaszinten átlagosan 56,23 és 72,77 közötti percet töltenek az étteremben.

Térjünk rá a másfél óránál tovább maradók részarányának becslésére.

A mintában 6-an vannak, akik 90 percnél több időt töltenek az étteremben.

A részarány tehát a minta alapján p=0,15 vagyis 15%.

A konfidencia szint ugyanúgy 0,95.

, amiből alighanem

így

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az 0,975-höz tartozó Z értéket

A másfél óránál tovább maradók részaránya tehát valahol 4% és 26% között van.

Az átlag becslésének hibája 8,27. Ha ugyanezen konfidenciaszinten fele akkora hibát szeretnénk, lássuk csak 8,27 fele 4,135 tehát

Mivel pedig ahogy ez korábban kiderült

Ebből n-et előbányásszuk:

160 fős mintára van tehát szükség.

Ha az eredeti 8,27-es hibával, de 99%-os konfidenciaszintet szeretnénk, akkor

tehát és így

7.5. Korábbi felmérések alapján valamelyik egyetemi előadás átlagos látogatottsága 98 fő, a szórás pedig 34 fő. Egy új felmérés készítését tervezik, hogy kiderüljön, van-e olyan rossz az előadás, hogy elegendő legyen 100 fős előadóban tartani. Hány előadás létszámát kell megvizsgálni, hogy az átlagos létszám becslésének hibája 10 főnél kisebb legyen 90%-os konfidenciaszinten?

A becslés FAE mintából történik és, mivel ismert a szórás, ezt a képletet használjuk, hogy

[Szövegdoboz: ÁTLAG INTERVALLUMBECSLÉSE, HA A SOKASÁGI SZÓRÁS ISMERT (FAE MINTA) konfidencia szint = a minta átlaga = a minta elemszáma = a teljes sokaság szórása =a standard normális eloszlás valószí- nűséghez tartozó Z értéke, lásd táblázat]

A becslés hibája és a kérdésből úgy tűnik, hogy alighanem n-et keressük.

A konfidenciaszint , így és .

Azt szeretnénk, hogy a hiba legyen 10 főnél kisebb. Ezt úgy fogjuk megoldani, hogy megnézzük mi van akkor, amikor a hiba pont 10, aztán majd meglátjuk mi lesz a helyzet akkor, amikor 10-nél kisebb.

vagyis

Lássuk csak, , kikeressük az ehhez tartozó Z-értéket.

Beszorzunk

ekkor tehát n=31,47.

Ha azt szeretnénk, hogy a hiba éppen 10 legyen, akkor n=31,47 tehát ennyi előadást kell megvizsgálni, ha pedig azt szeretnénk, hogy a hiba 10-nél kisebb legyen, akkor többet. A minta elemszáma tehát legalább 32 kell, hogy legyen.

7.6. Egy utazási iroda opcionálisan meghirdetett városnéző túrája minimum 35 fő esetén indul el. A csoport 70 főből áll és 40-en már nyilatkoztak, közülük 28-an mutatnak hajlandóságot városnézésre. 90%-os konfidenciaszinten kijelenthetjük-e, hogy lesz csoportos városnézés?

Akkor lesz csoportos városnézés, ha a 70 fős csoportból akad legalább 35 tisztességes turista, aki hajlandóságot mutat várostnézni.

A jelek szerint tehát 50%-os érdeklődés mellett lesz városnézés.

A megkérdezett 40 emberből 28-an éreznek leküzdhetetlen vágyat városnézés iránt, ami

tehát 70%. Ez a 40 ember egy 40 fős minta, amiből következtethetünk a teljes csoport szándékaira. 90%-os konfidenciaszinten az alábbi becslés adható a teljes csoport városnézési hajlandóságára:

A minta elemszáma n=40

a minta alapján

a konfidenciaszint pedig

vagyis .

Ekkor a konfidencia intervallum

tehát

Keressük ki a 0,975-höz tartozó Z-értéket:

A városnézési hajlandóság tehát 95%-os szignifikanciaszinten 58% és 82% között van, ami 50% feletti, tehát 0,9-es konfidenciaszinten kijelenthetjük, hogy lesz városnézés.

7.7. Egy mozi felmérést készít látogatóinak életkorával kapcsolatban. A mozilátogatók életkora tekinthető normális eloszlásúnak. A 400 fős minta eredménye:

életkor

nézők

száma

0-10

11-20

132

21-40

157

41-60

104

össz

400

Adjunk becslést 95%-os megbízhatósággal az átlagos életkorra, szórásra és a 20 évnél idősebb nézők részarányára. Hány embert kéne megkérdezni, ha ugyanekkora hibával, de 99%-os megbízhatóságot szeretnénk?

A minta átlaga

A minta szórása pedig

Először az átlagot becsüljük meg a 0,95

konfidencia szinthez tartozó konfidencia intervallummal.

tehát

A konfidencia intervallum

Keressük meg a 0,975-höz tartozó t-értéket.

A szabadsági fok n-1=399, ami olyan nagy, hogy benne sincs a táblázatban. A minta nagy elemszáma miatt Z-eloszlást használunk..

A látogatók átlagos életkora tehát 95%-os konfidenciaszinten 28,45 és 31,15 közé esik.

Az átlag becslésének hibája 1,35 év. Ha ugyanekkora hibával 99%-os megbízhatóságot szeretnénk, akkor így . A nagy elemszám miatt Z-eloszlást használunk.

tehát

amiből és n=692,53, vagyis legalább 693 embert kell megkérdezni.

Térjünk rá a 20 évnél idősebb nézők részarányának kérdésére.

A mintában 261-en vannak, akik 20 évnél idősebbek.

A részarány tehát a minta alapján p=0,6525 vagyis kb. 65%.

A konfidencia szint ugyanúgy 0,95.

, amiből alighanem

így

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az 0,975-höz tartozó Z értéket

A 20 éven felüliek részaránya tehát 0,6058 és 0,6992 között van.

7.8. A naponta átlagosan háztartási tevékenységgel töltött időt szeretnénk megbecsülni. A becsléshez rétegzett mintát vettünk, a rétegképző ismérv az volt, hogy a megkérdezett nő-e vagy férfi. A nők és férfiak részaránya egyezőnek tekinthető.

megkérdezettek

száma

átlag

(perc)

szórás

(perc)

nő

180

férfi

120

Adjunk 90%-os megbízhatóságú becslést az átlagosan háztartási tevékenységgel töltött időre.

A mintanagyság a teljes sokasághoz képest olyan kicsi, hogy

ekkor pedig lényegében egy.

A konfidenciaszint pedig 90%, tehát és ekkor

A naponta átlagosan háztartási munkával töltött idő 90%-os konfidenciaszinten 50 perc és 56 perc közé esik.

7.9. Egy város három kerületében 250 000, 320 000 és 180 000 lakos él. Adjunk becslést 95%-os konfidenciaszinten a naponta átlagosan utazással töltött időre az alábbi rétegzett minta alapján:

megkérdezettek

száma

átlag

(perc)

szórás

(perc)

1. kerület

180

2. kerület

220

3. kerület

100

Kiegészítjük a táblázatot:

megkérdezettek

száma

átlag

(perc)

szórás

(perc)

A RÉTEGEK NÉPESSÉGE

1. kerület

180

250 000

2. kerület

220

320 000

3. kerület

100

180 000

ÖSSZ.

500

750 000

A mintanagyság a teljes sokasághoz képest olyan kicsi, hogy

ekkor pedig lényegében egy.

A konfidenciaszint pedig 90%, tehát és ekkor

7.10. Egy gyümölcslé rosttartalmára szeretnénk becslést adni 30 elemű FAE-minta alapján. A minta eredménye:

Rosttartalom

(%)

elemszám

0-1,9

2-3,9

4-5,9

Össz.

Adjunk becslést 0,95-ös konfidenciaszinten az átlagos rosttartalomra.

Legfeljebb a gyümölcslevek hány százaléka rendelkezhet 4%-nál nagyobb rosttartalommal 95%-os konfidenciaszinten?

[Szövegdoboz: ÁTLAG INTERVALLUMBECSLÉSE, HA A SOKASÁGI SZÓRÁS NEM ISMERT konfidencia szint = a minta átlaga = a minta elemszáma = a minta szórása = a t-eloszlás -höz tartozó értéke.]

A minta átlaga

A minta szórása pedig

Először az átlagot becsüljük meg a 0,95

konfidencia szinthez tartozó konfidencia intervallummal.

tehát

A konfidencia intervallum

A szabadsági fok n-1=29.

A kapott t-érték 2,04.

Az átlagos rosttartalom 1,588% és 2,672% közé esik.

A 4%-nál nagyobb rosttartalom a mintában

vagyis 13,3%

Az arány becslésben tehát p=0,133 a konfidencia szint ugyanúgy 0,95.

Nézzük ki kicsoda.

, amiből alighanem így

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az 0,975-höz tartozó Z értéket

A 4%-nál nagyobb rosttartalom 95%-os konfidencia szinten 1,15% és 25,45% közé esik, vagyis legfeljebb a gyümölcslevek 25,4%-a tartalmaz 4%-nál nagyobb rostanyagot.

EV-minta intervallumbecslés

Rétegzett minták

Kétmintás becslések

FELADAT

minta	átlag	max	Értékösszeg
(1;1)	1	1	2
(1;2)	1,5	2	3
(1;3)	2	3	4
(2;1)	1,5	2	3
(2;2)	2	2	4
(2;3)	2,5	3	5
(3;1)	2	3	4
(3;2)	2,5	3	5
(3;3)	3	3	6

Statisztika

Ennek a témakörnek a képletei

Becslés

Konfidencia szint

Konfidencia intervallum

Átlag intervallumbecslése, ha a sokasági szórás ismert (FAE minta)

FAE minta

Átlag intervallumbecslése, ha a sokasági szórás nem ismert (FAE minta)

Arány intervallumbecslése (FAE minta)

Variancia intervallumbecslése (FAE minta)

EV-minta

Átlag intervallumbecslése, ha a sokasági szórás nem ismert (EV-minta)

Arány intervallumbecslése (EV-minta)

Átlag intervallumbecslése rétegzett mintából

Kétmintás becslés

Két átlag különbségének becslése

Statisztikai becslések torzítatlansága

Becslések versenyeztetése

MSE

Standard hiba

Mintavételi hibák

Ennek a témakörnek a feladatai