Statisztika epizód tartalma:

Statisztikai becslések, pontbecslés, intervallumbecslés, standard hiba, mintavételi hiba, nemmintavételi hiba, FAE-minta, EV-minta,rétegzett minta, többlépcsős minta, torzítatlanság, minimális variancia elve, konfidencia szint, konfidencia tartomány, sokasági átlag becslése, sokasági arány becslése, sokasági variancia.

A képsor tartalma

Intervallumbecslés

Egy TV csatorna szeretné megtudni, hogy a TV-nézők naponta átlagosan hány percet nézik műsoraikat. 500 embert terveznek megkérdezni, a válaszaik alapján kapott minta- átlaggal pedig szeretnék megbecsülni, hogy 95%-os biztonsággal mi mondható az összes TV-nézőre.

Akit az elméleti jellegű részletek untatnak, az a piros nyílra kattintgatva nyugodtan ugorja át a most következő részt, a feladatok megoldását enélkül is érteni fogja.

Nincs más dolga, mint figyelni, hogy a csiga mikor ér át a túloldalra.

Ha a minta elemszáma nagy, akkor a mintaátlagok a tényleges átlag körül lényegében normális eloszlással helyezkednek el, ezt a Centrális határeloszlás tételek alapján tudjuk. Ennek a normális eloszlásnak a várható értéke a tényleges átlag, amit jelöljünk -vel, szórása pedig

ahol a megkérdezettek száma, most éppen 500, pedig a teljes sokaság, tehát az összes TV-néző erre a csatornára áldozott idejének szórása, vagyis ördög tudja mennyi.

Ha a tényleges átlag mondjuk =80 perc, akkor a megkérdezett 500 ember válaszai alapján kapott mintaátlag a 80 perc körül fog ingadozni olyan normális eloszlást alkotva, amelynek várható értéke ez a bizonyos 80 perc.

Megeshet, hogy mázlink van, és olyan mintát választottunk, aminek a mintaátlaga közel esik a tényleges átlaghoz. Ilyenkor elmondhatjuk, hogy becslésünk pontos.

Ha nincs mázlink, előfordulhat, hogy bármennyire is szuper TV-nézőket igyekeztünk választani a felméréshez, azok válaszaikkal mégis tévútra vittek minket.

A becslésünknek 95%-os megbízhatósági szintet szeretnénk, ami azt jelenti, hogy megadjuk azt a tartományt a tényleges átlag körül, amibe a minta átlagok 95%-a beleesik, így ha nem vagyunk különösen szerencsétlenek, akkor a mi mintánk átlaga is. Ezt megbízhatósági szintet konfidencia szintnek nevezzük. A konfidencia szint szokásos jelölése .

A tényleges átlag körüli tartomány, amibe a mintaátlagok valószínűséggel bele-esnek, a normális eloszlás harang-görbéjének sötétebb középső része.

A normális eloszlást átalakítjuk standard-normális eloszlásra, ami úgy zajlik, hogy mindenkiből kivonjuk a várható értéket, aztán elosztjuk a szórással, ami

A mintaátlag, ami kezdetben volt, a standard normális eloszlásban átalakult:

Vagyis most már ezek esnek valószínűséggel a harang-görbe sötétebb középső részébe.

Itt a standard normális eloszlás eloszlás-táblázatában az -höz tartozó Z érték.

Célunk a sokasági átlag becslése, amit megpróbálunk ebből előbányászni.

Kis bűvészkedéssel

A sokasági átlag tehát valószínűséggel esik a megadott intervallumba. Ezt az intervallumot az konfidencia szinthez tartozó konfidencia intervallumnak nevezzük.

Az megbízhatósági szinthez, vagy másként konfidencia szinthez tartozó konfidencia intervallumok azok az intervallumok, amik a sokasági átlagot valószínűséggel tartalmazzák. A konfidencia intervallum végpontjai:

ahol

= a minta átlaga

= a minta elemszáma

=a teljes sokaság szórása

pedig a standard normális eloszlás -höz tartozó Z értéke.

Az konfidencia szinthez tartozó konfidencia intervallumok tehát a sokasági átlagot valószínűséggel tartalmazzák.

Vannak jó konfidencia intervallumok, amik tartalmazzák a sokasági átlagot, ábránkon ezek sárgával vannak jelölve,

és vannak rossz konfidencia intervallumok, amik nem tartalmazzák, ábránkon pirossal jelölve.

Jól látszik, hogy a jó konfidencia intervallumok éppen azokhoz a mintaátlagokhoz tartoznak, amik a normális eloszlás harang-görbéjének sötétebb valószínűségű részébe esnek, vagyis közel vannak a tényleges átlaghoz. Rosszak pedig azok a konfidencia intervallumok, ahol a mintaátlag ezen kívül esik.

Fontos azonban megérteni, hogy egy konkrét mintavételnél egy konkrét konfidencia intervallumot kapunk, ami már nem valószínűséggel tartalmazza a sokasági átlagot, hanem 0 vagy 1 valószínűséggel, mert vagy jó intervallum és akkor tartalmazza,

vagy rossz és akkor meg nem.

Visszatérve a TV-nézők problémájához, egy 500 fős felméréssel szeretnénk 95%-os megbízhatósággal megállapítani, hogy az emberek naponta átlagosan hány percet nézik a csatorna műsorait. Az 500 fős minta átlaga 80 perc. A kérdés az, hogy a tényleges átlag 95%-os konfidencia szinten milyen értékek között mozog.

Feladatunk tehát a 95%-os konfidencia szinthez tartozó konfidencia intervallum meghatározása.

Az konfidencia szinthez tartozó konfidencia intervallum végpontjai:

ahol

= a minta átlaga

Ez most a felmérés alapján 80 perc

= a minta elemszáma

Most 500 embert kérdeztek meg, tehát n=500

=a teljes sokaság szórása

A helyzet az, hogy ezt a szórást előre ismernünk kell. Jogosan vetődik föl a kérdés,

hogy mi van, ha nem ismerjük, ezzel majd a következő esetben foglalkozunk. A

sokasági szórás például egy korábbi felmérés alapján =25 perc.

pedig a standard normális eloszlás -höz tartozó Z értéke.

Most a konfidencia szint =0,95 így =0,05 és

A képlet alapján

z

z

0

0,5000

1,05

0,8531

0,05

0,5199

1,1

0,8643

0,1

0,5398

1,15

0,8749

0,15

0,5596

1,2

0,8849

0,2

0,5793

1,25

0,8944

0,25

0,5987

1,3

0,9032

0,3

0,6179

1,35

0,9115

0,35

0,6368

1,4

0,9192

0,4

0,6554

1,45

0,9265

0,45

0,6736

1,5

0,9332

0,5

0,6915

1,55

0,9394

0,55

0,7088

1,6

0,9452

0,6

0,7257

1,65

0,9505

0,65

0,7422

1,7

0,9554

0,7

0,7580

1,75

0,9599

0,75

0,7734

1,8

0,9641

0,8

0,7881

1,85

0,9678

0,85

0,8023

1,9

0,9713

0,9

0,8159

1,95

0,9744

0,95

0,8289

2

0,9772

1

0,8413

2,05

0,9798

színűség értelmét veszti. A konkrét konfidencia intervallum már vagy 100%, hogy tartalmazza a sokasági átlagot, vagy 0%. A 95%-os konfidencia szint csak arra enged következtetni, hogy 95% eséllyel választunk olyan mintát, ami a sokasági átlagot tartalmazni fogja.

A sokasági átlag becslésének módszere alkalmazható a sokasági arány becslésére is. Például, ha egy párt népszerűségét akarjuk megbecsülni, vagy, hogy egy TV műsort a lakosság hány százaléka nézett. A következőkben összefoglaljuk az ilyen típusú becsléseket.

Sokasági átlag, arány és variancia intervallumbecslése FAE-minták esetén

Az előzőekben bemutatott módszerrel alapvetően két sokasági jellemzőre, a sokasági átlagra és a sokasági arányra adhatunk intervallumbecslést úgynevezett FAE-minták esetén. A FAE-mintában a mintaelemek független és azonos eloszlású valószínűségi változók. Tipikusan ilyen a visszatevéses mintavétel, vagy ha ugyan visszatevés nélküli a minta, de olyan nagy a teljes sokaság, hogy ennek nincs jelentősége.

A most bemutatott módszerek a sokasági átlag és arány becslésére kis minták (n<30) esetén akkor igazak, ha maga az alapsokaság is normális eloszlású. Nagyobb minták esetén (30<n<100) már nem kell, hogy az alapsokaság normális eloszlású legyen, de közel szimmetrikusnak kell lennie. Ha pedig a minta elemszáma kellően nagy (n>100) akkor a Centrális határeloszlás tételek alapján a mintaátlag és arány még akkor is közel normális eloszlást követ, ha az alapsokaság meglehetősen kellemetlen eloszlású, vagyis nagy minták esetén módszereink jó közelítéssel bármilyen eloszlású alapsokaságra működnek.

Más a helyzet a harmadik fontos ismérv, a sokasági szórás esetében. A sokasági szórás becslésének technikája ugyanis kissé eltér az eddig bemutatottaktól. Ez a módszer csak akkor alkalmazható, ha a teljes sokaság normális eloszlású, de legalábbis közel normális eloszlású. Nézzünk mindegyikre egy-egy példát.

Egy napilapkiadó kacsa-magazin típusú újság beindításával kívánja szélesíteni olvasóinak látókörét, ezért felmérést készíttet, hogy a jelenleg kapható hasonló kiadványokra naponta átlagosan mennyit költenek az újságolvasók. Az új lap megjelentetése akkor érné meg, ha ez az összeg havi szinten átlagosan legalább 760 forint lenne. A kérdés az, hogy mi mondható 90%-os illetve 95%-os konfidencia szinten erről az átlagról.

400 embert kérdeztek meg, akik havonta átlag 780 forintot fordítanak pletykalapok vásárlására. A kérdés az, hogy milyen becslést tudunk adni a sokasági átlagra, ha ismert, hogy a sokasági szórás =250 forint.

Ezt a szórást előre ismernünk kell vagy egy másik hasonló felmérés alapján vagy egyéb statisztikai adatok alapján. Jogosan vetődik föl a kérdés, hogy mi van akkor, ha ezt a szórást nem ismerjük. Ezzel a következő példánkban foglalkozunk majd.

Ha a kiadó megelégszik a 90%-ban megbízható eredménnyel, akkor a becslés a következő:

, ez a konfidencia szint, amiből kiszámoljuk, hogy

, ez a minta átlaga

, ez a minta elemszáma,

, ez a teljes sokaság szórása.

A konfidencia intervallum tehát

Kikeressük a standard normális eloszlás táblázatából a 0,95-höz tartozó Z értéket, ami alighanem 1,65.

Ekkor becslésünk:

Az összes újságolvasó tehát átlagosan 759,4 és 800,6 forint között költ ilyen típusú újságokra 90%-os konfidencia szinten. Ez azonban nem jelenti, hogy a tényleges átlag 90%-al esne 759,4 és 800,6 közé. A 90% annyit jelent, hogy az összes lehetséges konfidencia intervallum 90%-a tartalmazza a tényleges átlagot, 10%-a pedig nem. Mindaddig, amíg nem számoljuk ki egy konkrét minta alapján a határokat, 90% eséllyel kapunk jó intervallumot. Amint azonban a konkrét minta és vele együtt a határok megvannak, a kapott intervallum már vagy tartalmazza az átlagot vagy nem, így a 90% értelmét veszti. Olyan ez, mint a lottó. Amikor kitöltjük a szelvényt, van valamekkora esélyünk nyerni, de a sorsolás után ez az esély megszűnik, akkor már vagy nyertünk,ami 100%-ot jelent vagy nem, ami pedig 0!%.

Ha a kiadó 95%-os konfidencia szintet választ, vagyis több lottószelvényt tölt ki, nagyobb eséllyel nyer. A sorsolás után viszont ez a nagyobb esély is átalakul 100%-ra vagy 0%-ra. A lottó esetében annyival jobb a helyzet, hogy lehetőségünk van megnézni, vajon nyertünk-e és így kételyeink eloszlanak. Itt a becsléseknél azonban a tényleges értéket általában nem fogjuk tudni, hiszen ezért kell maga a becslés.

Lássuk mi mondható 0,95-ös konfidencia szint esetén

, így

, ez a minta átlaga

, ez a minta elemszáma,

, ez a teljes sokaság szórása.

A konfidencia intervallum tehát

Kikeressük a standard normális eloszlás táblázatából a 0,975-höz tartozó Z értéket, ami alighanem 1,95.

Ekkor becslésünk:

A sokasági átlag új becslésünk alapján 755,5 és 804,5 közé esik. Annak a kívánalomnak, hogy legalább 760 legyen, 90%-os konfidencia szinten még lényegében megfelelt, 95%-os szinten már kevésbé.

Térjünk rá arra az esetre, amikor a sokasági szórás nem ismert. Ebben az esetben nekünk kell a szórást valahogy előállítani. Egy múzeum látogatóinak átlagéletkorát szeretnénk megállapítani 90%-os konfidencia szinten. Öt embert sikerült találnunk, akiknek válaszai

25, 52, 47, 61, 55

A minta átlaga

A minta szórása pedig

Az 5 fős minta szórása tehát 13,8 ez azonban eléggé eltérhet a teljes sokaság szórásától. Ezt az eltérést korrigálja az úgynevezett t-eloszlás. A t-eloszlás lényegében olyan, mint a normális eloszlás, amiben azonban mégis különbözik tőle, hogy figyelembe veszi a mintánk elemszámát is. Más és más érték tartozik az 5 elemű, a 10 elemű vagy éppen a 25 elemű mintához. A t-eloszlás ezzel korrigálja azt a pontatlanságot, ami abból ered, hogy a mintából számítjuk ki a szórást. Ha például mindössze 5 elemű a mintánk, akkor jobban, ha 50 akkor kevésbé korrigál. Ennek a korrigálásnak a mértékét a minta szabadság foka adja meg, ami n-1.

A szabadság fok növekedésével a mintából számított szórás egyre kevésbé tér el a teljes sokaság szórásától, ezért egyre kisebb korrekcióra van szükség. A t-eloszlás értékei tehát a minta elemszámának növekedésével közelítenek a standard normális eloszlás Z értékeihez és 150-nél nagyobb elemszámú minták esetén már lényegében a két eloszlás megegyezik.

Határozzuk meg a 0,9 konfidencia szinthez tartozó konfidencia intervallumot

tehát

A konfidencia intervallum

Keressük meg a 0,95-höz tartozó t-értéket.

A szabadsági fok n-1=4.

A kapott t-érték 2,13.

A látogatók átlagos életkora tehát 90%-os konfidenciaszinten 34,9 és 61,1 év közé esik.

Eddigi példáinkban a sokasági átlagra próbáltunk meg becslést adni. Most nézzük meg, a sokasági arány becslését. Például egy párt népszerűségét szeretnénk megállapítani, amihez 400 fős közvélemény kutatást végzünk. A felmérés eredménye az, hogy támogatottságuk 54%-os. A kérdés az, hogy mi mondható 90%-os konfidencia szinten a teljes lakosságra vonatkozóan.

Nézzük ki kicsoda.

ez a konfidencia szint, amiből alighanem

a minta alapján kapott 54%

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az -höz tartozó Z-t

A tényleges népszerűség tehát 50% és 58% közé esik 90%-os konfidencia szinten.

Sokasági átlag, arány és variancia intervallumbecslése

EV-minták esetén

Az EV-minta abban különbözik a FAE-mintától, hogy az egymást követően kiválasztott mintaelemek nem függetlenek egymástól, a mintavétel ugyanis visszatevés nélkül történik. Ennek akkor van igazán jelentősége, ha a teljes sokaság száma, amit N-el jelölünk viszonylag kicsi a minta elemszámához képest. EV-minták esetén tehát a minta fontos jellemzőjévé válik, hogy mekkora a teljes sokaság vagyis mekkora az N.

Ha a teljes sokaság a minta elemszámához képest viszonylag nagy ( ), akkor az EV-minta és a FAE-minta lényegében ugyanúgy viselkedik. Gondoljuk csak végig, hogy ha N=50 000 és n=50, akkor számít-e, hogy visszatevéssel húzunk? Nem igazán.

Ha viszont a teljes sokaság a minta elemszámához képest nem olyan nagy, a visszatevés nélküliség szerepe felértékelődik. FAE-minta esetén előfordulhat, hogy ugyanazt az elemet többször is beválogatjuk a mintába, szélsőséges esetben akár megeshet, hogy minden mintaelem ugyanaz. Az EV-mintánál ez nem fordulhat elő, itt minden mintaelem kiválasztása függ az előzőekben kiválasztott elemektől, így a minta valahogy jobban megőrzi a teljes sokaság szerkezetét, a becslés pontosabb lesz, mint a FAE-minta esetén.

Az EV-mintának ez az előnye sajnos egyben hátránya is. Mivel a mintaelemek nem függetlenek, a korábban látott intervallumbecslések itt csak részben működnek.

Ha a minta elemszáma viszonylag nagy, a mintaátlagok és az arány jóindulattal közelítőleg normális eloszlású. Kis módosítással tehát korábban kapott eredményeink működnek. Gond a sokasági szórással van, ennek becslése ugyanis sokkal bonyolultabbá válik, vizsgálatától így eltekintünk. Szintén nem marad érvényben a t-eloszlással kapott becslésünk arra az esetre, amikor a sokasági szórás nem ismert. A korábbi négy képletből tehát kettő maradt:

A képletekben megjelenő faktor

Ha a teljes sokaság a minta elemszámához képest nagy ( ), akkor

Ilyenkor, tehát a megjelenő faktor éppen 1, vagyis az EV-mintákra vonatkozó képlet lényegében megegyezik a FAE-mintákra vonatkozó korábbi képletekkel.

Ha a teljes sokaság a minta elemszámához képest kisebb, akkor ez a faktor egy nulla és egy közti szám. Nézzük meg például azt az esetet, amikor mondjuk . Ez azt jelenti, hogy a teljes sokaság minden századik elemét beválogattuk a mintába. Ekkor

A konfidencia intervallum hossza és ezáltal a becslés bizonytalansága a FAE-mintához képest 0,995-szeresére csökken.

Ha vagyis a teljes sokaság minden tizedik elemét beválogatjuk a mintába

A konfidencia intervallum hossza és ezáltal a becslés bizonytalansága a FAE-mintához képest 0,95-szeresére csökken.

Végül szélsőséges esetben, ha vagyis a teljes sokaság minden elemét beválogatjuk a mintába

A konfidencia intervallum hossza és ezáltal a becslés bizonytalansága a FAE-mintához képest 0-ra csökken.

Egy napilap olvasóinak átlagéletkorát szeretnénk megbecsülni. A lapot átlagosan naponta 10 ezren vásárolják, a közel reprezentatívnak tekinthető EV-minta 500 elemű.

életkor

Válaszolók száma

20-39

57

40-59

318

60-79

125

Össz:

500

Adjunk becslést 95%-os konfidencia szinten a napilapot vásárlók átlagéletkorára, illetve a 40 év alatti vásárlók arányára.

A minta adatai alapján az átlagéletkor:

és a szórás

A minta viszonylag nagy elemszáma miatt a jó közelítéssel megegyezik a teljes sokaság szórásával.

0,95 így és

= 52,72

= 500

= 10 000

A konfidencia intervallum

A napilap olvasóinak átlagéletkora 95%-os megbízhatósági szinten:

A 40 év alatti olvasók arányának becslése a minta alapján 57/500=0,114 ami 11,4%.

A konfidencia szint ezúttal is 95%-os.

0,95 így és

0,114

500

= 10 000

A konfidencia intervallum

A 40 év alatti olvasók aránya tehát 8,7% és 14% között van.

Rétegzett minták

Mivel a teljes sokaság, amiből mintánkat vesszük általában heterogén, ez a heterogenitás magában a mintában is jelen van, ami megnöveli a becslés varianciáját, vagyis rontja a becslés pontosságát. Ha azonban a teljes sokaságot felosztjuk viszonylag homogén rétegekre, és a mintát is ezen a rétegek szerint vizsgáljuk, a variancia csökkenthető.

TELJES SOKASÁG

MINTA

SOKASÁGI

RÉTEG

ELEMSZÁM

ÁTLAG

SZÓRÁS

MINTABELI

RÉTEG

ELEMSZÁM

ÁTLAG

SZÓRÁS

A sokasági átlag az M darab sokasági réteg részátlagainak súlyozott átlaga:

A sokasági átlag pontbecslését úgy kapjuk, hogy az egyes mintabeli rétegek átlagait súlyozzuk, de a teljes sokaság rétegeinek elemszámával. Világos, hogy a pontos elemszámok helyett jóval hasznosabb az egyes rétegeknek a teljes sokasághoz viszonyított mérete. Ezt jelöljük W-vel.

A konfidencia intervallum ekkor

ahol itt a minta rétegeinek szórása

Nézzünk meg egy példát.

Egy város három kerületében 250 000, 320 000 és 180 000 lakos él. Adjunk becslést 90%-os konfidenciaszinten a naponta átlagosan utazással töltött időre az alábbi rétegzett minta alapján:

megkérdezettek

száma

átlag

(perc)

szórás

(perc)

A RÉTEGEK NÉPESSÉGE

1. kerület

180

75

28

250 000

2. kerület

220

54

19

320 000

3. kerület

100

43

10

180 000

ÖSSZ.

500

750 000

A mintanagyság a teljes sokasághoz képest olyan kicsi, hogy

ekkor pedig lényegében egy.

A konfidenciaszint pedig 90%, tehát és ekkor

Kétmintás becslések

A kétmintás becslésekre akkor van szükség, amikor két sokaság valamilyen paraméterét, leginkább az átlagát szeretnénk összehasonlítani, például két ország lakosainak átlagjövedelmét szeretnénk minta alapján becsléssel összehasonlítani. De kétmintás becslés az is, ha néhány olyan vállalat, ami mindkét országban jelen van, egyik és másik országban fizetett átlagbéreit szeretnénk összehasonlítani.

A kétmintás becslések lehetnek független mintás becslések vagy páros mintás becslések.

Páros minták esetében létezik valamilyen hozzárendelés az egyik sokaság elemei és a másik sokaság elemei között és ez a mintában is megőrződik. Ilyen például, ha nők és férfiak átlagkeresetének vizsgálatához házaspárokat vizsgálunk, vagy ha két ország jövedelmi viszonyainak vizsgálatához olyan cégek átlagbéreit vesszük, amelyek mindkét országban jelen vannak.

Független mintás becsléseknél ilyen megfeleltetés a két sokaság elemei közt nincs, vagy ha van, a minta elemeire már nem öröklődik. Míg a páros minták elemszáma a párosítás miatt mindig megegyezik, addig független minták esetében ez nem feltétlen van így.

Ha mindkét sokaság közel normális eloszlású, akkor az átlagok különbségének becslésére a következő formula van forgalomban.

Egy üzemben több gépen töltenek 75 ml-es tubusokba fogkrémet, a tubusokba töltött fogkrém mennyisége normális eloszlású. Hasonlítsuk össze az átlagosan a tubusokba töltött fogkrém mennyiségét 90%-os konfidenciaszinten, ha a két gépről az alábbi 12 elemű minták állnak rendelkezésre:

Egyik gép

76

71

75

74

76

76

74

75

77

75

75

75

Másik gép

75

75

74

77

73

73

76

77

76

73

75

74

A két sokaságból egymástól függetlenül vett két minta alapján szeretnénk összehasonlítani az átlagokat.

A konfidenciaszint így

A szabadságfok =12+12-2=22

Az eltérés tehát 90%-os konfidenciaszinten 0 ml és 1,12 ml között van.

7.1. Egy vasúttársaság nagysebességű járatain az utasok száma lényegében normális eloszlású. Adjunk becslést az utasok átlagos számára 90%-os konfidenciaszinten, ha 10 megvizsgált járaton az utasok száma: 360; 453; 467; 451; 487; 491; 390; 512; 488; 495.

A vonaton 480 ülőhely van. Adjunk becslést, arra, hogy az esetek hány százalékában fordul elő, hogy van ülőhely nélküli utas. (a konfidenciaszint legyen 90%)

Az átlag intervallumbecsléséhez először kiszámoljuk az átlagot.

A sokasági szórást nem ismerjük, úgyhogy itt alighanem t-eloszlásra lesz szükség.

A minta szórása:

A konfidenciaszint amiből

kiszámoljuk, hogy

, ez a minta átlaga

, ez a minta elemszáma,

, ez a minta szórása.

A konfidencia intervallum tehát

Kikeressük a t-eloszlás táblázatából a

0,95-höz tartozó t értéket, a

szabadságfok v=n-1=9

Ekkor becslésünk:

Az utasok átlagos száma tehát 431,2 és 487,6 között van 90%-os konfidenciaszinten.

A vonaton 480 ülőhely van. Adjunk becslést, arra, hogy az esetek hány százalékában fordul elő, hogy van ülőhely nélküli utas. A mintában öt esetben nagyobb az utasok száma 480-nál, tehát p=0,5

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az -höz tartozó Z-t

A kapott becslés alapján 90%-os konfidenciaszinten 24% és 76% közötti azon esetek részaránya, amikor van legalább egy ülőhely nélküli utas.

7.2. Egy bankfiókban a sorra kerülésig eltelt idő lényegében normális eloszlású. Adjunk becslést az átlagos várakozási időre 95%-os konfidenciaszinten az alábbi minta alapján:

5; 12; 4; 7; 6; 8; 4; 3; 2; 5

Az 5 percnél hosszabb várakozást a bank vezetősége nem díjazza, és ezt igyekszik alkalmazottjai tudomására hozni. A minta alapján adjunk becslést, hogy az ügyfelek hány százalékánál haladja meg a várakozási idő az 5 percet.

Az átlag intervallumbecsléséhez először kiszámoljuk az átlagot.

A sokasági szórást nem ismerjük, úgyhogy itt alighanem t-eloszlásra lesz szükség.

A minta szórása:

A konfidenciaszint amiből

kiszámoljuk, hogy

, ez a minta átlaga

, ez a minta elemszáma,

, ez a minta szórása.

A konfidencia intervallum tehát

Kikeressük a t-eloszlás táblázatából a 0,975-höz tartozó t értéket, a

szabadságfok v=n-1=9

Ekkor becslésünk:

Az átlagos várakozási idő tehát 3,6 és 7,6 perc között van.

Adjunk becslést az 5 percen felüli várakozási idő részarányára. A 10 esetből 4-szer fordul elő 5 percnél nagyobb várakozási idő, így p=0,4.

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az -höz tartozó Z-értéket

A kapott becslés alapján 95%-os konfidenciaszinten 10% és 70% között van az 5 percnél többet várakozók részaránya.

7.3. Egy múzeum látogatóinak átlagéletkorát szeretnénk megbecsülni.

A megkérdezett 30 ember megoszlása:

életkor

látogatók

száma

10-29

5

30-49

13

50-69

12

Össz.

30

Adjunk becslést 0,95-ös konfidenciaszinten a múzeum látogatóinak átlagéletkorára és az 50 év alatti látogatók %-os arányára.

A minta átlaga

A minta szórása pedig

Először az átlagot becsüljük meg a 0,95

konfidencia szinthez tartozó konfidencia intervallummal.

tehát

A konfidencia intervallum

Keressük meg a 0,975-höz tartozó t-értéket.

A szabadsági fok n-1=29.

A kapott t-érték 2,04.

A látogatók átlagos életkora tehát 95%-os konfidenciaszinten 39,3 és 50,1 év közé esik.

Térjünk rá az 50 év alattiak

arányának becslésére.

A mintában 18-an 50 év alattiak, ami a

30 fős mintának 60%-a.

Az arány becslésben tehát p=0,6 a konfidencia szint ugyanúgy 0,95.

Nézzük ki kicsoda.

, amiből alighanem így

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az 0,975-höz tartozó Z értéket

Az 50 év alattiak aránya 95%-os konfidencia szinten 43% és 77% közé esik.

7.4. Egy étteremben felmérést készítettek arról, hogy a vendégek átlagosan mennyi időt töltenek náluk. A 40 megfigyelt vendég adatai:

Az étteremben

eltöltött idő (perc)

vendégek

száma

0-29

4

30-59

12

60-89

18

90-119

6

Össz.

40

Adjunk becslést 0,95-ös konfidenciaszinten az étteremben átlagosan eltöltött időre és a másfél óránál tovább maradók részarányára.

Mekkora mintára lenne szükség, ha ugyanezen a konfidenciaszinten az átlag hibáját felére akarjuk csökkenteni?

Mekkora mintára van szükség, ha az eredeti hiba mellett, de 99%-os konfidenciaszintet szeretnénk biztosítani?

A minta átlaga

A minta szórása pedig

Először az átlagot becsüljük meg a 0,95

konfidencia szinthez tartozó konfidencia intervallummal.

tehát

A konfidencia intervallum

Keressük meg a 0,975-höz tartozó t-értéket.

A szabadsági fok n-1=39.

A kapott t-érték 2,02.

A vendégek tehát 95%-os konfidenciaszinten átlagosan 56,23 és 72,77 közötti percet töltenek az étteremben.

Térjünk rá a másfél óránál tovább maradók részarányának becslésére.

A mintában 6-an vannak, akik 90 percnél több időt töltenek az étteremben.

A részarány tehát a minta alapján p=0,15 vagyis 15%.

A konfidencia szint ugyanúgy 0,95.

Lássuk a részleteket.

, amiből alighanem

így

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az 0,975-höz tartozó Z értéket

A másfél óránál tovább maradók részaránya tehát valahol 4% és 26% között van.

Az átlag becslésének hibája 8,27. Ha ugyanezen konfidenciaszinten fele akkora hibát szeretnénk, lássuk csak 8,27 fele 4,135 tehát

Mivel pedig ahogy ez korábban kiderült

Ebből n-et előbányásszuk:

160 fős mintára van tehát szükség.

Ha az eredeti 8,27-es hibával, de 99%-os konfidenciaszintet szeretnénk, akkor

tehát és így

7.5. Korábbi felmérések alapján valamelyik egyetemi előadás átlagos látogatottsága 98 fő, a szórás pedig 34 fő. Egy új felmérés készítését tervezik, hogy kiderüljön, van-e olyan rossz az előadás, hogy elegendő legyen 100 fős előadóban tartani. Hány előadás létszámát kell megvizsgálni, hogy az átlagos létszám becslésének hibája 10 főnél kisebb legyen 90%-os konfidenciaszinten?

A becslés FAE mintából történik és, mivel ismert a szórás, ezt a képletet használjuk, hogy

A becslés hibája és a kérdésből úgy tűnik, hogy alighanem n-et keressük.

A konfidenciaszint , így és .

Azt szeretnénk, hogy a hiba legyen 10 főnél kisebb. Ezt úgy fogjuk megoldani, hogy megnézzük mi van akkor, amikor a hiba pont 10, aztán majd meglátjuk mi lesz a helyzet akkor, amikor 10-nél kisebb.

vagyis

Lássuk csak, , kikeressük az ehhez tartozó Z-értéket.

Beszorzunk

ekkor tehát n=31,47.

Ha azt szeretnénk, hogy a hiba éppen 10 legyen, akkor n=31,47 tehát ennyi előadást kell megvizsgálni, ha pedig azt szeretnénk, hogy a hiba 10-nél kisebb legyen, akkor többet. A minta elemszáma tehát legalább 32 kell, hogy legyen.

7.6. Egy utazási iroda opcionálisan meghirdetett városnéző túrája minimum 35 fő esetén indul el. A csoport 70 főből áll és 40-en már nyilatkoztak, közülük 28-an mutatnak hajlandóságot városnézésre. 90%-os konfidenciaszinten kijelenthetjük-e, hogy lesz csoportos városnézés?

Akkor lesz csoportos városnézés, ha a 70 fős csoportból akad legalább 35 tisztességes turista, aki hajlandóságot mutat várostnézni.

A jelek szerint tehát 50%-os érdeklődés mellett lesz városnézés.

A megkérdezett 40 emberből 28-an éreznek leküzdhetetlen vágyat városnézés iránt, ami

tehát 70%. Ez a 40 ember egy 40 fős minta, amiből következtethetünk a teljes csoport szándékaira. 90%-os konfidenciaszinten az alábbi becslés adható a teljes csoport városnézési hajlandóságára:

A minta elemszáma n=40

a minta alapján

a konfidenciaszint pedig

vagyis .

Ekkor a konfidencia intervallum

tehát

Keressük ki a 0,975-höz tartozó Z-értéket:

A városnézési hajlandóság tehát 95%-os szignifikanciaszinten 58% és 82% között van, ami 50% feletti, tehát 0,9-es konfidenciaszinten kijelenthetjük, hogy lesz városnézés.

7.7. Egy mozi felmérést készít látogatóinak életkorával kapcsolatban. A mozilátogatók életkora tekinthető normális eloszlásúnak. A 400 fős minta eredménye:

életkor

nézők

száma

0-10

7

11-20

132

21-40

157

41-60

104

össz

400

Adjunk becslést 95%-os megbízhatósággal az átlagos életkorra, szórásra és a 20 évnél idősebb nézők részarányára. Hány embert kéne megkérdezni, ha ugyanekkora hibával, de 99%-os megbízhatóságot szeretnénk?

A minta átlaga

A minta szórása pedig

Először az átlagot becsüljük meg a 0,95

konfidencia szinthez tartozó konfidencia intervallummal.

tehát

A konfidencia intervallum

Keressük meg a 0,975-höz tartozó t-értéket.

A szabadsági fok n-1=399, ami olyan nagy, hogy benne sincs a táblázatban. A minta nagy elemszáma miatt Z-eloszlást használunk..

A látogatók átlagos életkora tehát 95%-os konfidenciaszinten 28,45 és 31,15 közé esik.

Az átlag becslésének hibája 1,35 év. Ha ugyanekkora hibával 99%-os megbízhatóságot szeretnénk, akkor így . A nagy elemszám miatt Z-eloszlást használunk.

tehát

amiből és n=692,53, vagyis legalább 693 embert kell megkérdezni.

Térjünk rá a 20 évnél idősebb nézők részarányának kérdésére.

A mintában 261-en vannak, akik 20 évnél idősebbek.

A részarány tehát a minta alapján p=0,6525 vagyis kb. 65%.

A konfidencia szint ugyanúgy 0,95.

, amiből alighanem

így

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az 0,975-höz tartozó Z értéket

A 20 éven felüliek részaránya tehát 0,6058 és 0,6992 között van.

7.8. A naponta átlagosan háztartási tevékenységgel töltött időt szeretnénk megbecsülni. A becsléshez rétegzett mintát vettünk, a rétegképző ismérv az volt, hogy a megkérdezett nő-e vagy férfi. A nők és férfiak részaránya egyezőnek tekinthető.

megkérdezettek

száma

átlag

(perc)

szórás

(perc)

180

74

28

férfi

120

32

19

Adjunk 90%-os megbízhatóságú becslést az átlagosan háztartási tevékenységgel töltött időre.

A mintanagyság a teljes sokasághoz képest olyan kicsi, hogy

ekkor pedig lényegében egy.

A konfidenciaszint pedig 90%, tehát és ekkor

A naponta átlagosan háztartási munkával töltött idő 90%-os konfidenciaszinten 50 perc és 56 perc közé esik.

7.9. Egy város három kerületében 250 000, 320 000 és 180 000 lakos él. Adjunk becslést 95%-os konfidenciaszinten a naponta átlagosan utazással töltött időre az alábbi rétegzett minta alapján:

megkérdezettek

száma

átlag

(perc)

szórás

(perc)

1. kerület

180

75

28

2. kerület

220

54

19

3. kerület

100

43

10

Kiegészítjük a táblázatot:

megkérdezettek

száma

átlag

(perc)

szórás

(perc)

A RÉTEGEK NÉPESSÉGE

1. kerület

180

75

28

250 000

2. kerület

220

54

19

320 000

3. kerület

100

43

10

180 000

ÖSSZ.

500

750 000

A mintanagyság a teljes sokasághoz képest olyan kicsi, hogy

ekkor pedig lényegében egy.

A konfidenciaszint pedig 90%, tehát és ekkor

7.10. Egy gyümölcslé rosttartalmára szeretnénk becslést adni 30 elemű FAE-minta alapján. A minta eredménye:

Rosttartalom

(%)

elemszám

0-1,9

17

2-3,9

9

4-5,9

4

Össz.

30

Adjunk becslést 0,95-ös konfidenciaszinten az átlagos rosttartalomra.

Legfeljebb a gyümölcslevek hány százaléka rendelkezhet 4%-nál nagyobb rosttartalommal 95%-os konfidenciaszinten?

A minta átlaga

A minta szórása pedig

Először az átlagot becsüljük meg a 0,95

konfidencia szinthez tartozó konfidencia intervallummal.

tehát

A konfidencia intervallum

Keressük meg a 0,975-höz tartozó t-értéket.

A szabadsági fok n-1=29.

A kapott t-érték 2,04.

Az átlagos rosttartalom 1,588% és 2,672% közé esik.

A 4%-nál nagyobb rosttartalom a mintában

vagyis 13,3%

Az arány becslésben tehát p=0,133 a konfidencia szint ugyanúgy 0,95.

Nézzük ki kicsoda.

, amiből alighanem így

A gyökös izét kiszámoljuk

Kikeressük a standard normális eloszlás táblázatból az 0,975-höz tartozó Z értéket

A 4%-nál nagyobb rosttartalom 95%-os konfidencia szinten 1,15% és 25,45% közé esik, vagyis legfeljebb a gyümölcslevek 25,4%-a tartalmaz 4%-nál nagyobb rostanyagot.

 

Átlag, arány, variancia intervallum- becslése

05
Hopsz, úgy tűnik nem vagy belépve, pedig itt olyan érdekes dolgokat találsz, mint például:

Statisztikai becslések, pontbecslés, intervallumbecslés, standard hiba, mintavételi hiba, nemmintavételi hiba, FAE-minta, EV-minta,rétegzett minta, többlépcsős minta, torzítatlanság, minimális variancia elve, konfidencia szint, konfidencia tartomány, sokasági átlag becslése, sokasági arány becslése, sokasági variancia.