Valszám és stat alapok epizód tartalma:

Asszociációs kapcsolat, vegyes kapcsolat, korrelációs kapcsolat, ismérvek függetlensége, khi-négyzet, Cramer-mutató, Csuprov-mutató, Yule-mutató, külső szórás, belső szórás, teljes szórás, külső eltérés-négyzetösszeg, belső eltérés-négyzetösszeg, teljes eltérés-négyzetösszeg, H-mutató, PRE, szórásnégyzet hányados, lineáris korrelációs együttható.

A képsor tartalma

KÉT ISMÉRV SZERINTI ELEMZÉS

Ebben a fejezetben azzal fogunk foglalkozni, hogy ha egy sokaságot két ismérv szerint is vizsgálunk, milyen kapcsolat adódhat ezen ismérvek között. Milyen erős összefüggés van például a nemzetiség és a terrorizmusra való hajlandóság vagy a matematikai szövegek olvasásával eltöltött idő és az ásítások száma között.

Ezek mind roppant izgalmas kérdések, mielőtt azonban minderre rátérnénk, először elevenítsük föl az ismérvek típusait.

A két ismérv szerinti elemzésnél az egyik ismérv is lehet minőségi vagy mennyiségi, meg a másik is, ami három különböző esetet jelent, egy vegyes esetet, amikor az egyik ilyen, másik olyan meg két nem, vegyes esetet. Ezeken kívül még egy negyedik eset is fölbukkan, de azzal csak említés szintjén foglalkozunk majd. A három eset tehát a következő négy:

1. Mindkét ismérv minőségi: ASSZOCIÁCIÓS KAPCSOLAT

2. Az egyik ismérv minőségi, a másik mennyiségi: VEGYES KAPCSOLAT

3. Mindkét ismérv mennyiségi: KORRELÁCIÓS KAPCSOLAT

4. Mindkét ismérv sorrendi: RANGKORRELÁCIÓS KAPCSOLAT

Két ismérv szerinti elemzésnél az eddig látott szokásos statisztikai mutatók kiszámolásán túl a két ismérv között fellelhető kapcsolatot fogjuk vizsgálni.

Azt, hogy milyen szoros kapcsolat van az ismérvek között, mindegyik esetben más módszerrel vizsgáljuk majd, de az eredmény mindig háromféle lehet: nincs kapcsolat, kicsit van kapcsolat és marhára van kapcsolat. A három esetet úgy hívjuk, hogy független, sztochasztikus és függvényszerű.

Mit jelentenek ezek? Nézzünk egy példát!

Egy cégnél felmérést készítettünk az alkalmazottak neme és munkabére szerinti megoszlásáról.

A két ismérv akkor független, ha a nők és a férfiak fizetésük szerinti megoszlása egyforma.

Ez azt jelenti, hogy darabra ugyan lehet, hogy nem egyezik meg a két oszlop, de százalékosan igen. A nőknek ugyanannyi százaléka keres max 400 EUR-t, mint a férfiaknak, ugyanannyi százalék keres 401-800 között, mint a férfiak stb.

Vagyis 50% keres max 400-at, 30% keres 401-800 között függetlenül attól, hogy nő-e vagy férfi.

A nő-férfi helyett lehetne magyar-svájci vagy buszsofőr-bankár, bármi ami részekre darabolja a teljes sokaságot. Ezeket hívjuk feltételes megoszlásnak, míg az egészet feltétel nélküli megoszlásnak. Most két feltételes megoszlás van, a női és a férfi feltételes megoszlás. A harmadik oszlop, a „total” pedig a feltétel nélküli megoszlás.

A két ismérv akkor független, ha minden feltételes megoszlás egyforma és megegyezik a feltétel nélküli megoszlással.

A két ismérv között függvényszerű kapcsolat van, ha nem minden feltételes megoszlás egyforma, de minden feltételes eloszlás szórása nulla.

A táblázat tehát valami ilyesmi:

Havi bruttó

jövedelem

(EUR)

Férfi

Total

0-400

10

0

10

401-800

0

30

30

801-1200

0

0

0

Total

10

30

40

Függvényszerű kapcsolatnál az egyik ismérv ismeretében a másik egyértelműen kitalálható. Ha valakiről tudjuk, hogy jövedelme 300 EUR, akkor az tuti biztos, hogy nő, ha valaki férfi, tuti biztos, hogy 401-800 között keres.

A két ismérv kapcsolata akkor függvényszerű, ha nem minden feltételes megoszlás egyforma de a feltételes megoszlások szórása nulla.

Ha a két ismérv közötti kapcsolat nem független és nem is függvényszerű, akkor sztochasztikus kapcsolatról beszélünk. Kicsit összefüggnek ugyan az adatok, de olyan nagyon azért nem. Íme a táblázat:

Havi bruttó

jövedelem

(EUR)

Férfi

Total

0-400

6

8

14

401-800

3

10

13

801-1200

1

12

13

Total

10

30

40

A feltételes megoszlások különböznek, a nők inkább kevesebb, a férfiak inkább több bért kapnak. Vagyis attól, hogy valaki nő,

1) várhatóan szarabb fizetést kap (nem független a kapcsolat)

2) de azért megeshet, hogy sokat kap (nem függvényszerű a kapcsolat)

A két ismérv kapcsolata akkor sztochasztikus, ha nem minden feltételes megoszlás egyforma de a feltételes megoszlások szórása nem mind nulla.

Asszociációs kapcsolat

Vegyük az iménti példánkat, egy cég alkalmazottjainak megoszlását neme és beosztása szerint. A táblázatban szereplő mindkét ismérv minőségi, ezért itt nincs értelme sem átlagot sem szórást, sem egyéb statisztikai mutatót számolni.

Mi az, amit tehát ilyenkor számolhatunk?

Nos ez általában a Cramer-féle asszociációs együttható, amely arra való, hogy ilyen esetekben – tehát amikor mindkét ismérv minőségi – rávilágítson a két ismérv közötti kapcsolat szorosságára. Most éppen arra, hogy vajon milyen szoros kapcsolat van az alkalmazottak neme és munkaköre között, vagyis igaz-e, hogy a nők kapják a szarabb állásokat. Íme a táblázat:

Férfi

Total

Vezető

7

18

25

Közép-

vezető

11

23

34

Beosztott

756

185

941

Total

774

226

1000

Ezt a táblázatot kombinációs táblának nevezzük, a táblázat általános sémája a következő:

Total

Total

N

Az első oszlop elemei, amint látjuk aztán és így tovább az általános tag ami közös bennük az az, hogy a második indexe mindegyiknek 1-es.

Az oszlop alján összegezzük őket, az összeg ami azt jelenti, hogy ez azoknak az elemeknek az összege, ahol a második index 1, az első index pedig tökmindegy, hogy mi, ezt hivatott jelezni a jel.

Aztán a második oszlopban tökugyanez a helyzet, az oszlopban lévő elemek alatta és így tovább, összegük pedig .

Ugyanez megy a sorokra is, az első sor elemei aztán és így tovább, itt az elemek első indexe egyezik meg, mindegyiknek 1-es, összegüket pedig úgy jelöljük, hogy .

A Cramer-féle együttható kiszámolásához szükségünk van egy fura állatfajtára, ami majd stat2-ben – ha ugye megérjük – lesz igazán izgalmas.

Nos ez a fura állatfajta a .

Azt a felső kis kettest úgy mondjuk, hogy négyzet, ami meg hát alatta van, az egy görög betű, ő a khí. Ezt a dolgot tehát úgy hívják, hogy khí négyzet.

Kiszámolása roppant barátságos.

A képletben látható a táblázatunkban szereplő számok, például vagy és így tovább. Ami izgalmasabb, az . Ehhez előbb egy kis mese.

És itt kerül képbe , amit a következőképpen számolunk ki:

Ez azt jelenti, hogy megegyezik a csillag nélküli -vel, ha a két ismérv független, és tökmás, ha a két ismérv nem független. Legjobb lesz, ha megnézzük ezt a konkrét példánkon.

A jelek szerint tehát a két ismérv – a beosztás és a nem – marhára nem független. Számoljuk ki ezt a bizonyos khí-négyzetet!

vagyis össze kell adogatni ezeket a törteket a táblázat minden mezőjére. Most 3X2-es táblázatunk van, tehát 6db ilyet adunk össze:

Most, hogy kiderült, a Cramer-együttható kiszámolása már csak pillanatok kérdése.

Cramer-féle asszociációs együttható

Itt az ott pedig azt jelenti, hogy r-1 és c-1 közül a minimális, ahol r=a táblázat sorainak száma és c=a táblázat oszlopainak száma.

Itt éppen 3 sor van tehát r-1=3-1=2 és 2 oszlop van, így c-1=2-1=1, ezek közül pedig a kisebbik 1. Vagyis a Cramer-mutató:

Vegyes kapcsolat

Ebben az esetben már van értelme átlagot, szórást és egyéb mutatókat számolni, de csak az egyik ismérv, a mennyiségi ismérv szerint. Vegyük például egy cég dolgozóinak megoszlását a dolgozók neme és fizetése alapján. Itt a dolgozók neme nyilvánvalóan minőségi, fizetésük nagysága pedig mennyiségi ismérv. Elsőként számoljuk ki az átlagot és a szórást.

Havi bruttó

jövedelem

(EUR)

Férfi

Total

0-400

60

90

150

401-800

30

30

60

801-1200

10

30

40

Total

100

150

250

Átlagot a mennyiségi ismérv szerint tudunk számolni, ami most a dolgozók bére. Az átlagos bért kiszámolhatjuk külön-külön a női és férfi dolgozókra, ezeket hívjuk részátlagnak, és kiszámolhatjuk az összes dolgozóra, ennek neve főátlag.

Nők bérének részátlaga:

Itt az osztályközepeket a női dolgozók darabszámaival súlyozzuk.

Férfiak bérének részátlaga:

Itt az osztályközepeket férfi dolgozók darabszámaival súlyozzuk.

A főátlagot kétféleképpen is kiszámolhatjuk.

Térjünk rá a szórások kiszámolására. Ha még emlékszünk rá, a szórás azt méri, hogy az egyes elemek – most a dolgozók bérei – mekkora mértékben térnek el az átlagostól. Mivel most többféle átlagunk is van, szórásból is többféle lesz. Ez rossz hírnek tűnik, de semmi ok az aggodalomra.

A belső szórás kiszámolására két módszerünk lesz. Az egyik a jó módszer, a másik a rossz. Mindkettő a helyes eredményt adja, csak nem ugyanakkora szenvedések árán. Kezdjük a jó módszerrel.

A jó módszer lényege, hogy a szórást kiszámoljuk minden rész-sokaságra, mostani példánkban külön a nőkre és külön a férfiakra. Ezeket a szórásokat rész-szórásnak hívjuk.

Most két rész-szórás van:

A rész-szórásokból úgy lesz belső szórás, hogy súlyozzuk őket a rész-sokaságok számával.

A rossz módszer abban különbözik az előzőtől, hogy a belső szórást ömlesztve számoljuk, vagyis

Az eredmény így is úgy is ugyanaz:

A külső szórás a részátlagok főátlagtól való eltérését méri, ennek kiszámolása már-már szórakoztató:

A teljes szórás az egész sokaság szórását jelenti, vagyis ha nem bontjuk föl a sokaságot úgy, hogy nő/férfi vagy szép/ronda, tehát nem bontjuk föl részsokaságokra. Példánkban tehát 0-400 EUR bére 150 embernek van és tökmindegy, hogy nő vagy férfi. 400-800 EUR között 60 ember 800-1200 EUR között 40 ember:

A háromféle szórásra mindig teljesül a összefüggés.

Ha időnk engedi, érdemes tehát mindhárom szórást kiszámolni és megnézni, hogy valóban kijön-e a .

Ha ugyanis nem, akkor nagy baj van.

Ugyanez az összefüggés a szórások helyett leírható egy másik állatfajtával is, aminek neve eltérés-négyzetösszeg. Az eltérés-négyzetösszeg olyan szórás, ahol elfelejtettünk gyököt vonni.

Az eltérés-négyzetösszeget ugyanúgy számoljuk ki, ahogyan a szórást, csak nem vonunk gyököt és nem osztunk az elemszámmal. Ezért hívjuk eltérés-négyzetösszegnek, merthogy az eltérések négyzeteit adjuk össze.

Példánkban mondjuk a teljes szórás

a teljes eltérés-négyzetöszeg pedig

A menü tehát a következő:

Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE eljárással fogjuk megvizsgálni. A PRE egy rövidítés, Proportional Reduction Errors, ami relatív hibacsökkenésnek fordítható. Az eljárás lényege, hogy a PRE érték kiszámolásával megállapítható, az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.

Esetünkben az X azt jelenti, hogy férfi vagy nő, Y pedig a munkabér nagyságát. A PRE eljárással azt állapítjuk meg, hogy ha tudjuk valakiről, hogy férfi-e vagy nő, akkor hány százalékkal csökken a munkabére nagyságával kapcsolatos bizonytalanság.

Világos, hogy ha PRE=0, akkor ez a bizonytalanság egyáltalán nem csökken, tökmindegy, hogy valaki férfi vagy nő, ugyanakkora marad a bizonytalanság, ez pedig azt jelenti, hogy a két ismérv független.

Ha PRE=0 akkor a két ismérv független

Ha PRE=1 akkor a bizonytalanság 100%-al csökken, vagyis az alapján, hogy valaki férfi-e vagy nő, egészen pontosan meg tudjuk mondani mekkora a munkabére. Ilyenkor a két ismérv között függvényszerű kapcsolat van.

Ha PRE=1 akkor a két ismérv közt függvényszerű kapcsolat van.

Ha pedig PRE értéke valahol nulla és egy között van, akkor a kapcsolat nem független és nem is függvényszerű, tehát sztochasztikus.

A relatív hibacsökkenés vagyis a PRE kiszámolására a következő képlet van forgalomban:

Amint látszik marha sok lehetőségünk van a PRE kiszámolására, számolhatjuk az SS-ből is vagy ha valakiben ez félelmet kelt, akkor a szórásokból. Hasznos mindenesetre megjegyezni a fenti összefüggéseket, meg azt, hogy:

Amikor a két ismérv független

Amikor a két ismérv kapcsolata függvényszerű

Példánkban

Tehát

Ami azt jelenti, hogy 0,4%-al csökkenti a munkabér nagyságának bizonytalanságát, ha tudjuk az illető nemét.

Korrelációs kapcsolat

Ebben az esetben is tudunk átlagot, szórást és egyéb mutatókat számolni, ráadásul mindkét ismérv szerint. Példának vegyük, mondjuk Európa néhány országának megoszlását az egy főre jutó GDP és a gépkocsival rendelkező lakosok száma szerint.

ország

X

GDP/fő

(EUR)

Y

Gépkocsik száma

(db/1000 fő)

Ausztria AT

28 978

496

Belgium BE

30 349

447

Csehország CZ

15 216

362

Franciaország FR

26 656

465

Görögország GR

17 941

245

Hollandia NL

28 669

388

Lengyelország PL

10 135

259

Magyarország HU

13 767

235

Németország DE

28 232

517

Svájc CH

31 987

486

Elsőként itt is kiszámoljuk az átlagot meg a szórást, aztán elmorfondírozunk azon, vajon milyen szoros kapcsolat van a két ismérv között. Logikusnak tűnik, hogy minél nagyobb egy országban az egy főre jutó GDP, annál több embernek van kocsija, így várhatóan viszonylag szoros lesz a kapcsolat.

Az X ismérv szerinti átlag a jó öreg általános iskolás módszer: összeadogatjuk szépen a GDP-ket aztán elosztjuk 10-el, merthogy 10 ország van a listánkon.

Hasonlóan komoly kihívás Y átlaga:

Most jöhetnek a szórások. Itt mindjárt jön egy jó hír, de előbb számoljuk ki. Nem hülyeség a szórásokhoz először az úgynevezett eltérés-négyzetösszegeket kiszámolni, aminek jele . Az imént kapott átlagot minden ország GDP-jéből kivonjuk, aztán ezt négyzetre emeljük és összeadogatjuk őket. Csipetnyi fűszerrel ízesítjük és citromlevéllel tálaljuk:

Ekkor a szórás:

Tökugyanezt megcsináljuk Y-ra is.

A szórás pedig

Végül itt jön még egy izgalmas dolog.

Számoljuk ki ezt is.

Térjünk rá a két ismérv közötti kapcsolat vizsgálatára.

Korrelációs kapcsolat esetén a legnagyobb a választék a különböző mutatókból és együtthatókból.

Az egyik legfontosabb – és jó hír, hogy ezt már meg is tudjuk mondani – a lineáris korrelációs együttható.

Ennek jele r, és a következőképpen kapjuk:

Számoljuk is ki:

A lineáris korrelációs együttható azt méri, hogy X és Y között milyen szoros lineáris kapcsolat van. Értéke mindig . Ha akkor X és Y között függvényszerű lineáris kapcsolat van, ha akkor nincs lineáris kapcsolat. De ettől másfajta kapcsolat még lehet, tehát esetén X és Y nem biztos, hogy független.

Most, a kijött 0,871-es érték egész magas, vagyis X és Y között már-már lineáris kapcsolat mutatható ki. Ezt mindjárt meg is nézzük.

Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete, annak kiderítésére, hogy az X értékek hány százalékban magyarázzák meg az Y-ra adódó értékeket.

Vagyis az értéke azt adja meg, hogy a X ismerete hány százalékkal csökkenti az Y nagyságával kapcsolatos bizonytalanságot. Most éppen tehát ami elég sok: X ismerete 75,8%-al csökkenti az Y nagyságával kapcsolatos bizonytalanságot.

Most térjünk vissza X és Y kapcsolatának vizsgálatára. A korreláció 0,871, ami viszonylag nagy, tehát kapcsolatuk lineáris szerű. Ez azt jelenti, hogy ha ábrázoljuk egy koordinátarendszerben az országokat, ahol az X tengelyen az egy főre jutó GDP-t, míg az Y-on az 1000 főre jutó gépkocsik számát mérjük, akkor azok nagyjából egy egyenes mentén helyezkednek el. Nézzük meg!

Ezt képzeletbeli egyenest regressziós egyenesnek nevezzük, és mindjárt meg is határozzuk. A regressziós egyenes egyenlete:

Lássuk, hogy ki kicsoda.

A pedig úgy jön ki, hogy az egyenletben helyére Y átlagát, helyére pedig X átlagát helyettesítjük. Ha valakinek jobban tetszik, megjegyezhető a képlet is, de az előbbi gondolatmenet sokkal szemléletesebb.

Nézzük meg a regressziós egyenest!

Ekkor

amibe X és Y átlagait helyettesítve

és ebből jön ki .

A regressziós egyenes tehát

A betűk fölé tett kis háztetők nem dekorációs célokat szolgálnak, hanem becslésen alapuló értékeket jelölnek. A regressziós egyenes egyenletében X felett nincs kalap, vagyis X tényleges érték, míg Y csak becsült. Ezt úgy kell értenünk, hogy ha

X=15 216 ami történetesen Csehország, akkor Y becsült értéke . A tényleges Y Csehország esetében Y=362. A tényleges érték a csehek esetében nagyobb, mint a becsült, így Csehország a trend-vonal felett van. Ha rápillantunk az ábrára, valóban. Számoljuk most ki a becsült értéket Görögországra is. A görögöknél X=17 941 így . A tényleges Y viszont csak Y=245, így a görögök a trend-vonal alatt vannak.

A regressziós egyenesen kívül létezik egy úgynevezett empirikus regressziós függvény is. A jobb szemléltetés érdekében ehhez alakítsuk át egy kicsit a táblázatunkat. Osszuk föl az egy főre jutó GDP és az ezer főre jutó gépkocsi számot is osztályközökre, például háromra.

1000 emberre Y

jutó gépkocsik

Total

Egy főre

jutó GDP

X

(ezer EUR)

0-249

250-499

500-749

10-19

2

2

0

4

20-29

0

3

1

4

30-39

0

2

0

1

Total

2

7

1

10

Ahogyan korábban a vegyes kapcsolat esetében, itt is megtehetjük, hogy az egyik ismérvet csak osztályozásra használjuk és a másik szerint számítunk átlagot, szórást meg ilyeneket. Legyen most az Y ismérv az, amit csak osztályozásra használunk. Ekkor X-nek az Y szerinti empirikus regressziós függvényét úgy kapjuk, ha minden Y osztályban kiszámoljuk X részátlagát.

Ezt ábrázolhatjuk egy koordinátarendszerben.

Ha mindezt fordítva csináljuk, és X-et használjuk osztályozásra, Y szerint pedig átlagokat számolunk, akkor az Y-nak X szerinti empirikus regressziós függvényét kapjuk.

Ezt is berajzoljuk a koordinátarendszerbe.

Az empirikus regressziós függvény nem képes kimutatni, hogy a két ismérv közötti kapcsolat sztochasztikus-e vagy függvényszerű. Ehhez vagy a már korábban látott lineáris korrelációs együtthatóra van szükségünk, vagy kiszámolhatjuk az úgynevezett determinációs hányadost.

X-nek az Y-ra vonatkozó determinációs hányadosa

Y-nak az X-re vonatkozó determinációs hányadosa

Fontos megjegyezni, hogy ha X és Y között sztochasztikus a kapcsolat,

általában . Számoljuk ki, és nézzük meg mi a helyzet most.

Hasonlóan izgalmas körülmények között kapjuk, hogy

Empirikus regressziós függvényt és determinációs hányadost is azonban csak akkor célszerű számolni, ha a megfigyelt sokaság elég nagy ahhoz, hogy az X és Y szerint képzett részsokaságok mindegyikében egynél több – lehetőleg minél több – elem van. Ha ez nem teljesül, a kapott eredmények gyakran lehetnek félrevezetők. Jelenleg is ez a helyzet például mindkét empirikus regressziós függvénnyel. A narancs színű például azt sejteti, hogy a GDP növekedésével a gépkocsik száma egyre meredekebben emelkedik, de ez egyáltalán nincs így.

A kék ezzel ellentétesen azt mutatja, hogy a GDP növekedésével visszaesés van a gépkocsik számában, ami szintén hamisnak bizonyul.

3.1. A népesség legmagasabb iskolai végzettségük és nemük szerinti megoszlása reprezentatív felmérés alapján 2001-ben Magyarországon az alábbi volt.

Legmagasabb

iskolai végzettség

Férfi

Total

8 általános

vagy kevesebb

84

82

166

Érettségi, vagy

szakiskolai

1892

2055

3947

Felsőfokú

586

561

1147

Total

2562

2698

5260

Állapítsuk meg, a nem és az iskolai végzettség közötti kapcsolat szorosságát.

A kapcsolat szorosságát a Cramer-féle együtthatóval fogjuk vizsgálni.

Ehhez szükségünk van a -re, aminek kiszámolása roppant barátságos.

Ehhez előállítjuk -okat, amit a következőképpen számolunk ki:

A jelek szerint tehát a két ismérv – a nem és az iskolai végzettség – nem független. Számoljuk ki ezt a bizonyos khí-négyzetet!

Most, hogy kiderült, a Cramer-együttható kiszámolása már csak pillanatok kérdése.

Cramer-féle asszociációs együttható

Itt és r=a táblázat sorainak száma és c=a táblázat oszlopainak száma. Itt éppen 3 sor van tehát r-1=3-1=2 és 2 oszlop van, így c-1=2-1=1, ezek közül pedig a kisebbik 1. Vagyis a Cramer-mutató:

3.2. A következő táblázat egy város szállodáinak ár és besorolás szerinti megoszlását tartalmazza. Elemezzük az ismérvek közti kapcsolatot.

Szálloda típusa

Total

Árak

(EUR/fő/éj)

**

***

****

0-50

37

8

1

46

51-100

15

40

3

58

101-150

10

33

12

55

151-200

4

22

15

41

Total

66

103

31

200

Először kiszámoljuk az átlagokat.

A ** szállodák árának átlaga

A *** szállodák árának átlaga

A **** szállodák árának átlaga

A főátlagot kétféleképpen is kiszámolhatjuk.

Térjünk rá a szórások kiszámolására.

A háromféle szórásra mindig teljesül a összefüggés.

Ha időnk engedi, érdemes tehát mindhárom szórást kiszámolni és megnézni, hogy valóban kijön-e a .

Ha ugyanis nem, akkor nagy baj van.

Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE (Proportional Reduction Errors ) eljárással fogjuk megvizsgálni, ami azt adja meg, hogy az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.

Tehát

Ami azt jelenti, hogy 29%-al csökkenti a szálloda árának bizonytalanságát, ha tudjuk, hogy hány csillagos.

Nem hülyeség azonban megjegyezni, hogy a PRE kiszámolásához elegendő a háromféle szórásból mindössze kettő is. Mivel a legkellemetlenebb a belső szórás kiszámolása, érdemes azt mellőzni, és csak a másik kettőt kiszámolni. Ha persze maga a feladat igényli a belső szórás kiszámolását, akkor sajna nem ússzuk meg.

Szintén érdemes megjegyezni, hogy a PRE kiszámolható szórások helyett az eltérés-négyzetösszegek segítségével, amiket egy hangyányival könnyebben megkapunk.

3.3. Néhány ország középfokú iskolai képzésének egy diákra jutó oktatási ráfordítása illetve az éves egy főre jutó GDP adatai láthatók az alábbi táblázatban. Állapítsuk meg a két ismérv közti kapcsolat szorosságát, adjuk meg a regressziós egyenest.

ország

X

GDP/fő

(EUR)

Y

Oktatási ráfordítás

(Középfokú képzés diák/EUR)

Ausztria AT

28 978

76 900

Belgium BE

30 349

61 000

Csehország CZ

15 216

33 800

Franciaország FR

26 656

57 600

Görögország GR

17 941

59 200

Hollandia NL

28 669

61 500

Lengyelország PL

10 135

30 700

Magyarország HU

13 767

33 000

Németország DE

28 232

65 300

Svájc CH

31 987

60 400

Elsőként kiszámoljuk az átlagokat. Az X ismérv szerinti átlag a jó öreg általános iskolás módszer: összeadogatjuk szépen a GDP-ket aztán elosztjuk 10-el, merthogy 10 ország van a listánkon.

Valahogyan megbirkózunk Y átlagával is:

Most jöhetnek a szórások. Nem hülyeség a szórásokhoz először az úgynevezett eltérés-négyzetösszegeket kiszámolni, aminek jele .

Ekkor a szórás:

Tökugyanezt megcsináljuk Y-ra is.

A szórás pedig

Végül itt jön még egy izgalmas dolog.

Számoljuk ki ezt is.

Térjünk rá a két ismérv közötti kapcsolat vizsgálatára.

Először kiszámoljuk a lineáris korrelációs együtthatót, aztán felírjuk a regressziós egyenes egyenletét.

Számoljuk ki. A hozzávalókat itt gyűjtjük ebben a dobozban.

A lineáris korrelációs együttható azt méri, hogy X és Y között milyen szoros lineáris kapcsolat van. Értéke mindig . Ha akkor X és Y között függvényszerű lineáris kapcsolat van, ha akkor nincs lineáris kapcsolat. De ettől másfajta kapcsolat még lehet. A most kijött 0,866-os érték egész magas, vagyis X és Y között már-már lineáris kapcsolat mutatható ki. Ezt mindjárt meg is nézzük.

Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete, annak kiderítésére, hogy az X értékek hány százalékban magyarázzák meg az Y-ra adódó értékeket.

Vagyis az értéke azt adja meg, hogy a X ismerete hány százalékkal csökkenti az Y nagyságával kapcsolatos bizonytalanságot. Most éppen tehát ami elég sok: X ismerete 75%-al csökkenti az Y nagyságával kapcsolatos bizonytalanságot.

Térjünk rá a regressziós egyenesre! A regressziós egyenes egyenlete

ahol

a pedig úgy jön ki, hogy az egyenletben helyére Y átlagát, helyére pedig X átlagát helyettesítjük.

Jelenleg

Ekkor

amibe X és Y átlagait helyettesítve

és ebből jön ki .

A regressziós egyenes tehát

A betűk fölé tett kis háztetők becslésen alapuló értékeket jelölnek. A regressziós egyenes egyenletében X felett nincs kalap, vagyis X tényleges érték, míg Y csak becsült. Ezt úgy kell értenünk, hogy ha X=28 978 ami történetesen Ausztria éves egy főre jutó GDP-je, akkor Y becsült értéke vagyis elvileg ennyit kéne költeni a trend szerint minden középiskolásra, de az osztrákok biztosra mennek, mert a tényleges Y esetükben Y=76 900. Ausztria így a trend-vonal felett van. Ha rápillantunk az ábrára, valóban. Számoljuk most ki a becsült értéket Magyarországra is.

Ekkor X=13 767 így . A tényleges Y viszont csak Y=33 000, így a trend-vonal alatt vagyunk.

3.4. Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:

Alkalmazottak

száma (%)

Bruttó jövedelem

(USD)

átlag

szórás

56

2000

510

Férfi

44

2500

360

Összesen

100

Hány százalékban magyarázza meg a nem a bruttó jövedelem szórását?

Milyen szoros a kapcsolat a nem és a kereset között?

Elsőként nézzük meg az összes dolgozó átlagbérét.

Ez alighanem egy súlyozott átlag:

Most pedig szükségünk van a különböző szórásokra.

Lássuk csak melyik szórást tudjuk kiszámolni. A részátlagoknak a főátlagtól való eltérését adja meg a külső szórás:

A belső szórást pedig megkapjuk a rész-szórásokból:

A teljes szórás ekkor vagyis

A kapcsolat szorossága:

A nem 23,3%-ban magyarázza meg a kereset nagyságát.

A kapcsolat szorossága vagyis a közepesnél gyengébb.

3.5. Egy 40 lakásos társasház átlagos napi gázfogyasztása a téli időszakban a lakások szobáinak száma szerint a következő

Szobák száma

Total

Fogyasztás

(köbméter)

1

2

3

3

4

1

-

5

4

8

2

-

10

5

2

7

2

11

6

-

10

4

14

Total

14

20

6

40

Adjuk meg az átlagos napi gázfogyasztást az egyes szobaszámok esetén. Jellemezzük a lakások szobaszáma és a napi gázfogyasztás közötti összefüggést a H érték kiszámolásával.

Először kiszámoljuk az átlagokat.

1 szobás lakás napi átlaga

2 szobás lakás napi átlaga

3 szobás lakás napi átlaga

A főátlagot kétféleképpen is kiszámolhatjuk.

Térjünk rá a szórások kiszámolására.

Ugyanez az összefüggés a szórások helyett leírható az eltérés-négyzetösszeg segítségével is.

Emlékeztetőül a menü tehát a következő:

Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE eljárással fogjuk megvizsgálni. A PRE érték kiszámolásával megállapítható, az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.

Most éppen

Tehát

Ami azt jelenti, hogy 50%-al csökkenti a napi gázfogyasztás nagyságának bizonytalan-ságát, ha tudjuk a lakás szobáinak a számát.

3.6. A következő táblázat néhány ország egy főre jutó GDP adatait illetve a nők első házasságkötésük kori életkorát tartalmazza. Állapítsuk meg a két ismérv közti kapcsolat szorosságát, adjuk meg a regressziós egyenest.

ország

X

GDP/fő

(EUR)

Y

Nők életkora

házasságkötéskor

Ausztria AT

28 978

26,6

Belgium BE

30 349

29,8

Csehország CZ

15 216

28,9

Franciaország FR

26 656

31,6

Görögország GR

17 941

26,9

Hollandia NL

28 669

26,9

Lengyelország PL

10 135

25,3

Magyarország HU

13 767

29,7

Németország DE

28 232

31

Svájc CH

31 987

29,4

Ismeretes, hogy

Elsőként kiszámoljuk az átlagokat. Az X ismérv szerinti átlag a jó öreg általános iskolás módszer: összeadogatjuk szépen a GDP-ket aztán elosztjuk 10-el, merthogy 10 ország van a listánkon.

Valahogyan megbirkózunk Y átlagával is:

Most jöhetnek a szórások. Szerencsére meg van adva, hogy ezért a szórás már meg is van:

Mázlink van Y-nal is:

Végül itt van még ez is:

Térjünk rá a két ismérv közötti kapcsolat vizsgálatára.

Először kiszámoljuk a lineáris korrelációs együtthatót, aztán felírjuk a regressziós egyenes egyenletét.

A lineáris korrelációs együttható azt méri, hogy X és Y között milyen szoros lineáris kapcsolat van. Értéke mindig . Ha akkor X és Y között függvényszerű lineáris kapcsolat van, ha akkor nincs lineáris kapcsolat. De ettől másfajta kapcsolat még lehet. A most kijött 0,3765 érték alacsony, vagyis X és Y között nem túl szoros kapcsolat van.

Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete, annak kiderítésére, hogy az X értékek hány százalékban magyarázzák meg az Y-ra adódó értékeket.

Vagyis az értéke azt adja meg, hogy a X ismerete hány százalékkal csökkenti az Y nagyságával kapcsolatos bizonytalanságot. Most éppen tehát vagyis X ismerete 14%-al csökkenti az Y nagyságával kapcsolatos bizonytalanságot.

Térjünk rá a regressziós egyenesre! A regressziós egyenes egyenlete

ahol

a pedig úgy jön ki, hogy az egyenletben helyére Y átlagát, helyére pedig X átlagát helyettesítjük.

Jelenleg

Ekkor

amibe X és Y átlagait helyettesítve

és ebből jön ki .

A regressziós egyenes tehát

3.7. Egy város lakosairól készült felmérés alapján az alábbi adatok álnak rendelkezésre:

Alkalmazottak

száma (ezer fő)

Bruttó jövedelem

(USD)

átlag

szórás

Pénzügyi szféra

120

2000

520

Szolgáltatói szféra

140

1500

340

Állami szféra

90

1000

210

Termelői szféra

130

980

220

Összesen

480

Mekkora a felsorolt szektorok átlagbére? Mekkora a szórás? Egy lakos foglalkozása hány százalékban magyarázza bruttó jövedelmének nagyságát?

Először a főátlagot. A részátlagokat súlyozzuk az alkalmazottak számával:

Térjünk rá a szórások kiszámolására.

Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk.

A belső szórás tehát

Ha a részátlagoknak nézzük a főátlagtól való eltérését,

az a külső szórás.

Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését,

az a teljes szórás. Ezt most csak úgy tudjuk kiszámolni, hogy a háromféle szórásra mindig teljesül a összefüggés.

Így hát

Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE (Proportional Reduction Errors ) eljárással fogjuk megvizsgálni, ami azt adja meg, hogy az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.

Tehát

Ami azt jelenti, hogy egy lakos foglalkozásának ismerete 58%-al csökkenti a bruttó jövedelmének nagyságával kapcsolatos bizonytalanságot.

3.8. Egy kábelgyárban megvizsgálták a 150 dolgozó neme és iskolai végzettsége közötti kapcsolatot. Az alábbi adatokat kapták:

A dolgozók 80%-a férfi.

A férfiak 15%-a szakképzett, míg 25%-uk csak 8 általánost végzett.

A szakképzettek közül minden harmadik nő.

A gimnáziumi végzettségűekre teljesül a függetlenség feltétele.

Adjuk meg az iskolai végzettség és nem szerinti megoszlást. Jellemezzük a kapcsolat szorosságát.

Mindkét ismérv minőségi, így kombinációs, más néven kontingencia táblát fogunk kapni.

Az egyik ismérv a férfi-nő, a másik a végzettség:

férfi

össz

8 általános

30

3

33

Gimnáziumi

72

18

90

Szakképzett

18

9

27

össz

120

30

150

Ha a dolgozók 80%-a férfi, akkor férfi és így 30 nő dolgozik az üzemben.

A férfiak 15%-a szakképzett, ami és 25%-uk 8 általánost végzett, ami 30.

A többiek végzettsége gimnáziumi.

A szakképzettek közül minden harmadik nő, vagyis kétszer annyi férfi van. Mivel pedig 18 férfi van, alighanem 9 nő.

A gimnáziumi végzettségűekre teljesül a függetlenség, ami azt jelenti, hogy a férfi-nő arány a teljes sokaságban ugyanolyan, mint a gimnáziumot végzettek körében. A teljes sokaságban a férfiak aránya 80%, így akkor a gimnáziumi végzettségűek körében is. Az összes gimnáziumi végzettségű x db, akkor tehát x=90. A nők száma így 18.

A táblázattal megvolnánk, térjünk rá a kapcsolat szorosságának vizsgálatára.

A Cramer-mutatót és a Csuprov-mutatót számoljuk ki.

Csináljunk egy táblázatot.

Cramer-mutató:

Csuprov-mutató:

A két ismérv között gyenge kapcsolat van.

3.9. Egy városban a családi házban lakók átlagosan 80 percet, míg a társasházban lakók 72 percet töltenek naponta utazással. Milyen szoros a kapcsolat a lakás típusa és az utazással eltöltött idő között, ha minden ötödik lakos családi házban lakik és az összes lakos utazással töltött idejének szórása az átlag 10%-a?

Rész-

Sokaságok

Rész-

arány

átlag

Családi ház

20%

80

társasház

80%

72

össz

100%

73,6

Az átlagosan utazással töltött idő:

A teljes szórás az átlag 10%-a vagyis 7,36

A külső szórás a részátlagoknak a főátlagtól való eltérését méri, vagyis:

A kapcsolat szorossága:

A lakás típusa 19%-ban magyarázza meg az utazással eltöltött idő nagyságát.

3.10 A népesség legmagasabb iskolai végzettsége és munkája szerinti megoszlása egy 1000 fős reprezentatív felmérés alapján az alábbi volt.

Legmagasabb

iskolai végzettség

Munka típusa

Total

Nehéz

Fizikai

Könnyű

fizikai

Szellemi

8 általános

92

23

10

125

Érettségi, vagy

47

280

163

490

Felsőfokú

6

74

305

385

Total

145

377

478

1000

a)Adjuk meg a peremeloszlások alapján a munka típusa és az iskolai végzettség közötti kapcsolat eloszlását abban az esetben, ha a két ismérv független lenne.

b)Állapítsuk meg, a munka típusa és az iskolai végzettség közötti kapcsolat szorosságát.

Először előállítjuk -okat, amit a következőképpen számolunk ki:

Most térjünk rá a két ismérv közötti kapcsolat szorosságának vizsgálatára.

Így, hogy végre kiderült, a Cramer-együttható kiszámolása már tulajdonképpen szórakoztató:

A Csuprov-féle asszociációs együttható most ugyanazt az értéket adja:

3.11. Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:

Nők

Férfiak

Kifizetett

összes bér

(USD)

Átlagbér

(USD)

Létszám

(fő)

Átlagbér

(USD)

47 040

840

78

960

Az egyes dolgozók keresete átlagosan 25%-al tér el az összes dolgozó átlagkeresetétől.

Hány százalékban magyarázza meg a nem a kereset szórását?

Milyen szoros a kapcsolat a nem és a kereset között?

Számoljuk ki, hogy hány nő van. Ehhez a kifizetett összes bért osztjuk az átlagbérrel:

Most, hogy ez kiderült, nézzük meg az összes dolgozó átlagbérét.

Ez egy nagyon bonyolult súlyozott átlag:

A teljes szórás az átlag 25%-a vagyis

Lássuk csak melyik szórást tudjuk még kiszámolni. A belső szórás a tényleges fizetések részátlagoktól való eltérése. A tényleges fizetéseket viszont sajnálatosan nem tudjuk.

A külső szórás a részátlagoknak a főátlagtól való eltérését méri, na ez viszont jónak tűnik:

A kapcsolat szorossága:

A nem 6,77%-ban magyarázza meg a kereset nagyságát.

A kapcsolat szorossága vagyis gyenge.

3.12. A következő táblázat egy cég alkalmazottainak havi béreit tartalmazza három országban. Elemezzük az ismérvek közti kapcsolatot.

Ország

Total

Bérek

(EUR)

DE

AT

HU

500-699

5

40

120

165

700-899

10

110

530

650

900-1099

70

650

230

950

1100-

12

150

15

177

Total

95

950

895

1940

Először kiszámoljuk az átlagokat.

A német dolgozók bérének átlaga

Az osztrák dolgozók bérének átlaga

A magyar dolgozók bérének átlaga

A főátlagot kétféleképpen is kiszámolhatjuk.

Térjünk rá a szórások kiszámolására.

Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE (Proportional Reduction Errors ) eljárással fogjuk megvizsgálni, ami azt adja meg, hogy az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.

Tehát

Ami azt jelenti, hogy 27%-al csökkenti az alkalmazottak bérének bizonytalanságát, ha tudjuk, hogy melyik országban dolgozik.

A PRE kiszámolásához egyébként elegendő, ha a háromféle szórásból csak kettőt számolunk ki. Mivel a legkellemetlenebb a belső szórás, érdemes azt mellőzni, és csak a másik kettőt kiszámolni. Ha persze maga a feladat igényli a belső szórás kiszámolását, akkor sajna nem ússzuk meg.

Szintén érdemes megjegyezni, hogy a PRE kiszámolható szórások helyett az eltérés-négyzetösszegek segítségével, amiket egy hangyányival könnyebben megkapunk.

3.13. Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:

Az nők és férfiak keresete átlagosan 14 euróval tér el a nők és férfiak átlagkeresetétől, míg a az összes dolgozó keresete 12%-al tér el az összes dolgozó 240 eurós átlagkeresetétől.

Hány százalékban magyarázza meg a nem a kereset szórását?

Milyen szoros a kapcsolat a nem és a kereset között?

A nők és férfiak keresetének a részátlagoktól való eltérése a belső szórás.

Az összes dolgozó keresetének eltérése a főátlagtól a teljes szórás, ami az átlag 12%-a, tehát:

Most, hogy megvan a belső szórás és a teljes szórás:

Tehát

A nem 76,4%-ban magyarázza meg a kereset nagyságát.

 

KÉT ISMÉRV KÖZTI KAPCSOLAT

01
Itt jön egy fantasztikus
Valszám és stat alapok epizód.

Hozzászólások

Még nincs hozzászólás. Legyél Te az első!