Két ismérv szerinti elemzés

1. A népesség legmagasabb iskolai végzettségük és nemük szerinti megoszlása reprezentatív felmérés alapján 2001-ben Magyarországon az alábbi volt.

Legmagasabb iskolai végzettség Férfi Total
8 általános vagy kevesebb 84 82 166
Érettségi, vagy Szakiskolai 1892 2055 3947
Felsőfokú 586 561 1147
Total 2562 2698 5260

Állapítsuk meg, a nem és az iskolai végzettség közötti kapcsolat szorosságát.

Megnézem, hogyan kell megoldani


2. A következő táblázat egy város szállodáinak ár és besorolás szerinti megoszlását tartalmazza. Elemezzük az ismérvek közti kapcsolatot.

Árak

(EUR/fő/éj)

 

Szálloda típusa Total
** *** ****
0-50 37 8 1 46
51-100 15 40 3 58
101-150 10 33 12 55
151-200 4 22 15 41
Total 66 103 31 200

Számoljuk ki az átlagot és a szórást

Megnézem, hogyan kell megoldani


3. Néhány ország középfokú iskolai képzésének egy diákra jutó oktatási ráfordítása, illetve az éves egy főre jutó GDP adatai láthatók az alábbi táblázatban. Állapítsuk meg a két ismérv közti kapcsolat szorosságát, adjuk meg a regressziós egyenest.

ország  

X

GDP/fő (EUR)

Y

Gépkocsik száma (db/1000 fő)

Ausztria AT 28 978 496
Belgium BE 30 349 447
Csehország CZ 15 216 362
Franciaország FR 26 656 465
Görögország GR 17 941 245
Hollandia NL 28 669 388
Lengyelország PL 10 135 259
Magyarország HU 13 767 235
Németország DE 28 232 517
Svájc CH 31 987 486

Megnézem, hogyan kell megoldani

 
A témakör tartalma


KÉT ISMÉRV KÖZTI KAPCSOLAT

KÉT ISMÉRV SZERINTI ELEMZÉS

[Szövegdoboz: MINŐSÉGI Nominális (névleges) A sokaság elemeit valamilyen tulajdonságok szerinti csoportokba soroljuk, de a csoportok közt nincs semmiféle rangsor példák: az áldozatok halálának oka a terroristák nemzetisége Ordinális (sorrendi) A csoportok között már felállítható sorrendiség példák: a hotelek besorolása (** *** **** *****) a vizsgázók jegyei (1, 2, 3, 4, 5 ) MENNYISÉGI Intervallum A sokaság elemeit itt már valamilyen mértékegység szerint osztályozzuk, de csak a „mennyivel több?” kérdésre tudunk válaszolni, a „hányszoros?”-ra nem példák: hőmérséklet (tegnap -5 fok volt, ma 0 fok, hányszor melegebb van?) Arány Itt is mértékegység szerinti az osztályozás, de a „hányszoros?” kérdésre is tudunk válaszolni (mindig 0-tól kezdünk mérni) példák: életkor testmagasság] Ebben a fejezetben azzal fogunk foglalkozni, hogy ha egy sokaságot két ismérv szerint is vizsgálunk, milyen kapcsolat adódhat ezen ismérvek között. Milyen erős összefüggés van például a nemzetiség és a terrorizmusra való hajlandóság vagy a matematikai szövegek olvasásával eltöltött idő és az ásítások száma között.

Ezek mind roppant izgalmas kérdések, mielőtt azonban minderre rátérnénk, először elevenítsük föl az ismérvek típusait.

A két ismérv szerinti elemzésnél az egyik ismérv is lehet minőségi vagy mennyiségi, meg a másik is, ami három különböző esetet jelent, egy vegyes esetet, amikor az egyik ilyen, másik olyan meg két nem, vegyes esetet. Ezeken kívül még egy negyedik eset is fölbukkan, de azzal csak említés szintjén foglalkozunk majd. A három eset tehát a következő négy:

1. Mindkét ismérv minőségi: ASSZOCIÁCIÓS KAPCSOLAT

[Szövegdoboz: Például egy cég alkalmazottjainak megoszlása neme és beosztása szerint Nő Férfi Total Vezető 7 18 25 Közép- vezető 11 23 34 Beosztott 756 185 941 Total 774 226 1000 Az így létrejövő táblát kombinációs táblának nevezzük, a táblázatban szereplő összes számadat mennyiséget jelent, szórást, átlagot és egyéb mutatókat egyik ismérv szerint sem tudunk számolni, kivéve, ha a csoportokhoz számokat rendelünk (pl nő=2 férfi=1) de ezen mutatóknak ekkor sincs valós jelentése.]

2. Az egyik ismérv minőségi, a másik mennyiségi: VEGYES KAPCSOLAT

[Szövegdoboz: Például egy város szállodáinak megoszlása az éjszakák ára és a szállodák besorolása alapján Szálloda típusa Total Árak (EUR/fő/éj) ** *** **** 0-50 37 8 1 46 51-100 15 40 3 58 101-150 10 33 12 55 151-200 4 22 15 41 Total 66 103 31 200 A táblázatban szereplő összes adat mennyiséget jelent, szórást, átlagot és egyéb mutatókat csak egy ismérv – az árak – szerint tudunk számolni.]

3. Mindkét ismérv mennyiségi: KORRELÁCIÓS KAPCSOLAT

[Szövegdoboz: Európa tíz országának az egy főre jutó GDP-je és a gépkocsik számának megoszlása ország GDP/fő (EUR) Gépkocsik száma (db/1000 fő) Ausztria 28 978 496 Belgium 30 349 447 Csehország 15 216 362 Franciaország 26 656 466 Görögország 17 942 245 Hollandia 28 669 388 Lengyelország 10 132 259 Magyarország 13 767 236 Németország 28 231 517 Svájc 31 987 486 A táblázat mindkét oszlopa mennyiségi adat, mindkét ismérv szerint tudunk szórást, átlagot és egyéb mutatókat számolni.]

4. Mindkét ismérv sorrendi: RANGKORRELÁCIÓS KAPCSOLAT

[Szövegdoboz: Két társadalmi csoportot kérdeztünk meg, hogy 1-től 10-ig rangsorolják az alábbi országokat, az alapján, hogy mennyire szívesen nyaralnának ott. ország Egyik csoport Másik csoport Ausztria 10 2 Belgium 9 6 Csehország 4 7 Franciaország 3 3 Görögország 1 8 Hollandia 7 5 Lengyelország 2 9 Magyarország 6 10 Németország 5 4 Svájc 8 1]

Két ismérv szerinti elemzésnél az eddig látott szokásos statisztikai mutatók kiszámolásán túl a két ismérv között fellelhető kapcsolatot fogjuk vizsgálni.

Azt, hogy milyen szoros kapcsolat van az ismérvek között, mindegyik esetben más módszerrel vizsgáljuk majd, de az eredmény mindig háromféle lehet: nincs kapcsolat, kicsit van kapcsolat és marhára van kapcsolat. A három esetet úgy hívjuk, hogy független, sztochasztikus és függvényszerű.

Mit jelentenek ezek? Nézzünk egy példát!

Egy cégnél felmérést készítettünk az alkalmazottak neme és munkabére szerinti megoszlásáról.

A két ismérv akkor független, ha a nők és a férfiak fizetésük szerinti megoszlása egyforma.

[Szövegdoboz: Havi bruttó Jövedelem (EUR) Nő Férfi Total 0-400 5 15 20 401-800 3 9 12 801-1200 2 6 8 Total 10 30 40]

[Szövegdoboz: 50% 30% 20%]

Ez azt jelenti, hogy darabra ugyan lehet, hogy nem egyezik meg a két oszlop, de százalékosan igen. A nőknek ugyanannyi százaléka keres max 400 EUR-t, mint a férfiaknak, ugyanannyi százalék keres 401-800 között, mint a férfiak stb.

Vagyis 50% keres max 400-at, 30% keres 401-800 között függetlenül attól, hogy nő-e vagy férfi.

A nő-férfi helyett lehetne magyar-svájci vagy buszsofőr-bankár, bármi ami részekre darabolja a teljes sokaságot. Ezeket hívjuk feltételes megoszlásnak, míg az egészet feltétel nélküli megoszlásnak. Most két feltételes megoszlás van, a női és a férfi feltételes megoszlás. A harmadik oszlop, a „total” pedig a feltétel nélküli megoszlás.

A két ismérv akkor független, ha minden feltételes megoszlás egyforma és megegyezik a feltétel nélküli megoszlással.

A két ismérv között függvényszerű kapcsolat van, ha nem minden feltételes megoszlás egyforma, de minden feltételes eloszlás szórása nulla.

A táblázat tehát valami ilyesmi:

Havi bruttó

jövedelem

(EUR)

Férfi

Total

0-400

10

0

10

401-800

0

30

30

801-1200

0

0

0

Total

10

30

40

Függvényszerű kapcsolatnál az egyik ismérv ismeretében a másik egyértelműen kitalálható. Ha valakiről tudjuk, hogy jövedelme 300 EUR, akkor az tuti biztos, hogy nő, ha valaki férfi, tuti biztos, hogy 401-800 között keres.

A két ismérv kapcsolata akkor függvényszerű, ha nem minden feltételes megoszlás egyforma de a feltételes megoszlások szórása nulla.

Ha a két ismérv közötti kapcsolat nem független és nem is függvényszerű, akkor sztochasztikus kapcsolatról beszélünk. Kicsit összefüggnek ugyan az adatok, de olyan nagyon azért nem. Íme a táblázat:

Havi bruttó

jövedelem

(EUR)

Férfi

Total

0-400

6

8

14

401-800

3

10

13

801-1200

1

12

13

Total

10

30

40

A feltételes megoszlások különböznek, a nők inkább kevesebb, a férfiak inkább több bért kapnak. Vagyis attól, hogy valaki nő,

1) várhatóan szarabb fizetést kap (nem független a kapcsolat)

2) de azért megeshet, hogy sokat kap (nem függvényszerű a kapcsolat)

A két ismérv kapcsolata akkor sztochasztikus, ha nem minden feltételes megoszlás egyforma de a feltételes megoszlások szórása nem mind nulla.

Asszociációs kapcsolat

Vegyük az iménti példánkat, egy cég alkalmazottjainak megoszlását neme és beosztása szerint. A táblázatban szereplő mindkét ismérv minőségi, ezért itt nincs értelme sem átlagot sem szórást, sem egyéb statisztikai mutatót számolni.

Mi az, amit tehát ilyenkor számolhatunk?

Nos ez általában a Cramer-féle asszociációs együttható, amely arra való, hogy ilyen esetekben – tehát amikor mindkét ismérv minőségi – rávilágítson a két ismérv közötti kapcsolat szorosságára. Most éppen arra, hogy vajon milyen szoros kapcsolat van az alkalmazottak neme és munkaköre között, vagyis igaz-e, hogy a nők kapják a szarabb állásokat. Íme a táblázat:

Férfi

Total

Vezető

7

18

25

Közép-

vezető

11

23

34

Beosztott

756

185

941

Total

774

226

1000

Ezt a táblázatot kombinációs táblának nevezzük, a táblázat általános sémája a következő:

Total

Total

N

Az első oszlop elemei, amint látjuk  aztán  és így tovább az általános tag ami közös bennük az az, hogy a második indexe mindegyiknek 1-es.

Az oszlop alján összegezzük őket, az összeg  ami azt jelenti, hogy ez azoknak az elemeknek az összege, ahol a második index 1, az első index pedig tökmindegy, hogy mi, ezt hivatott jelezni a jel.

Aztán a második oszlopban tökugyanez a helyzet, az oszlopban lévő elemek alatta  és így tovább, összegük pedig .

Ugyanez megy a sorokra is, az első sor elemei  aztán  és így tovább, itt az elemek első indexe egyezik meg, mindegyiknek 1-es, összegüket pedig úgy jelöljük, hogy .

A Cramer-féle együttható kiszámolásához szükségünk van egy fura állatfajtára, ami majd stat2-ben – ha ugye megérjük – lesz igazán izgalmas.

Nos ez a fura állatfajta a .

Azt a felső kis kettest úgy mondjuk, hogy négyzet, ami meg hát alatta van, az egy görög betű, ő a khí. Ezt a dolgot tehát úgy hívják, hogy khí négyzet.

Kiszámolása roppant barátságos.

A képletben látható  a táblázatunkban szereplő számok, például  vagy  és így tovább. Ami izgalmasabb, az . Ehhez előbb egy kis mese.

[Szövegdoboz: Kis mese Ha emlékszünk rá, már volt róla szó, hogy két ismérv akkor független, ha minden feltételes eloszlás egyforma. Ha valakinek van kedve belegondolni, könnyen látszik, hogy ez a kombinációs táblák esetében mindig azt jelenti, hogy . Akinek nincs kedve belegondolni, az csak jegyezze meg: FÜGGETLEN =]

És itt kerül képbe , amit a következőképpen számolunk ki:

Ez azt jelenti, hogy  megegyezik a csillag nélküli -vel, ha a két ismérv független, és tökmás, ha a két ismérv nem független. Legjobb lesz, ha megnézzük ezt a konkrét példánkon.

[Szövegdoboz: és és és és és és]

[Szövegdoboz: A *-os táblázat ( ) Nő Férfi Total Vezető 19,35 5,65 25 Közép- vezető 26,316 7,684 34 Beosztott 728,334 212,666 941 Total 774 226 1000] [Szövegdoboz: A valódi táblázat ( ) Nő Férfi Total Vezető 7 18 25 Közép- vezető 11 23 34 Beosztott 756 185 941 Total 774 226 1000]

A jelek szerint tehát a két ismérv – a beosztás és a nem – marhára nem független. Számoljuk ki ezt a bizonyos khí-négyzetet!

 vagyis össze kell adogatni ezeket a  törteket a táblázat minden mezőjére. Most 3X2-es táblázatunk van, tehát 6db ilyet adunk össze:

Most, hogy kiderült,  a Cramer-együttható kiszámolása már csak pillanatok kérdése.

Cramer-féle asszociációs együttható

Itt    az ott pedig azt jelenti, hogy r-1 és c-1 közül a minimális, ahol r=a táblázat sorainak száma és c=a táblázat oszlopainak száma.

Itt éppen 3 sor van tehát r-1=3-1=2 és 2 oszlop van, így c-1=2-1=1, ezek közül pedig a kisebbik 1. Vagyis a Cramer-mutató:

Vegyes kapcsolat

Ebben az esetben már van értelme átlagot, szórást és egyéb mutatókat számolni, de csak az egyik ismérv, a mennyiségi ismérv szerint. Vegyük például egy cég dolgozóinak megoszlását a dolgozók neme és fizetése alapján. Itt a dolgozók neme nyilvánvalóan minőségi, fizetésük nagysága pedig mennyiségi ismérv. Elsőként számoljuk ki az átlagot és a szórást.

Havi bruttó

jövedelem

(EUR)

Férfi

Total

0-400

60

90

150

401-800

30

30

60

801-1200

10

30

40

Total

100

150

250

Átlagot a mennyiségi ismérv szerint tudunk számolni, ami most a dolgozók bére. Az átlagos bért kiszámolhatjuk külön-külön a női és férfi dolgozókra, ezeket hívjuk részátlagnak, és kiszámolhatjuk az összes dolgozóra, ennek neve főátlag.

Nők bérének részátlaga: 

Itt az osztályközepeket a női dolgozók darabszámaival súlyozzuk.

Férfiak bérének részátlaga:

Itt az osztályközepeket férfi dolgozók darabszámaival súlyozzuk.

A főátlagot kétféleképpen is kiszámolhatjuk.

[Szövegdoboz: Vagy a „total” oszlop alapján] [Szövegdoboz: Vagy a részátlagokat súlyozzuk a férfiak és a nők számával:]

Térjünk rá a szórások kiszámolására. Ha még emlékszünk rá, a szórás azt méri, hogy az egyes elemek – most a dolgozók bérei – mekkora mértékben térnek el az átlagostól. Mivel most többféle átlagunk is van, szórásból is többféle lesz. Ez rossz hírnek tűnik, de semmi ok az aggodalomra.

[Szövegdoboz: Havi bruttó jövedelem (EUR) Nő Férfi Total 0-400 60 90 150 401-800 30 30 60 801-1200 10 30 40 Total 100 150 250 Havi bruttó jövedelem (EUR) Nő Férfi Total 0-400 60 90 150 401-800 30 30 60 801-1200 10 30 40 Total 100 150 250 Havi bruttó jövedelem (EUR) Nő Férfi Total 0-400 60 90 150 401-800 30 30 60 801-1200 10 30 40 Total 100 150 250]

[Szövegdoboz: Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk. Ha ezeknek a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás. Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését, az a teljes szórás.]

A belső szórás kiszámolására két módszerünk lesz. Az egyik a jó módszer, a másik a rossz. Mindkettő a helyes eredményt adja, csak nem ugyanakkora szenvedések árán. Kezdjük a jó módszerrel.

A jó módszer lényege, hogy a szórást kiszámoljuk minden rész-sokaságra, mostani példánkban külön a nőkre és külön a férfiakra. Ezeket a szórásokat rész-szórásnak hívjuk.

Most két rész-szórás van:

A rész-szórásokból úgy lesz belső szórás, hogy súlyozzuk őket a rész-sokaságok számával.

A rossz módszer abban különbözik az előzőtől, hogy a belső szórást ömlesztve számoljuk, vagyis

[Szövegdoboz:]

Az eredmény így is úgy is ugyanaz:

A külső szórás a részátlagok főátlagtól való eltérését méri, ennek kiszámolása már-már szórakoztató:

A teljes szórás az egész sokaság szórását jelenti, vagyis ha nem bontjuk föl a sokaságot úgy, hogy nő/férfi vagy szép/ronda, tehát nem bontjuk föl részsokaságokra. Példánkban tehát 0-400 EUR bére 150 embernek van és tökmindegy, hogy nő vagy férfi. 400-800 EUR között 60 ember 800-1200 EUR között 40 ember:

A háromféle szórásra mindig teljesül a  összefüggés.

Ha időnk engedi, érdemes tehát mindhárom szórást kiszámolni és megnézni, hogy valóban kijön-e a .

Ha ugyanis nem, akkor nagy baj van.

Ugyanez az összefüggés a szórások helyett leírható egy másik állatfajtával is, aminek neve eltérés-négyzetösszeg. Az eltérés-négyzetösszeg olyan szórás, ahol elfelejtettünk gyököt vonni.

Az eltérés-négyzetösszeget ugyanúgy számoljuk ki, ahogyan a szórást, csak nem vonunk gyököt és nem osztunk az elemszámmal. Ezért hívjuk eltérés-négyzetösszegnek, merthogy az eltérések négyzeteit adjuk össze.

Példánkban mondjuk a teljes szórás

a teljes eltérés-négyzetöszeg pedig

A menü tehát a következő:

[Szövegdoboz: Külső eltérés-négyzetösszeg SSK (sum of squares külső)] [Szövegdoboz: Külső szórás azt adja meg, hogy a részátlagok átlagosan mennyivel térnek el a főátlagtól:] [Szövegdoboz: Belső eltérés-négyzetösszeg SSB (sum of squares belső)] [Szövegdoboz: Belső szórás azt adja meg, hogy az egyes elemek átlagosan mennyivel térnek el a saját részátlaguktól:] [Szövegdoboz: Teljes szórás azt adja meg, hogy az egyes elemek átlagosan mennyivel térnek el a főátlagtól:] [Szövegdoboz: Teljes eltérés-négyzetösszeg SST (sum of squares teljes)]

Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE eljárással fogjuk megvizsgálni. A PRE egy rövidítés, Proportional Reduction Errors, ami relatív hibacsökkenésnek fordítható. Az eljárás lényege, hogy a PRE érték kiszámolásával megállapítható, az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.

Esetünkben az X azt jelenti, hogy férfi vagy nő, Y pedig a munkabér nagyságát. A PRE eljárással azt állapítjuk meg, hogy ha tudjuk valakiről, hogy férfi-e vagy nő, akkor hány százalékkal csökken a munkabére nagyságával kapcsolatos bizonytalanság.

Világos, hogy ha PRE=0, akkor ez a bizonytalanság egyáltalán nem csökken, tökmindegy, hogy valaki férfi vagy nő, ugyanakkora marad a bizonytalanság, ez pedig azt jelenti, hogy a két ismérv független.

Ha PRE=0 akkor a két ismérv független

Ha PRE=1 akkor a bizonytalanság 100%-al csökken, vagyis az alapján, hogy valaki férfi-e vagy nő, egészen pontosan meg tudjuk mondani mekkora a munkabére. Ilyenkor a két ismérv között függvényszerű kapcsolat van.

Ha PRE=1 akkor a két ismérv közt függvényszerű kapcsolat van.

Ha pedig PRE értéke valahol nulla és egy között van, akkor a kapcsolat nem független és nem is függvényszerű, tehát sztochasztikus.

A relatív hibacsökkenés vagyis a PRE kiszámolására a következő képlet van forgalomban:

Amint látszik marha sok lehetőségünk van a PRE kiszámolására, számolhatjuk az SS-ből is vagy ha valakiben ez félelmet kelt, akkor a szórásokból. Hasznos mindenesetre megjegyezni a fenti összefüggéseket, meg azt, hogy:

Amikor a két ismérv független

Amikor a két ismérv kapcsolata függvényszerű

Példánkban

Tehát

Ami azt jelenti, hogy 0,4%-al csökkenti a munkabér nagyságának bizonytalanságát, ha tudjuk az illető nemét.

Korrelációs kapcsolat

Ebben az esetben is tudunk átlagot, szórást és egyéb mutatókat számolni, ráadásul mindkét ismérv szerint. Példának vegyük, mondjuk Európa néhány országának megoszlását az egy főre jutó GDP és a gépkocsival rendelkező lakosok száma szerint.

ország

X

GDP/fő

(EUR)

Y

Gépkocsik száma

(db/1000 fő)

Ausztria               AT 

28 978

496

Belgium               BE

30 349

447

Csehország          CZ

15 216

362

Franciaország       FR

26 656

465

Görögország         GR

17 941

245

Hollandia              NL

28 669

388

Lengyelország       PL

10 135

259

Magyarország       HU

13 767

235

Németország        DE

28 232

517

Svájc                   CH

31 987

486

Elsőként itt is kiszámoljuk az átlagot meg a szórást, aztán elmorfondírozunk azon, vajon milyen szoros kapcsolat van a két ismérv között. Logikusnak tűnik, hogy minél nagyobb egy országban az egy főre jutó GDP, annál több embernek van kocsija, így várhatóan viszonylag szoros lesz a kapcsolat.

Az X ismérv szerinti átlag a jó öreg általános iskolás módszer: összeadogatjuk szépen a GDP-ket aztán elosztjuk 10-el, merthogy 10 ország van a listánkon.

Hasonlóan komoly kihívás Y átlaga:

Most jöhetnek a szórások. Itt mindjárt jön egy jó hír, de előbb számoljuk ki. Nem hülyeség a szórásokhoz először az úgynevezett eltérés-négyzetösszegeket kiszámolni, aminek jele . Az imént kapott átlagot minden ország GDP-jéből kivonjuk, aztán ezt négyzetre emeljük és összeadogatjuk őket. Csipetnyi fűszerrel ízesítjük és citromlevéllel tálaljuk:

Ekkor a szórás:

Tökugyanezt megcsináljuk Y-ra is.

A szórás pedig

Végül itt jön még egy izgalmas dolog.

Számoljuk ki ezt is.

[Szövegdoboz: Jó hír, hogy a feladatok nagy részében nem kell sokat bajlódnunk a szórásokkal, mert a feladat szövegében előre megadják ezeket:]

Térjünk rá a két ismérv közötti kapcsolat vizsgálatára.

Korrelációs kapcsolat esetén a legnagyobb a választék a különböző mutatókból és együtthatókból.

Az egyik legfontosabb – és jó hír, hogy ezt már meg is tudjuk mondani – a lineáris korrelációs együttható.

Ennek jele r, és a következőképpen kapjuk:

Számoljuk is ki:

A lineáris korrelációs együttható azt méri, hogy X és Y között milyen szoros lineáris kapcsolat van. Értéke mindig . Ha  akkor X és Y között függvényszerű lineáris kapcsolat van, ha akkor nincs lineáris kapcsolat. De ettől másfajta kapcsolat még lehet, tehát  esetén X és Y nem biztos, hogy független.

Most, a kijött 0,871-es érték egész magas, vagyis X és Y között már-már lineáris kapcsolat mutatható ki. Ezt mindjárt meg is nézzük.

Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete,  annak kiderítésére, hogy az X értékek hány százalékban magyarázzák meg az Y-ra adódó értékeket.

Vagyis az  értéke azt adja meg, hogy a X ismerete hány százalékkal csökkenti az Y nagyságával kapcsolatos bizonytalanságot. Most éppen  tehát  ami elég sok: X ismerete 75,8%-al csökkenti az Y nagyságával kapcsolatos bizonytalanságot.

Most térjünk vissza X és Y kapcsolatának vizsgálatára. A korreláció 0,871, ami viszonylag nagy, tehát kapcsolatuk lineáris szerű. Ez azt jelenti, hogy ha ábrázoljuk egy koordinátarendszerben az országokat, ahol az X tengelyen az egy főre jutó GDP-t, míg az Y-on az 1000 főre jutó gépkocsik számát mérjük, akkor azok nagyjából egy egyenes mentén helyezkednek el. Nézzük meg!

Ezt képzeletbeli egyenest regressziós egyenesnek nevezzük, és mindjárt meg is határozzuk. A regressziós egyenes egyenlete:

Lássuk, hogy ki kicsoda.

A  pedig úgy jön ki, hogy az  egyenletben  helyére Y átlagát,  helyére pedig X átlagát helyettesítjük. Ha valakinek jobban tetszik, megjegyezhető a  képlet is, de az előbbi gondolatmenet sokkal szemléletesebb.

Nézzük meg a regressziós egyenest!

Ekkor

amibe X és Y átlagait helyettesítve

és ebből jön ki .

A regressziós egyenes tehát

A betűk fölé tett kis háztetők nem dekorációs célokat szolgálnak, hanem becslésen alapuló értékeket jelölnek. A regressziós egyenes egyenletében X felett nincs kalap, vagyis X tényleges érték, míg Y csak becsült. Ezt úgy kell értenünk, hogy ha

X=15 216 ami történetesen Csehország, akkor Y becsült értéke . A tényleges Y Csehország esetében Y=362. A tényleges érték a csehek esetében nagyobb, mint a becsült, így Csehország a trend-vonal felett van. Ha rápillantunk az ábrára, valóban. Számoljuk most ki a becsült értéket Görögországra is. A görögöknél X=17 941 így . A tényleges Y viszont csak Y=245, így a görögök a trend-vonal alatt vannak.

A regressziós egyenesen kívül létezik egy úgynevezett empirikus regressziós függvény is. A jobb szemléltetés érdekében ehhez alakítsuk át egy kicsit a táblázatunkat. Osszuk föl az egy főre jutó GDP és az ezer főre jutó gépkocsi számot is osztályközökre, például háromra.

1000 emberre           Y

jutó gépkocsik

Total

Egy főre

jutó GDP

X

(ezer EUR)

0-249

250-499

500-749

10-19

2

2

0

4

20-29

0

3

1

4

30-39

0

2

0

1

Total

2

7

1

10

Ahogyan korábban a vegyes kapcsolat esetében, itt is megtehetjük, hogy az egyik ismérvet csak osztályozásra használjuk és a másik szerint számítunk átlagot, szórást meg ilyeneket. Legyen most az Y ismérv az, amit csak osztályozásra használunk. Ekkor X-nek az Y szerinti empirikus regressziós függvényét úgy kapjuk, ha minden Y osztályban kiszámoljuk X részátlagát.

Ezt ábrázolhatjuk egy koordinátarendszerben.

Ha mindezt fordítva csináljuk, és X-et használjuk osztályozásra, Y szerint pedig átlagokat számolunk, akkor az Y-nak X szerinti empirikus regressziós függvényét kapjuk.

Ezt is berajzoljuk a koordinátarendszerbe.

Az empirikus regressziós függvény nem képes kimutatni, hogy a két ismérv közötti kapcsolat sztochasztikus-e vagy függvényszerű. Ehhez vagy a már korábban látott lineáris korrelációs együtthatóra van szükségünk, vagy kiszámolhatjuk az úgynevezett determinációs hányadost.

X-nek az Y-ra vonatkozó determinációs hányadosa

Y-nak az X-re vonatkozó determinációs hányadosa

Fontos megjegyezni, hogy ha X és Y között sztochasztikus a kapcsolat,

általában . Számoljuk ki, és nézzük meg mi a helyzet most.

Hasonlóan izgalmas körülmények között kapjuk, hogy

Empirikus regressziós függvényt és determinációs hányadost is azonban csak akkor célszerű számolni, ha a megfigyelt sokaság elég nagy ahhoz, hogy az X és Y szerint képzett részsokaságok mindegyikében egynél több – lehetőleg minél több – elem van. Ha ez nem teljesül, a kapott eredmények gyakran lehetnek félrevezetők. Jelenleg is ez a helyzet például mindkét empirikus regressziós függvénnyel. A narancs színű például azt sejteti, hogy a GDP növekedésével a gépkocsik száma egyre meredekebben emelkedik, de ez egyáltalán nincs így.

A kék ezzel ellentétesen azt mutatja, hogy a GDP növekedésével visszaesés van a gépkocsik számában, ami szintén hamisnak bizonyul.

3.1. A népesség legmagasabb iskolai végzettségük és nemük szerinti megoszlása reprezentatív felmérés alapján 2001-ben Magyarországon az alábbi volt.

Legmagasabb

iskolai végzettség

Férfi

Total

8 általános

vagy kevesebb

84

82

166

Érettségi, vagy

szakiskolai

1892

2055

3947

Felsőfokú

586

561

1147

Total

2562

2698

5260

Állapítsuk meg, a nem és az iskolai végzettség közötti kapcsolat szorosságát.

A kapcsolat szorosságát a Cramer-féle együtthatóval fogjuk vizsgálni.

Ehhez szükségünk van a -re, aminek kiszámolása roppant barátságos.

Ehhez előállítjuk -okat, amit a következőképpen számolunk ki:

[Szövegdoboz: A *-os táblázat ( ) Legmagasabb iskolai végzettség Nő Férfi Total 8 általános vagy kevesebb 81 85 166 Érettségi, vagy Szakiskolai 1922,5 2024,5 3947 Felsőfokú 558,6 588,25 1147 Total 2562 2698 5260] [Szövegdoboz: A valódi táblázat ( ) Legmagasabb Iskolai végzettség Nő Férfi Total 8 általános vagy kevesebb 84 82 166 Érettségi, vagy Szakiskolai 1892 2055 3947 Felsőfokú 586 561 1147 Total 2562 2698 5260]

[Szövegdoboz: és és és és és és]

A jelek szerint tehát a két ismérv – a nem és az iskolai végzettség – nem független. Számoljuk ki ezt a bizonyos khí-négyzetet!

Most, hogy kiderült,  a Cramer-együttható kiszámolása már csak pillanatok kérdése.

Cramer-féle asszociációs együttható

Itt    és r=a táblázat sorainak száma és c=a táblázat oszlopainak száma. Itt éppen 3 sor van tehát r-1=3-1=2 és 2 oszlop van, így c-1=2-1=1, ezek közül pedig a kisebbik 1. Vagyis a Cramer-mutató:

3.2. A következő táblázat egy város szállodáinak ár és besorolás szerinti megoszlását tartalmazza. Elemezzük az ismérvek közti kapcsolatot.

Szálloda típusa

Total

Árak

(EUR/fő/éj)

**

***

****

0-50

37

8

1

46

51-100

15

40

3

58

101-150

10

33

12

55

151-200

4

22

15

41

Total

66

103

31

200

Először kiszámoljuk az átlagokat.

A ** szállodák árának átlaga

A *** szállodák árának átlaga

A **** szállodák árának átlaga

A főátlagot kétféleképpen is kiszámolhatjuk.

[Szövegdoboz: Vagy a „total” oszlop alapján] [Szövegdoboz: Vagy a részátlagokat súlyozzuk a szálloda-típusok számával:]

Térjünk rá a szórások kiszámolására.

[Szövegdoboz: Szálloda típusa Total Árak (EUR/fő/éj) ** *** **** 0-50 37 8 1 46 51-100 15 40 3 58 101-150 10 33 12 55 151-200 4 22 15 41 Total 66 103 31 200 Szálloda típusa Total Árak (EUR/fő/éj) ** *** **** 0-50 37 8 1 46 51-100 15 40 3 58 101-150 10 33 12 55 151-200 4 22 15 41 Total 66 103 31 200 Szálloda típusa Total Árak (EUR/fő/éj) ** *** **** 0-50 37 8 1 46 51-100 15 40 3 58 101-150 10 33 12 55 151-200 4 22 15 41 Total 66 103 31 200] [Szövegdoboz: Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk. Ehhez először a rész-szórásokat számoljuk ki: ** *** **** A belső szórás tehát Ha ezeknek a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás. Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését, az a teljes szórás.]

A háromféle szórásra mindig teljesül a  összefüggés.

Ha időnk engedi, érdemes tehát mindhárom szórást kiszámolni és megnézni, hogy valóban kijön-e a .

Ha ugyanis nem, akkor nagy baj van.

Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE (Proportional Reduction Errors ) eljárással fogjuk megvizsgálni, ami azt adja meg, hogy az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.

Tehát

Ami azt jelenti, hogy 29%-al csökkenti a szálloda árának bizonytalanságát, ha tudjuk, hogy hány csillagos.

Nem hülyeség azonban megjegyezni, hogy a PRE kiszámolásához elegendő a háromféle szórásból mindössze kettő is. Mivel a legkellemetlenebb a belső szórás kiszámolása, érdemes azt mellőzni, és csak a másik kettőt kiszámolni. Ha persze maga a feladat igényli a belső szórás kiszámolását, akkor sajna nem ússzuk meg.

Szintén érdemes megjegyezni, hogy a PRE kiszámolható szórások helyett az eltérés-négyzetösszegek segítségével, amiket egy hangyányival könnyebben megkapunk.

3.3. Néhány ország középfokú iskolai képzésének egy diákra jutó oktatási ráfordítása illetve az éves egy főre jutó GDP adatai láthatók az alábbi táblázatban. Állapítsuk meg a két ismérv közti kapcsolat szorosságát, adjuk meg a regressziós egyenest.

ország

X

GDP/fő

(EUR)

Y

Oktatási ráfordítás

(Középfokú képzés diák/EUR)

Ausztria               AT 

28 978

76 900

Belgium               BE

30 349

61 000

Csehország          CZ

15 216

33 800

Franciaország       FR

26 656

57 600

Görögország         GR

17 941

59 200

Hollandia              NL

28 669

61 500

Lengyelország       PL

10 135

30 700

Magyarország       HU

13 767

33 000

Németország        DE

28 232

65 300

Svájc                   CH

31 987

60 400

Elsőként kiszámoljuk az átlagokat. Az X ismérv szerinti átlag a jó öreg általános iskolás módszer: összeadogatjuk szépen a GDP-ket aztán elosztjuk 10-el, merthogy 10 ország van a listánkon.

Valahogyan megbirkózunk Y átlagával is:

Most jöhetnek a szórások. Nem hülyeség a szórásokhoz először az úgynevezett eltérés-négyzetösszegeket kiszámolni, aminek jele .

Ekkor a szórás:

Tökugyanezt megcsináljuk Y-ra is.

A szórás pedig

Végül itt jön még egy izgalmas dolog.

Számoljuk ki ezt is.

Térjünk rá a két ismérv közötti kapcsolat vizsgálatára.

Először kiszámoljuk a lineáris korrelációs együtthatót, aztán felírjuk a regressziós egyenes egyenletét.

Számoljuk ki. A hozzávalókat itt gyűjtjük ebben a dobozban.

[Szövegdoboz:]

A lineáris korrelációs együttható azt méri, hogy X és Y között milyen szoros lineáris kapcsolat van. Értéke mindig . Ha  akkor X és Y között függvényszerű lineáris kapcsolat van, ha akkor nincs lineáris kapcsolat. De ettől másfajta kapcsolat még lehet. A most kijött 0,866-os érték egész magas, vagyis X és Y között már-már lineáris kapcsolat mutatható ki. Ezt mindjárt meg is nézzük.

Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete,  annak kiderítésére, hogy az X értékek hány százalékban magyarázzák meg az Y-ra adódó értékeket.

Vagyis az  értéke azt adja meg, hogy a X ismerete hány százalékkal csökkenti az Y nagyságával kapcsolatos bizonytalanságot. Most éppen  tehát  ami elég sok: X ismerete 75%-al csökkenti az Y nagyságával kapcsolatos bizonytalanságot.

Térjünk rá a regressziós egyenesre! A regressziós egyenes egyenlete

ahol

a  pedig úgy jön ki, hogy az  egyenletben  helyére Y átlagát,  helyére pedig X átlagát helyettesítjük.

Jelenleg

Ekkor

amibe X és Y átlagait helyettesítve

és ebből jön ki .

A regressziós egyenes tehát

A betűk fölé tett kis háztetők becslésen alapuló értékeket jelölnek. A regressziós egyenes egyenletében X felett nincs kalap, vagyis X tényleges érték, míg Y csak becsült. Ezt úgy kell értenünk, hogy ha X=28 978 ami történetesen Ausztria éves egy főre jutó GDP-je, akkor Y becsült értéke  vagyis elvileg ennyit kéne költeni a trend szerint minden középiskolásra, de az osztrákok biztosra mennek, mert a tényleges Y esetükben Y=76 900. Ausztria így a trend-vonal felett van. Ha rápillantunk az ábrára, valóban. Számoljuk most ki a becsült értéket Magyarországra is.

Ekkor X=13 767 így . A tényleges Y viszont csak Y=33 000, így a trend-vonal alatt vagyunk.

3.4. Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:

Alkalmazottak

száma (%)

Bruttó jövedelem

(USD)

átlag

szórás

56

2000

510

Férfi

44

2500

360

Összesen

100

Hány százalékban magyarázza meg a nem a bruttó jövedelem szórását?

Milyen szoros a kapcsolat a nem és a kereset között?

Elsőként nézzük meg az összes dolgozó átlagbérét.

Ez alighanem egy súlyozott átlag:

Most pedig szükségünk van a különböző szórásokra.

Lássuk csak melyik szórást tudjuk kiszámolni. A részátlagoknak a főátlagtól való eltérését adja meg a külső szórás:

A belső szórást pedig megkapjuk a rész-szórásokból:

A teljes szórás ekkor   vagyis

A kapcsolat szorossága:

A nem 23,3%-ban magyarázza meg a kereset nagyságát.

A kapcsolat szorossága  vagyis a közepesnél gyengébb.

3.5. Egy 40 lakásos társasház átlagos napi gázfogyasztása a téli időszakban a lakások szobáinak száma szerint a következő

Szobák száma

Total

   Fogyasztás

   (köbméter)  

1

2

3

3

4

1

-

5

4

8

2

-

10

5

2

7

2

11

6

-

10

4

14

Total

14

20

6

40

Adjuk meg az átlagos napi gázfogyasztást az egyes szobaszámok esetén. Jellemezzük a lakások szobaszáma és a napi gázfogyasztás közötti összefüggést a H érték kiszámolásával.

Először kiszámoljuk az átlagokat.

1 szobás lakás napi átlaga

2 szobás lakás napi átlaga

3 szobás lakás napi átlaga

A főátlagot kétféleképpen is kiszámolhatjuk.

[Szövegdoboz: Vagy a „total” oszlop alapján] [Szövegdoboz: Vagy a részátlagokat súlyozzuk a lakás-típusok számával:]

Térjünk rá a szórások kiszámolására.

[Szövegdoboz: Szobák száma Total Fogyasztás (köbméter) 1 2 3 3 4 1 - 5 4 8 2 - 10 5 2 7 2 11 6 - 10 4 14 Total 14 20 6 40 Szobák száma Total Fogyasztás (köbméter) 1 2 3 3 4 1 - 5 4 8 2 - 10 5 2 7 2 11 6 - 10 4 14 Total 14 20 6 40 Szobák száma Total Fogyasztás (köbméter) 1 2 3 3 4 1 - 5 4 8 2 - 10 5 2 7 2 11 6 - 10 4 14 Total 14 20 6 40] [Szövegdoboz: Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk. Ehhez először a rész-szórásokat számoljuk ki: A belső szórás tehát Ha ezeknek a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás. Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését, az a teljes szórás.]

Ugyanez az összefüggés a szórások helyett leírható az eltérés-négyzetösszeg segítségével is.

Emlékeztetőül a menü tehát a következő:

[Szövegdoboz: Külső eltérés-négyzetösszeg SSK (sum of squares külső)] [Szövegdoboz: Külső szórás azt adja meg, hogy a részátlagok átlagosan mennyivel térnek el a főátlagtól:] [Szövegdoboz: Belső eltérés-négyzetösszeg SSB (sum of squares belső)] [Szövegdoboz: Belső szórás azt adja meg, hogy az egyes elemek átlagosan mennyivel térnek el a saját részátlaguktól:] [Szövegdoboz: Teljes szórás azt adja meg, hogy az egyes elemek átlagosan mennyivel térnek el a főátlagtól:] [Szövegdoboz: Teljes eltérés-négyzetösszeg SST (sum of squares teljes)]

Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE eljárással fogjuk megvizsgálni. A PRE érték kiszámolásával megállapítható, az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.

Most éppen

Tehát

Ami azt jelenti, hogy 50%-al csökkenti a napi gázfogyasztás nagyságának bizonytalan-ságát, ha tudjuk a lakás szobáinak a számát.

3.6. A következő táblázat néhány ország egy főre jutó GDP adatait illetve a nők első házasságkötésük kori életkorát tartalmazza. Állapítsuk meg a két ismérv közti kapcsolat szorosságát, adjuk meg a regressziós egyenest.

ország

X

GDP/fő

(EUR)

Y

Nők életkora

házasságkötéskor

Ausztria               AT 

28 978

26,6

Belgium               BE

30 349

29,8

Csehország          CZ

15 216

28,9

Franciaország       FR

26 656

31,6

Görögország         GR

17 941

26,9

Hollandia              NL

28 669

26,9

Lengyelország       PL

10 135

25,3

Magyarország       HU

13 767

29,7

Németország        DE

28 232

31

Svájc                   CH

31 987

29,4

Ismeretes, hogy         

Elsőként kiszámoljuk az átlagokat. Az X ismérv szerinti átlag a jó öreg általános iskolás módszer: összeadogatjuk szépen a GDP-ket aztán elosztjuk 10-el, merthogy 10 ország van a listánkon.

Valahogyan megbirkózunk Y átlagával is:

Most jöhetnek a szórások. Szerencsére meg van adva, hogy  ezért a szórás már meg is van:

Mázlink van Y-nal is:

Végül itt van még ez is:

Térjünk rá a két ismérv közötti kapcsolat vizsgálatára.

Először kiszámoljuk a lineáris korrelációs együtthatót, aztán felírjuk a regressziós egyenes egyenletét.

A lineáris korrelációs együttható azt méri, hogy X és Y között milyen szoros lineáris kapcsolat van. Értéke mindig . Ha  akkor X és Y között függvényszerű lineáris kapcsolat van, ha akkor nincs lineáris kapcsolat. De ettől másfajta kapcsolat még lehet. A most kijött 0,3765 érték alacsony, vagyis X és Y között nem túl szoros kapcsolat van.

Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete,  annak kiderítésére, hogy az X értékek hány százalékban magyarázzák meg az Y-ra adódó értékeket.

Vagyis az  értéke azt adja meg, hogy a X ismerete hány százalékkal csökkenti az Y nagyságával kapcsolatos bizonytalanságot. Most éppen  tehát  vagyis  X ismerete 14%-al csökkenti az Y nagyságával kapcsolatos bizonytalanságot.

Térjünk rá a regressziós egyenesre! A regressziós egyenes egyenlete

ahol

a  pedig úgy jön ki, hogy az  egyenletben  helyére Y átlagát,  helyére pedig X átlagát helyettesítjük.

Jelenleg

Ekkor

amibe X és Y átlagait helyettesítve

és ebből jön ki .

A regressziós egyenes tehát

3.7. Egy város lakosairól készült felmérés alapján az alábbi adatok álnak rendelkezésre:

Alkalmazottak

száma (ezer fő)

Bruttó jövedelem

(USD)

átlag

szórás

Pénzügyi szféra

120

2000

520

Szolgáltatói szféra

140

1500

340

Állami szféra

90

1000

210

Termelői szféra

130

980

220

Összesen

480

Mekkora a felsorolt szektorok átlagbére? Mekkora a szórás? Egy lakos foglalkozása hány százalékban magyarázza bruttó jövedelmének nagyságát?

Először a főátlagot. A részátlagokat súlyozzuk az alkalmazottak számával:

Térjünk rá a szórások kiszámolására.

Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk.

A belső szórás tehát

Ha a részátlagoknak nézzük a főátlagtól való eltérését,

az a külső szórás.

Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését,

az a teljes szórás. Ezt most csak úgy tudjuk kiszámolni, hogy a háromféle szórásra mindig teljesül a  összefüggés.

Így hát

Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE (Proportional Reduction Errors ) eljárással fogjuk megvizsgálni, ami azt adja meg, hogy az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.

Tehát

Ami azt jelenti, hogy egy lakos foglalkozásának ismerete 58%-al csökkenti a bruttó jövedelmének nagyságával kapcsolatos bizonytalanságot.

3.8. Egy kábelgyárban megvizsgálták a 150 dolgozó neme és iskolai végzettsége közötti kapcsolatot. Az alábbi adatokat kapták:

A dolgozók 80%-a férfi.

A férfiak 15%-a szakképzett, míg 25%-uk csak 8 általánost végzett.

A szakképzettek közül minden harmadik nő.

A gimnáziumi végzettségűekre teljesül a függetlenség feltétele.

Adjuk meg az iskolai végzettség és nem szerinti megoszlást. Jellemezzük a kapcsolat szorosságát.

Mindkét ismérv minőségi, így kombinációs, más néven kontingencia táblát fogunk kapni.

Az egyik ismérv a férfi-nő, a másik a végzettség:

férfi

össz

8 általános

30

3

33

Gimnáziumi

72

18

90

Szakképzett

18

9

27

össz

120

30

150

Ha a dolgozók 80%-a férfi, akkor  férfi és így 30 nő dolgozik az üzemben.

A férfiak 15%-a szakképzett, ami  és 25%-uk 8 általánost végzett, ami 30.

A többiek végzettsége gimnáziumi.

A szakképzettek közül minden harmadik nő, vagyis kétszer annyi férfi van. Mivel pedig 18 férfi van, alighanem 9 nő.

A gimnáziumi végzettségűekre teljesül a függetlenség, ami azt jelenti, hogy a férfi-nő arány a teljes sokaságban ugyanolyan, mint a gimnáziumot végzettek körében. A teljes sokaságban a férfiak aránya 80%, így akkor a gimnáziumi végzettségűek körében is. Az összes gimnáziumi végzettségű x db, akkor  tehát x=90. A nők száma így 18.

A táblázattal megvolnánk, térjünk rá a kapcsolat szorosságának vizsgálatára.

A Cramer-mutatót és a Csuprov-mutatót számoljuk ki.

Csináljunk egy  táblázatot.

[Szövegdoboz: táblázat férfi nő össz 8 általános 26,4 6,6 33 Gimnáziumi 72 18 90 Szakképzett 21,6 5,4 27 össz 120 30 150] [Szövegdoboz: eredeti táblázat férfi nő össz 8 általános 30 3 33 Gimnáziumi 72 18 90 Szakképzett 18 9 27 össz 120 30 150]

Cramer-mutató:

Csuprov-mutató:

A két ismérv között gyenge kapcsolat van.

3.9. Egy városban a családi házban lakók átlagosan 80 percet, míg a társasházban lakók 72 percet töltenek naponta utazással. Milyen szoros a kapcsolat a lakás típusa és az utazással eltöltött idő között, ha minden ötödik lakos családi házban lakik és az összes lakos utazással töltött idejének szórása az átlag 10%-a?

Rész-

Sokaságok

Rész-

arány

átlag

Családi ház

20%

80

társasház

80%

72

össz

100%

73,6

Az átlagosan utazással töltött idő:

A teljes szórás az átlag 10%-a vagyis 7,36

A külső szórás a részátlagoknak a főátlagtól való eltérését méri, vagyis:

A kapcsolat szorossága:

A lakás típusa 19%-ban magyarázza meg az utazással eltöltött idő nagyságát.

3.10 A népesség legmagasabb iskolai végzettsége és munkája szerinti megoszlása egy 1000 fős reprezentatív felmérés alapján az alábbi volt.

Legmagasabb

iskolai végzettség

Munka típusa

Total

Nehéz

Fizikai

Könnyű

fizikai

Szellemi

8 általános

92

23

10

125

Érettségi, vagy

47

280

163

490

Felsőfokú

6

74

305

385

Total

145

377

478

1000

a)Adjuk meg a peremeloszlások alapján a munka típusa és az iskolai végzettség közötti kapcsolat eloszlását abban az esetben, ha a két ismérv független lenne.

b)Állapítsuk meg, a munka típusa és az iskolai végzettség közötti kapcsolat szorosságát.

Először előállítjuk -okat, amit a következőképpen számolunk ki:

[Szövegdoboz: A valódi táblázat ( ) Legmagasabb iskolai végzettség Munka típusa Total Nehéz Fizikai Könnyű fizikai Szellemi 8 általános 92 23 10 125 Érettségi, vagy 47 280 163 490 Felsőfokú 6 74 305 385 Total 145 377 478 1000]

[Szövegdoboz: és és és és és és és és és]

[Szövegdoboz: A *-os táblázat ( ) Legmagasabb iskolai végzettség Munka típusa Total Nehéz Fizikai Könnyű fizikai Szellemi 8 általános 18,125 47,125 59,75 125 Érettségi, vagy 71,05 184,73 234,22 490 Felsőfokú 55,825 145,145 184,03 385 Total 145 377 478 1000]

Most térjünk rá a két ismérv közötti kapcsolat szorosságának vizsgálatára.

Így, hogy végre kiderült,  a Cramer-együttható kiszámolása már tulajdonképpen szórakoztató:

A Csuprov-féle asszociációs együttható most ugyanazt az értéket adja:

3.11. Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:

Nők

Férfiak

Kifizetett

összes bér

(USD)

Átlagbér

(USD)

Létszám

(fő)

Átlagbér

(USD)

47 040

840

78

960

Az egyes dolgozók keresete átlagosan 25%-al tér el az összes dolgozó átlagkeresetétől.

Hány százalékban magyarázza meg a nem a kereset szórását?

Milyen szoros a kapcsolat a nem és a kereset között?

Számoljuk ki, hogy hány nő van. Ehhez a kifizetett összes bért osztjuk az átlagbérrel:

Most, hogy ez kiderült, nézzük meg az összes dolgozó átlagbérét.

Ez egy nagyon bonyolult súlyozott átlag:

A teljes szórás az átlag 25%-a vagyis

Lássuk csak melyik szórást tudjuk még kiszámolni. A belső szórás a tényleges fizetések részátlagoktól való eltérése. A tényleges fizetéseket viszont sajnálatosan nem tudjuk.

A külső szórás a részátlagoknak a főátlagtól való eltérését méri, na ez viszont jónak tűnik:

A kapcsolat szorossága:

A nem 6,77%-ban magyarázza meg a kereset nagyságát.

A kapcsolat szorossága  vagyis gyenge.

3.12. A következő táblázat egy cég alkalmazottainak havi béreit tartalmazza három országban. Elemezzük az ismérvek közti kapcsolatot.

Ország

Total

   Bérek

        (EUR)        

DE

AT

HU

500-699

5

40

120

165

700-899

10

110

530

650

900-1099

70

650

230

950

1100-

12

150

15

177

Total

95

950

895

1940

Először kiszámoljuk az átlagokat.

A német dolgozók bérének átlaga

Az osztrák dolgozók bérének átlaga

A magyar dolgozók bérének átlaga

A főátlagot kétféleképpen is kiszámolhatjuk.

[Szövegdoboz: Vagy a „total” oszlop alapján] [Szövegdoboz: Vagy a részátlagokat súlyozzuk a rész- sokaságok számával:]

Térjünk rá a szórások kiszámolására.

[Szövegdoboz: Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk. Ehhez először a rész-szórásokat számoljuk ki: DE AT HU A belső szórás tehát Ha ezeknek a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás. Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését, az a teljes szórás.] [Szövegdoboz: Ország Total Bérek (EUR) DE AT HU 500-699 5 40 120 165 700-899 10 110 530 650 900-1099 70 650 230 950 1100- 12 150 15 177 Total 95 950 895 1940 Ország Total Bérek (EUR) DE AT HU 500-699 5 40 120 165 700-899 10 110 530 650 900-1099 70 650 230 950 1100- 12 150 15 177 Total 95 950 895 1940 Ország Total Bérek (EUR) DE AT HU 500-699 5 40 120 165 700-899 10 110 530 650 900-1099 70 650 230 950 1100- 12 150 15 177 Total 95 950 895 1940]

Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE (Proportional Reduction Errors ) eljárással fogjuk megvizsgálni, ami azt adja meg, hogy az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.

Tehát

Ami azt jelenti, hogy 27%-al csökkenti az alkalmazottak bérének bizonytalanságát, ha tudjuk, hogy melyik országban dolgozik.

A PRE kiszámolásához egyébként elegendő, ha a háromféle szórásból csak kettőt számolunk ki. Mivel a legkellemetlenebb a belső szórás, érdemes azt mellőzni, és csak a másik kettőt kiszámolni. Ha persze maga a feladat igényli a belső szórás kiszámolását, akkor sajna nem ússzuk meg.

Szintén érdemes megjegyezni, hogy a PRE kiszámolható szórások helyett az eltérés-négyzetösszegek segítségével, amiket egy hangyányival könnyebben megkapunk.

3.13. Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:

Az nők és férfiak keresete átlagosan 14 euróval tér el a nők és férfiak átlagkeresetétől, míg a  az összes dolgozó keresete 12%-al tér el az összes dolgozó 240 eurós átlagkeresetétől.

Hány százalékban magyarázza meg a nem a kereset szórását?

Milyen szoros a kapcsolat a nem és a kereset között?

A nők és férfiak keresetének a részátlagoktól való eltérése a belső szórás.

Az összes dolgozó keresetének eltérése a főátlagtól a teljes szórás, ami az átlag 12%-a, tehát:

Most, hogy megvan a belső szórás és a teljes szórás:

Tehát

A nem 76,4%-ban magyarázza meg a kereset nagyságát.


ASSZOCIÁCIÓS KAPCSOLAT

VEGYES KAPCSOLAT

KORRELÁCIÓS KAPCSOLAT

EMPIRIKUS REGRESSZIÓFV DETERMINÁCIÓ HÁNYADOS

FELADAT 3. 1.

FELADAT 3. 2.

FELADAT 3. 3.