Két ismérv szerinti elemzés
Ismérv
Egy sokaságot egyszerre több ismérv szerint is vizsgálhatunk.
A következő ismérveket különböztetjük meg:
- minőségi ismérv (pl. férfi vagy nő)
- területi ismérv (pl. városban vagy faluban lakik)
- mennyiségi ismérv (pl. milyen magasak)
Asszociációs kapcsolat
Ha mindkét ismérv minőségi (vagy területi), akkor asszociációs kapcsolatról beszélünk.
Ilyen például egy cég alkalmazottjainak megoszlása neme és beosztása szerint.
Minőségi | ||||
Minőségi | Nő | Férfi | Össz. | |
Vezető | 7 | 18 | 25 | |
Közép-vezető | 11 | 23 | 34 | |
Beosztott | 756 | 185 | 941 | |
Össz. | 774 | 226 | 1000 |
Az így létrejövő táblát kombinációs táblának nevezzük. Átlagot, szórást és egyéb mutatókat egyik ismérv szerint sem tudunk számolni.
Vegyes kapcsolat
Ha az egyik ismérv minőségi (vagy területi), a másik mennyiségi, akkor vegyes kapcsolatról beszélünk.
Ilyen például egy város szállodáinak megoszlása az éjszakák ára és a szállodák besorolása alapján.
Minőségi | |||||
Mennyiségi | Árak (EUR/fő/éj) |
Szálloda típusa | Össz. | ||
** | *** | **** | |||
0-50 | 37 | 8 | 1 | 46 | |
51-100 | 15 | 40 | 3 | 58 | |
101-150 | 10 | 33 | 12 | 55 | |
151-200 | 4 | 22 | 15 | 41 | |
Össz. | 66 | 103 | 31 | 200 |
Átlagot, szórást és egyéb mutatókat csak az egyik ismérv, az árak szerint tudunk számolni.
Korrelációs kapcsolat
Ha mindkét ismérv mennyiségi, akkor korrelációs kapcsolatról beszélünk.
Ilyen például Európa 4 országának egy főre jutó GDP-je és az ezer főre jutó gépjárművek számának megoszlása.
Mennyiségi | Mennyiségi | |
Ország | GDP/fő (USD) | Gépjárművek (db/1000 fő) |
Ausztria | 50 380 | 550 |
Belgium | 46 237 | 503 |
Hollandia | 52 646 | 481 |
Svájc | 82 484 | 539 |
A táblázatban mindkét ismérv szerint tudunk átlagot, szórást és egyéb mutatókat számolni.
Rangkorrelációs kapcsolat
Ha mindkét ismerv sorrendi, akkor rangkorrelációs kapcsolatról beszélünk.
Ilyen példáuk ha két társadalmi csoportot kérdezünk meg, hogy 1-től 10-ig rangsorolják az alábbi országokat, az alapján, hogy mennyire szívesen nyaralnának ott.
Ország | Egyik csoport | Másik csoport |
Ausztria | 10 | 2 |
Belgium | 9 | 6 |
Csehország | 4 | 7 |
Franciaország | 3 | 3 |
Görögország | 1 | 8 |
Hollandia | 7 | 5 |
Lengyelország | 2 | 9 |
Magyarország | 6 | 10 |
Németország | 5 | 4 |
Svájc | 8 | 1 |
Független kapcsolat
Két ismérv akkor független, ha minden feltételes megoszlás egyforma és megegyezik a feltétel nélküli megoszlással.
Függvényszerű kapcsolat
Két ismérv között függvényszerű kapcsolat van, ha nem minden feltételes megoszlás egyforma, de minden feltételes eloszlás szórása nulla.
Függvényszerű kapcsolatnál az egyik ismérv ismeretében a másik egyértelműen kitalálható.
A két ismérv kapcsolata akkor függvényszerű, ha nem minden feltételes megoszlás egyforma, de a feltételes megoszlások szórása nulla.
Sztochasztikus kapcsolat
Ha a két ismérv közötti kapcsolat nem független és nem is függvényszerű, akkor sztochasztikus kapcsolatról beszélünk. Kicsit összefüggnek ugyan az adatok, de olyan nagyon azért nem.
A két ismérv kapcsolata akkor sztochasztikus, ha nem minden feltételes megoszlás egyforma de a feltételes megoszlások szórása nem mind nulla.
Cramer-féle asszociációs együttható
A Cramer-féle asszociációs együttható arra való, hogy amikor mindkét ismérv minőségi, rávilágítson a két ismérv közötti kapcsolat szorosságára.
\( C= \sqrt{ \frac{ \chi^2 }{N \cdot min\{ (r-1); (c-1) \} } } \)
Itt $N$= az összes elem, $r$= a táblázat sorainak száma és $c=$ a táblázat oszlopainak száma, továbbá
\( \chi^2 = \sum \frac{\left( f_{ij}-f^*_{ij} \right)^2}{f^*_{ij}} \)
A Cramer-mutató függvényszerű kapcsolat esetén 1, független esetén pedig 0.
Kombinációs tábla
A kombinációs tábla általános sémája:
$C_1$ | $C_2$ | $\dots$ | $C_j$ | Össz. | ||
$R_1$ | $f_{11}$ | $f_{12}$ | $\dots$ | $f_{1j}$ | $f_{1 \bullet}$ | |
$R_2$ | $f_{21}$ | $f_{22}$ | $\dots$ | $f_{2j}$ | $f_{2 \bullet}$ | |
$\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ |
$R_i$ | $f_{i1}$ | $f_{i2}$ | $\dots$ | $f_{ij}$ | $f_{i \bullet}$ | |
$\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ |
Össz. | $f_{\bullet 1}$ | $f_{\bullet 2}$ | $\dots$ | $f_{\bullet j}$ | N |
Az első oszlop elemei, amint látjuk $f_{11}$ aztán $f_{21}$ és így tovább az általános tag $f_{1i}$, ami közös bennük az az, hogy a második indexe mindegyiknek 1-es.
Az oszlop alján összegezzük őket, az összeg $f_{\bullet 1}$ ami azt jelenti, hogy ez azoknak az elemeknek az összege, ahol a második index 1, az első index pedig tökmindegy, hogy mi, ezt hivatott jelezni a $\bullet$ jel.
Aztán a második oszlopban pontosan ugyanez a helyzet, az oszlopban lévő elemek $f_{12}$ alatta $f_{22}$ és így tovább, összegük pedig $f_{\bullet 2}$.
Ugyanez megy a sorokra is, az első sor elemei $f_{11}$ aztán $f_{12}$ és így tovább, itt az elemek első indexe egyezik meg, mindegyiknek 1-es, összegüket pedig úgy jelöljük, hogy $f_{1 \bullet}$.
Csuprov-féle mutató
A Csuprov-féle mutató segítségével két ismérv közötti kapcsolatot vizsgálhatjuk.
A Csuprov-féle mutató:
\( \Gamma = \sqrt{ \frac{ \chi^2}{N \cdot \sqrt{r-1} \cdot \sqrt{c-1}} } \)
Belső szórás
Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk.
Jele: $ \sigma_B$
A rész-szórásokból úgy lesz belső szórás, hogy súlyozzuk őket a rész-sokaságok szórásával.
A belső szórást kiszámolhatjuk a rész-szórások nélkül is.
Külső szórás
Ha a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás.
Jele: $\sigma_K$
Teljes szórás
Ha az egyes értékeknek nézzük a főátlagtól való eltérést, az a teljes szórás.
A teljes szórás az egész sokaság szórását jelenti, vagyis ha nem bontjuk fel a sokaságot rész-sokaságokra.
Jele :$\sigma$
A háromféle szórásra mindig teljesül, hogy
$\sigma^2 = \sigma_B^2 + \sigma_K^2$
Belső eltérés-négyzetösszeg (SSB)
A belső eltérés-négyzetösszeg a belső szórás gyök alatti részének számlálója.
Jele: SSB
Külső eltérés-négyzetösszeg (SSK)
A külső eltérés-négyzetösszeg a külső szórás gyök alatti részének számlálója.
Jele: SSK
Teljes eltérés-négyzetösszeg (SST)
A teljes eltérés-négyzetösszeg a teljes szórás gyök alatti részének számlálója.
Jele: SST
$SST = SSB + SSK$
PRE
A PRE egy rövidítés, Proportional Reduction Errors, ami relatív hibacsökkenésnek fordítható.
A módszer lényege, hogy a PRE érték kiszámolásával megállapítható, az egyik ismérv ismerete hány százalékkal csökkenti a másik ismérv nagyságával kapcsolatos bizonytalanságot.
Ha $PRE=0$, az azt jelenti, hogy ez a bizonytalanság egyáltalán nem csökken. Ebben az esetben a két ismérv egymástól független.
Ha $PRE=1$, akkor a bizonytalanság 100%-kal csökken. Ilyenkor a két ismérv között fügvényszerű kapcsolat van.
Ha pedig PRE értéke valahol nulla és egy között van, akkor a kapcsolat nem független és nem is függvényszerű, tehát sztochasztikus.
\( PRE = H^2 = \frac{\sigma^2 - \sigma_B^2}{\sigma^2} = \frac{\sigma_K^2}{\sigma^2} \)
vagy
\( PRE=H^2 = \frac{SST-SSB}{SST} = \frac{SSK}{SST} \)
Lineáris korrelációs együttható
Ha két ismérv között korrelációs kapcsolat van, akkor a két ismérv közötti kapcsolat szorosságát a lineáris korrelációs együttható írja le:
\( r = \frac{ \sum dX \cdot dY}{ \sqrt{ \sum d^2 X \cdot \sum d^2 Y } } \)
A lineáris korrelációs együttható azt méri, hogy $X$ és $Y$ között milyen szoros lineáris kapcsolat van. Értéke mindig $-1 \geq r \geq 1$.
Ha $r=\pm1$, akkor $X$ és $Y$ között függvényszerű lineáris kapcsolat van, ha $r=0$, akkor nincs lineáris kapcsolat. De attól, hogy nincs lineáris kapcsolat, másfajta kapcsolat még lehet, tehát $r=0$ esetén $X$ és $Y$ nem biztos, hogy független.
Determinációs együttható
A determinációs együttható a lineáris korrelációs együttható négyzete, azaz $r^2$.
A determinációs együttható pontosan úgy értelmezhető, mint a PRE mutató a vegyes kapcsolatnál.
Rangkorrelációs együttható
Ha pl. egy verseny eredményét ketten is megtippelik, és el kell döntenünk melyikük találta el jobban a valós eredményt...
Erre való a rangkorrelációs együttható:
\( \rho = 1 - \frac{6 \cdot \sum \left( R_X - R_Y \right)^2}{N(N^2-1)} \)
Hogyha valaki éppen eltalálja a helyes sorrendet, akkor a rangkorreláció értéke 1.
Ha pedig éppen a fordított sorrendet találja el, akkor -1.
És minél inkább eltalálja valaki a valós sorrendet, a rangkorreláció annál nagyobb.
Nő | Férfi | Össz. | |
Vezető | 7 | 18 | 25 |
Közép-vezető | 11 | 23 | 34 |
Beosztott | 756 | 185 | 941 |
Total | 774 | 226 | 1000 |
Számoljuk ki khí-négyzetet, Cramer-féle asszociációs együtthatót és Csuprov-féle mutatót.
Havi bruttó jövedelem (EUR) | Nő | Férfi | Össz. |
0-400 | 60 | 90 | 150 |
401-800 | 30 | 30 | 60 |
801-1200 | 10 | 30 | 40 |
Total | 100 | 150 | 250 |
Számoljuk ki az átlagot és szórást.
Ország |
X |
Y |
|
Ausztria | AT | 50 380 | 5500 |
Belgium | BE | 46 237 | 5030 |
Csehország | CZ | 25 539 | 5020 |
Franciaország | FR | 41 897 | 4790 |
Görögország | GR | 19 570 | 4790 |
Hollandia | NL | 52 646 | 4810 |
Lengyelország | PL | 15 601 | 5710 |
Magyarország | HU | 16 470 | 3380 |
Németország | DE | 46 473 | 5550 |
Svájc | CH | 82 484 | 5390 |
Számoljuk ki az átlagot és szórást.
Egy versenyen 10 ország versenyzője vesz részt. A versenyen elért helyezéseket foglalja össze ez a táblázat.
A verseny eredményét ketten is megtippelik.
Melyikük találta el jobban a valós eredményt?
Ország | Elért helyezés | Egyik tipp |
Másik tipp |
Ausztria | 10 | 2 | 4 |
Belgium | 9 | 6 | 7 |
Csehország | 4 | 7 | 8 |
Franciaország | 3 | 3 | 1 |
Görögország | 1 | 8 | 9 |
Hollandia | 7 | 5 | 5 |
Lengyelország | 2 | 9 | 6 |
Magyarország | 6 | 10 | 3 |
Németország | 5 | 4 | 10 |
Svájc | 8 | 1 | 2 |
A népesség legmagasabb iskolai végzettségük és nemük szerinti megoszlása reprezentatív felmérés alapján 2021-ben Magyarországon az alábbi volt.
Legmagasabb iskolai végzettség | Nő | Férfi | Össz. |
8 általános vagy kevesebb | 84 | 82 | 166 |
Érettségi, vagy Szakiskolai | 1892 | 2055 | 3947 |
Felsőfokú | 586 | 561 | 1147 |
Total | 2562 | 2698 | 5260 |
Állapítsuk meg, a nem és az iskolai végzettség közötti kapcsolat szorosságát.
A következő táblázat egy város szállodáinak ár és besorolás szerinti megoszlását tartalmazza. Elemezzük az ismérvek közti kapcsolatot.
Árak (EUR/fő/éj)
|
Szálloda típusa | Össz. | ||
** | *** | **** | ||
0-50 | 37 | 8 | 1 | 46 |
51-100 | 15 | 40 | 3 | 58 |
101-150 | 10 | 33 | 12 | 55 |
151-200 | 4 | 22 | 15 | 41 |
Total | 66 | 103 | 31 | 200 |
Néhány ország középfokú iskolai képzésének egy diákra jutó oktatási ráfordítása, illetve az éves egy főre jutó GDP adatai láthatók az alábbi táblázatban. Állapítsuk meg a két ismérv közti kapcsolat szorosságát, adjuk meg a regressziós egyenest.
Ország |
X |
Y |
|
Ausztria | AT | 28 978 | 76 900 |
Belgium | BE | 30 349 | 61 000 |
Csehország | CZ | 15 216 | 33 800 |
Franciaország | FR | 26 656 | 57 600 |
Görögország | GR | 17 941 | 59 200 |
Hollandia | NL | 28 669 | 61 500 |
Lengyelország | PL | 10 135 | 30 700 |
Magyarország | HU | 13 767 | 33 000 |
Németország | DE | 28 232 | 65 300 |
Svájc | CH | 31 987 | 60 400 |
Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:
Alkalmazottak száma (%) |
Bruttó jövedelem (USD) |
||
átlag | szórás | ||
Nő | 56 | 2000 | 510 |
Férfi | 44 | 2500 | 360 |
Összesen | 100 |
Hány százalékban magyarázza meg a nem bruttó jövedelem szórását?
Milyen szoros a kapcsolat a nem és a kereset között?
Egy 40 lakásos társasház átlagos napi gázfogyasztása a téli időszakban a lakások szobáinak száma szerint a következő...
Szobák száma | Össz. | |||
Fogyasztás (köbméter) |
1 | 2 | 3 | |
3 | 4 | 1 | - | 5 |
4 | 8 | 2 | - | 10 |
5 | 2 | 7 | 2 | 11 |
6 | - | 10 | 4 | 14 |
Total | 14 | 20 | 6 | 40 |
Adjuk meg az átlagos napi gázfogyasztást az egyes szobaszámok esetén.
Jelemezzük a lakások szobaszáma és a napi gázfogyasztás közötti összefüggést a H érték kiszámolásával.
A következő táblázat néhány ország egy főre jutó GDP adatait illetve a nők első házasságkötésük kori életkorát tartalmazza. Állapítsuk meg a két ismérv közti kapcsolat szorosságát, adjuk meg a regressziós egyenest.
Ország |
X |
Y |
|
Ausztria | AT | 28 978 | 26,6 |
Belgium | BE | 30 349 | 29,8 |
Csehország | CZ | 15 216 | 28,9 |
Franciaország | FR | 26 656 | 31,6 |
Görögország | GR | 17 941 | 26,9 |
Hollandia | NL | 28 669 | 26,9 |
Lengyelország | PL | 10 135 | 25,3 |
Magyarország | HU | 13 767 | 29,7 |
Németország | DE | 28 232 | 31 |
Svájc | CH | 31 987 | 29,4 |
Ismeretes, hogy
\( \sum d^2 X = 579\;956\;336 \)
\( \sum d^2 Y = 38,8 \)
\( \sum dX \cdot dY = 56\;484 \)
Egy város lakosairól készült felmérés alapján az alábbi adatok álnak rendelkezésre:
Alkalmazottak száma (ezer fő) |
Bruttó jövedelem (USD) | ||
átlag | szórás | ||
Pénzügyi szféra | 120 | 2000 | 520 |
Szolgáltatói szféra | 140 | 1500 | 340 |
Állami szféra | 90 | 1000 | 210 |
Termelői szféra | 130 | 980 | 220 |
Összesen | 480 | 350 |
Mekkora a felsorolt szektorok átlagbére? Mekkora a szórás?
Egy lakos foglalkozása hány százalékban magyarázza a bruttó jövedelmének nagyságát?
Egy kábelgyárban megvizsgálták a 150 dolgozó neme és iskolai végzettsége közötti kapcsolatot. Az alábbi adatokat kapták:
A dolgozók 80%-a férfi.
A férfiak 15%-a szakképzett, míg 25%-uk csak 8 általánost végzett.
A szakképzettek közül minden harmadik nő.
A gimnáziumi végzettségűekre teljesül a függetlenség feltétele.
Adjuk meg az iskolai végzettség és nem szerinti megoszlást. Jellemezzük a kapcsolat szorosságát.
Egy városban a családi házban lakók átlagosan 80 percet, míg a társasházban lakók 72 percet töltenek naponta utazással. Milyen szoros a kapcsolat a lakás típusa és az utazással eltöltött idő között, ha minden ötödik lakos családi házban lakik és az összes lakos utazással töltött idejének szórása az átlag 10%-a?
A népesség legmagasabb iskolai végzettsége és munkája szerinti megoszlása egy 1000 fős reprezentatív felmérés alapján az alábbi volt.
Legmagasabb iskolai végzettség |
Munka típusa | Össz. | ||
Nehéz fizikai | Könnyű fizikai | Szellemi | ||
8 általános | 92 | 23 | 10 | 125 |
Érettségi, vagy | 47 | 280 | 163 | 490 |
Felsőfokú | 6 | 74 | 305 | 385 |
Total | 145 | 377 | 478 | 1000 |
a) Adjuk meg a peremeloszlások alapján a munka típusa és az iskolai végzettség közötti kapcsolat eloszlását abban az esetben, ha a két ismérv független lenne.
b) Állapítsuk meg, a munka típusa és az iskolai végzettség közötti kapcsolat szorosságát.
Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:
Nők | Férfiak | ||
Kifizetett összes bér (USD) |
Átlagbér (USD) |
Létszám (fő) |
Átlagbér (USD) |
47 040 | 840 | 78 | 960 |
Az egyes dolgozók keresete átlagosan 25%-kal tér el az összes dolgozó átlagkeresetétől.
Hány százalékban magyarázza meg a nem a kereset szórását?
Milyen szoros a kapcsolat a nem és a kereset között?
A következő táblázat egy cég alkalmazottainak havi bruttó béreit tartalmazza három országban. Elemezzük az ismérvek közti kapcsolatot.
Bérek |
Ország | Össz. | ||
DE | AT | HU | ||
500-699 | 5 | 40 | 120 | 165 |
700-899 | 10 | 110 | 530 | 650 |
900-1099 | 70 | 650 | 230 | 950 |
1100- | 12 | 150 | 15 | 177 |
Total | 95 | 950 | 895 | 1940 |
Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:
A nők és férfiak keresete átlagosan 14 euróval tér el a nők és férfiak átlagkeresetétől, míg az összes dolgozó keresete 12%-al tér el az összes dolgozó 240 eurós átlagkeresetétől.
Hány százalékban magyarázza meg a nem a kereset szórását?
Milyen szoros a kapcsolat a nem és a kereset között?
KÉT ISMÉRV SZERINTI ELEMZÉS
[Szövegdoboz: MINŐSÉGI Nominális (névleges) A sokaság elemeit valamilyen tulajdonságok szerinti csoportokba soroljuk, de a csoportok közt nincs semmiféle rangsor példák: az áldozatok halálának oka a terroristák nemzetisége Ordinális (sorrendi) A csoportok között már felállítható sorrendiség példák: a hotelek besorolása (** *** **** *****) a vizsgázók jegyei (1, 2, 3, 4, 5 ) MENNYISÉGI Intervallum A sokaság elemeit itt már valamilyen mértékegység szerint osztályozzuk, de csak a „mennyivel több?” kérdésre tudunk válaszolni, a „hányszoros?”-ra nem példák: hőmérséklet (tegnap -5 fok volt, ma 0 fok, hányszor melegebb van?) Arány Itt is mértékegység szerinti az osztályozás, de a „hányszoros?” kérdésre is tudunk válaszolni (mindig 0-tól kezdünk mérni) példák: életkor testmagasság] Ebben a fejezetben azzal fogunk foglalkozni, hogy ha egy sokaságot két ismérv szerint is vizsgálunk, milyen kapcsolat adódhat ezen ismérvek között. Milyen erős összefüggés van például a nemzetiség és a terrorizmusra való hajlandóság vagy a matematikai szövegek olvasásával eltöltött idő és az ásítások száma között.
Ezek mind roppant izgalmas kérdések, mielőtt azonban minderre rátérnénk, először elevenítsük föl az ismérvek típusait.
A két ismérv szerinti elemzésnél az egyik ismérv is lehet minőségi vagy mennyiségi, meg a másik is, ami három különböző esetet jelent, egy vegyes esetet, amikor az egyik ilyen, másik olyan meg két nem, vegyes esetet. Ezeken kívül még egy negyedik eset is fölbukkan, de azzal csak említés szintjén foglalkozunk majd. A három eset tehát a következő négy:
1. Mindkét ismérv minőségi: ASSZOCIÁCIÓS KAPCSOLAT
[Szövegdoboz: Például egy cég alkalmazottjainak megoszlása neme és beosztása szerint Nő Férfi Total Vezető 7 18 25 Közép- vezető 11 23 34 Beosztott 756 185 941 Total 774 226 1000 Az így létrejövő táblát kombinációs táblának nevezzük, a táblázatban szereplő összes számadat mennyiséget jelent, szórást, átlagot és egyéb mutatókat egyik ismérv szerint sem tudunk számolni, kivéve, ha a csoportokhoz számokat rendelünk (pl nő=2 férfi=1) de ezen mutatóknak ekkor sincs valós jelentése.]
2. Az egyik ismérv minőségi, a másik mennyiségi: VEGYES KAPCSOLAT
[Szövegdoboz: Például egy város szállodáinak megoszlása az éjszakák ára és a szállodák besorolása alapján Szálloda típusa Total Árak (EUR/fő/éj) ** *** **** 0-50 37 8 1 46 51-100 15 40 3 58 101-150 10 33 12 55 151-200 4 22 15 41 Total 66 103 31 200 A táblázatban szereplő összes adat mennyiséget jelent, szórást, átlagot és egyéb mutatókat csak egy ismérv – az árak – szerint tudunk számolni.]
3. Mindkét ismérv mennyiségi: KORRELÁCIÓS KAPCSOLAT
[Szövegdoboz: Európa tíz országának az egy főre jutó GDP-je és a gépkocsik számának megoszlása ország GDP/fő (EUR) Gépkocsik száma (db/1000 fő) Ausztria 28 978 496 Belgium 30 349 447 Csehország 15 216 362 Franciaország 26 656 466 Görögország 17 942 245 Hollandia 28 669 388 Lengyelország 10 132 259 Magyarország 13 767 236 Németország 28 231 517 Svájc 31 987 486 A táblázat mindkét oszlopa mennyiségi adat, mindkét ismérv szerint tudunk szórást, átlagot és egyéb mutatókat számolni.]
4. Mindkét ismérv sorrendi: RANGKORRELÁCIÓS KAPCSOLAT
[Szövegdoboz: Két társadalmi csoportot kérdeztünk meg, hogy 1-től 10-ig rangsorolják az alábbi országokat, az alapján, hogy mennyire szívesen nyaralnának ott. ország Egyik csoport Másik csoport Ausztria 10 2 Belgium 9 6 Csehország 4 7 Franciaország 3 3 Görögország 1 8 Hollandia 7 5 Lengyelország 2 9 Magyarország 6 10 Németország 5 4 Svájc 8 1]
Két ismérv szerinti elemzésnél az eddig látott szokásos statisztikai mutatók kiszámolásán túl a két ismérv között fellelhető kapcsolatot fogjuk vizsgálni.
Azt, hogy milyen szoros kapcsolat van az ismérvek között, mindegyik esetben más módszerrel vizsgáljuk majd, de az eredmény mindig háromféle lehet: nincs kapcsolat, kicsit van kapcsolat és marhára van kapcsolat. A három esetet úgy hívjuk, hogy független, sztochasztikus és függvényszerű.
Mit jelentenek ezek? Nézzünk egy példát!
Egy cégnél felmérést készítettünk az alkalmazottak neme és munkabére szerinti megoszlásáról.
A két ismérv akkor független, ha a nők és a férfiak fizetésük szerinti megoszlása egyforma.
[Szövegdoboz: Havi bruttó Jövedelem (EUR) Nő Férfi Total 0-400 5 15 20 401-800 3 9 12 801-1200 2 6 8 Total 10 30 40]
[Szövegdoboz: 50% 30% 20%]
Ez azt jelenti, hogy darabra ugyan lehet, hogy nem egyezik meg a két oszlop, de százalékosan igen. A nőknek ugyanannyi százaléka keres max 400 EUR-t, mint a férfiaknak, ugyanannyi százalék keres 401-800 között, mint a férfiak stb.
Vagyis 50% keres max 400-at, 30% keres 401-800 között függetlenül attól, hogy nő-e vagy férfi.
A nő-férfi helyett lehetne magyar-svájci vagy buszsofőr-bankár, bármi ami részekre darabolja a teljes sokaságot. Ezeket hívjuk feltételes megoszlásnak, míg az egészet feltétel nélküli megoszlásnak. Most két feltételes megoszlás van, a női és a férfi feltételes megoszlás. A harmadik oszlop, a „total” pedig a feltétel nélküli megoszlás.
A két ismérv akkor független, ha minden feltételes megoszlás egyforma és megegyezik a feltétel nélküli megoszlással.
A két ismérv között függvényszerű kapcsolat van, ha nem minden feltételes megoszlás egyforma, de minden feltételes eloszlás szórása nulla.
A táblázat tehát valami ilyesmi:
Havi bruttó
jövedelem
(EUR)
Nő
Férfi
Total
0-400
10
0
10
401-800
0
30
30
801-1200
0
0
0
Total
10
30
40
Függvényszerű kapcsolatnál az egyik ismérv ismeretében a másik egyértelműen kitalálható. Ha valakiről tudjuk, hogy jövedelme 300 EUR, akkor az tuti biztos, hogy nő, ha valaki férfi, tuti biztos, hogy 401-800 között keres.
A két ismérv kapcsolata akkor függvényszerű, ha nem minden feltételes megoszlás egyforma de a feltételes megoszlások szórása nulla.
Ha a két ismérv közötti kapcsolat nem független és nem is függvényszerű, akkor sztochasztikus kapcsolatról beszélünk. Kicsit összefüggnek ugyan az adatok, de olyan nagyon azért nem. Íme a táblázat:
Havi bruttó
jövedelem
(EUR)
Nő
Férfi
Total
0-400
6
8
14
401-800
3
10
13
801-1200
1
12
13
Total
10
30
40
A feltételes megoszlások különböznek, a nők inkább kevesebb, a férfiak inkább több bért kapnak. Vagyis attól, hogy valaki nő,
1) várhatóan szarabb fizetést kap (nem független a kapcsolat)
2) de azért megeshet, hogy sokat kap (nem függvényszerű a kapcsolat)
A két ismérv kapcsolata akkor sztochasztikus, ha nem minden feltételes megoszlás egyforma de a feltételes megoszlások szórása nem mind nulla.
Asszociációs kapcsolat
Vegyük az iménti példánkat, egy cég alkalmazottjainak megoszlását neme és beosztása szerint. A táblázatban szereplő mindkét ismérv minőségi, ezért itt nincs értelme sem átlagot sem szórást, sem egyéb statisztikai mutatót számolni.
Mi az, amit tehát ilyenkor számolhatunk?
Nos ez általában a Cramer-féle asszociációs együttható, amely arra való, hogy ilyen esetekben – tehát amikor mindkét ismérv minőségi – rávilágítson a két ismérv közötti kapcsolat szorosságára. Most éppen arra, hogy vajon milyen szoros kapcsolat van az alkalmazottak neme és munkaköre között, vagyis igaz-e, hogy a nők kapják a szarabb állásokat. Íme a táblázat:
Nő
Férfi
Total
Vezető
7
18
25
Közép-
vezető
11
23
34
Beosztott
756
185
941
Total
774
226
1000
Ezt a táblázatot kombinációs táblának nevezzük, a táblázat általános sémája a következő:
…
…
Total
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
Total
N
Az első oszlop elemei, amint látjuk aztán és így tovább az általános tag ami közös bennük az az, hogy a második indexe mindegyiknek 1-es.
Az oszlop alján összegezzük őket, az összeg ami azt jelenti, hogy ez azoknak az elemeknek az összege, ahol a második index 1, az első index pedig tökmindegy, hogy mi, ezt hivatott jelezni a jel.
Aztán a második oszlopban tökugyanez a helyzet, az oszlopban lévő elemek alatta és így tovább, összegük pedig .
Ugyanez megy a sorokra is, az első sor elemei aztán és így tovább, itt az elemek első indexe egyezik meg, mindegyiknek 1-es, összegüket pedig úgy jelöljük, hogy .
A Cramer-féle együttható kiszámolásához szükségünk van egy fura állatfajtára, ami majd stat2-ben – ha ugye megérjük – lesz igazán izgalmas.
Nos ez a fura állatfajta a .
Azt a felső kis kettest úgy mondjuk, hogy négyzet, ami meg hát alatta van, az egy görög betű, ő a khí. Ezt a dolgot tehát úgy hívják, hogy khí négyzet.
Kiszámolása roppant barátságos.
A képletben látható a táblázatunkban szereplő számok, például vagy és így tovább. Ami izgalmasabb, az . Ehhez előbb egy kis mese.
[Szövegdoboz: Kis mese Ha emlékszünk rá, már volt róla szó, hogy két ismérv akkor független, ha minden feltételes eloszlás egyforma. Ha valakinek van kedve belegondolni, könnyen látszik, hogy ez a kombinációs táblák esetében mindig azt jelenti, hogy . Akinek nincs kedve belegondolni, az csak jegyezze meg: FÜGGETLEN =]
És itt kerül képbe , amit a következőképpen számolunk ki:
Ez azt jelenti, hogy megegyezik a csillag nélküli -vel, ha a két ismérv független, és tökmás, ha a két ismérv nem független. Legjobb lesz, ha megnézzük ezt a konkrét példánkon.
[Szövegdoboz: és és és és és és]
[Szövegdoboz: A *-os táblázat ( ) Nő Férfi Total Vezető 19,35 5,65 25 Közép- vezető 26,316 7,684 34 Beosztott 728,334 212,666 941 Total 774 226 1000] [Szövegdoboz: A valódi táblázat ( ) Nő Férfi Total Vezető 7 18 25 Közép- vezető 11 23 34 Beosztott 756 185 941 Total 774 226 1000]
A jelek szerint tehát a két ismérv – a beosztás és a nem – marhára nem független. Számoljuk ki ezt a bizonyos khí-négyzetet!
vagyis össze kell adogatni ezeket a törteket a táblázat minden mezőjére. Most 3X2-es táblázatunk van, tehát 6db ilyet adunk össze:
Most, hogy kiderült, a Cramer-együttható kiszámolása már csak pillanatok kérdése.
Cramer-féle asszociációs együttható
Itt az ott pedig azt jelenti, hogy r-1 és c-1 közül a minimális, ahol r=a táblázat sorainak száma és c=a táblázat oszlopainak száma.
Itt éppen 3 sor van tehát r-1=3-1=2 és 2 oszlop van, így c-1=2-1=1, ezek közül pedig a kisebbik 1. Vagyis a Cramer-mutató:
Vegyes kapcsolat
Ebben az esetben már van értelme átlagot, szórást és egyéb mutatókat számolni, de csak az egyik ismérv, a mennyiségi ismérv szerint. Vegyük például egy cég dolgozóinak megoszlását a dolgozók neme és fizetése alapján. Itt a dolgozók neme nyilvánvalóan minőségi, fizetésük nagysága pedig mennyiségi ismérv. Elsőként számoljuk ki az átlagot és a szórást.
Havi bruttó
jövedelem
(EUR)
Nő
Férfi
Total
0-400
60
90
150
401-800
30
30
60
801-1200
10
30
40
Total
100
150
250
Átlagot a mennyiségi ismérv szerint tudunk számolni, ami most a dolgozók bére. Az átlagos bért kiszámolhatjuk külön-külön a női és férfi dolgozókra, ezeket hívjuk részátlagnak, és kiszámolhatjuk az összes dolgozóra, ennek neve főátlag.
Nők bérének részátlaga:
Itt az osztályközepeket a női dolgozók darabszámaival súlyozzuk.
Férfiak bérének részátlaga:
Itt az osztályközepeket férfi dolgozók darabszámaival súlyozzuk.
A főátlagot kétféleképpen is kiszámolhatjuk.
[Szövegdoboz: Vagy a „total” oszlop alapján] [Szövegdoboz: Vagy a részátlagokat súlyozzuk a férfiak és a nők számával:]
Térjünk rá a szórások kiszámolására. Ha még emlékszünk rá, a szórás azt méri, hogy az egyes elemek – most a dolgozók bérei – mekkora mértékben térnek el az átlagostól. Mivel most többféle átlagunk is van, szórásból is többféle lesz. Ez rossz hírnek tűnik, de semmi ok az aggodalomra.
[Szövegdoboz: Havi bruttó jövedelem (EUR) Nő Férfi Total 0-400 60 90 150 401-800 30 30 60 801-1200 10 30 40 Total 100 150 250 Havi bruttó jövedelem (EUR) Nő Férfi Total 0-400 60 90 150 401-800 30 30 60 801-1200 10 30 40 Total 100 150 250 Havi bruttó jövedelem (EUR) Nő Férfi Total 0-400 60 90 150 401-800 30 30 60 801-1200 10 30 40 Total 100 150 250]
[Szövegdoboz: Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk. Ha ezeknek a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás. Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését, az a teljes szórás.]
A belső szórás kiszámolására két módszerünk lesz. Az egyik a jó módszer, a másik a rossz. Mindkettő a helyes eredményt adja, csak nem ugyanakkora szenvedések árán. Kezdjük a jó módszerrel.
A jó módszer lényege, hogy a szórást kiszámoljuk minden rész-sokaságra, mostani példánkban külön a nőkre és külön a férfiakra. Ezeket a szórásokat rész-szórásnak hívjuk.
Most két rész-szórás van:
A rész-szórásokból úgy lesz belső szórás, hogy súlyozzuk őket a rész-sokaságok számával.
A rossz módszer abban különbözik az előzőtől, hogy a belső szórást ömlesztve számoljuk, vagyis
[Szövegdoboz:]
Az eredmény így is úgy is ugyanaz:
A külső szórás a részátlagok főátlagtól való eltérését méri, ennek kiszámolása már-már szórakoztató:
A teljes szórás az egész sokaság szórását jelenti, vagyis ha nem bontjuk föl a sokaságot úgy, hogy nő/férfi vagy szép/ronda, tehát nem bontjuk föl részsokaságokra. Példánkban tehát 0-400 EUR bére 150 embernek van és tökmindegy, hogy nő vagy férfi. 400-800 EUR között 60 ember 800-1200 EUR között 40 ember:
A háromféle szórásra mindig teljesül a összefüggés.
Ha időnk engedi, érdemes tehát mindhárom szórást kiszámolni és megnézni, hogy valóban kijön-e a .
Ha ugyanis nem, akkor nagy baj van.
Ugyanez az összefüggés a szórások helyett leírható egy másik állatfajtával is, aminek neve eltérés-négyzetösszeg. Az eltérés-négyzetösszeg olyan szórás, ahol elfelejtettünk gyököt vonni.
Az eltérés-négyzetösszeget ugyanúgy számoljuk ki, ahogyan a szórást, csak nem vonunk gyököt és nem osztunk az elemszámmal. Ezért hívjuk eltérés-négyzetösszegnek, merthogy az eltérések négyzeteit adjuk össze.
Példánkban mondjuk a teljes szórás
a teljes eltérés-négyzetöszeg pedig
A menü tehát a következő:
[Szövegdoboz: Külső eltérés-négyzetösszeg SSK (sum of squares külső)] [Szövegdoboz: Külső szórás azt adja meg, hogy a részátlagok átlagosan mennyivel térnek el a főátlagtól:] [Szövegdoboz: Belső eltérés-négyzetösszeg SSB (sum of squares belső)] [Szövegdoboz: Belső szórás azt adja meg, hogy az egyes elemek átlagosan mennyivel térnek el a saját részátlaguktól:] [Szövegdoboz: Teljes szórás azt adja meg, hogy az egyes elemek átlagosan mennyivel térnek el a főátlagtól:] [Szövegdoboz: Teljes eltérés-négyzetösszeg SST (sum of squares teljes)]
Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE eljárással fogjuk megvizsgálni. A PRE egy rövidítés, Proportional Reduction Errors, ami relatív hibacsökkenésnek fordítható. Az eljárás lényege, hogy a PRE érték kiszámolásával megállapítható, az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.
Esetünkben az X azt jelenti, hogy férfi vagy nő, Y pedig a munkabér nagyságát. A PRE eljárással azt állapítjuk meg, hogy ha tudjuk valakiről, hogy férfi-e vagy nő, akkor hány százalékkal csökken a munkabére nagyságával kapcsolatos bizonytalanság.
Világos, hogy ha PRE=0, akkor ez a bizonytalanság egyáltalán nem csökken, tökmindegy, hogy valaki férfi vagy nő, ugyanakkora marad a bizonytalanság, ez pedig azt jelenti, hogy a két ismérv független.
Ha PRE=0 akkor a két ismérv független
Ha PRE=1 akkor a bizonytalanság 100%-al csökken, vagyis az alapján, hogy valaki férfi-e vagy nő, egészen pontosan meg tudjuk mondani mekkora a munkabére. Ilyenkor a két ismérv között függvényszerű kapcsolat van.
Ha PRE=1 akkor a két ismérv közt függvényszerű kapcsolat van.
Ha pedig PRE értéke valahol nulla és egy között van, akkor a kapcsolat nem független és nem is függvényszerű, tehát sztochasztikus.
A relatív hibacsökkenés vagyis a PRE kiszámolására a következő képlet van forgalomban:
Amint látszik marha sok lehetőségünk van a PRE kiszámolására, számolhatjuk az SS-ből is vagy ha valakiben ez félelmet kelt, akkor a szórásokból. Hasznos mindenesetre megjegyezni a fenti összefüggéseket, meg azt, hogy:
Amikor a két ismérv független
Amikor a két ismérv kapcsolata függvényszerű
Példánkban
Tehát
Ami azt jelenti, hogy 0,4%-al csökkenti a munkabér nagyságának bizonytalanságát, ha tudjuk az illető nemét.
Korrelációs kapcsolat
Ebben az esetben is tudunk átlagot, szórást és egyéb mutatókat számolni, ráadásul mindkét ismérv szerint. Példának vegyük, mondjuk Európa néhány országának megoszlását az egy főre jutó GDP és a gépkocsival rendelkező lakosok száma szerint.
ország
X
GDP/fő
(EUR)
Y
Gépkocsik száma
(db/1000 fő)
Ausztria AT
28 978
496
Belgium BE
30 349
447
Csehország CZ
15 216
362
Franciaország FR
26 656
465
Görögország GR
17 941
245
Hollandia NL
28 669
388
Lengyelország PL
10 135
259
Magyarország HU
13 767
235
Németország DE
28 232
517
Svájc CH
31 987
486
Elsőként itt is kiszámoljuk az átlagot meg a szórást, aztán elmorfondírozunk azon, vajon milyen szoros kapcsolat van a két ismérv között. Logikusnak tűnik, hogy minél nagyobb egy országban az egy főre jutó GDP, annál több embernek van kocsija, így várhatóan viszonylag szoros lesz a kapcsolat.
Az X ismérv szerinti átlag a jó öreg általános iskolás módszer: összeadogatjuk szépen a GDP-ket aztán elosztjuk 10-el, merthogy 10 ország van a listánkon.
Hasonlóan komoly kihívás Y átlaga:
Most jöhetnek a szórások. Itt mindjárt jön egy jó hír, de előbb számoljuk ki. Nem hülyeség a szórásokhoz először az úgynevezett eltérés-négyzetösszegeket kiszámolni, aminek jele . Az imént kapott átlagot minden ország GDP-jéből kivonjuk, aztán ezt négyzetre emeljük és összeadogatjuk őket. Csipetnyi fűszerrel ízesítjük és citromlevéllel tálaljuk:
Ekkor a szórás:
Tökugyanezt megcsináljuk Y-ra is.
A szórás pedig
Végül itt jön még egy izgalmas dolog.
Számoljuk ki ezt is.
[Szövegdoboz: Jó hír, hogy a feladatok nagy részében nem kell sokat bajlódnunk a szórásokkal, mert a feladat szövegében előre megadják ezeket:]
Térjünk rá a két ismérv közötti kapcsolat vizsgálatára.
Korrelációs kapcsolat esetén a legnagyobb a választék a különböző mutatókból és együtthatókból.
Az egyik legfontosabb – és jó hír, hogy ezt már meg is tudjuk mondani – a lineáris korrelációs együttható.
Ennek jele r, és a következőképpen kapjuk:
Számoljuk is ki:
A lineáris korrelációs együttható azt méri, hogy X és Y között milyen szoros lineáris kapcsolat van. Értéke mindig . Ha akkor X és Y között függvényszerű lineáris kapcsolat van, ha akkor nincs lineáris kapcsolat. De ettől másfajta kapcsolat még lehet, tehát esetén X és Y nem biztos, hogy független.
Most, a kijött 0,871-es érték egész magas, vagyis X és Y között már-már lineáris kapcsolat mutatható ki. Ezt mindjárt meg is nézzük.
Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete, annak kiderítésére, hogy az X értékek hány százalékban magyarázzák meg az Y-ra adódó értékeket.
Vagyis az értéke azt adja meg, hogy a X ismerete hány százalékkal csökkenti az Y nagyságával kapcsolatos bizonytalanságot. Most éppen tehát ami elég sok: X ismerete 75,8%-al csökkenti az Y nagyságával kapcsolatos bizonytalanságot.
Most térjünk vissza X és Y kapcsolatának vizsgálatára. A korreláció 0,871, ami viszonylag nagy, tehát kapcsolatuk lineáris szerű. Ez azt jelenti, hogy ha ábrázoljuk egy koordinátarendszerben az országokat, ahol az X tengelyen az egy főre jutó GDP-t, míg az Y-on az 1000 főre jutó gépkocsik számát mérjük, akkor azok nagyjából egy egyenes mentén helyezkednek el. Nézzük meg!
Ezt képzeletbeli egyenest regressziós egyenesnek nevezzük, és mindjárt meg is határozzuk. A regressziós egyenes egyenlete:
Lássuk, hogy ki kicsoda.
A pedig úgy jön ki, hogy az egyenletben helyére Y átlagát, helyére pedig X átlagát helyettesítjük. Ha valakinek jobban tetszik, megjegyezhető a képlet is, de az előbbi gondolatmenet sokkal szemléletesebb.
Nézzük meg a regressziós egyenest!
Ekkor
amibe X és Y átlagait helyettesítve
és ebből jön ki .
A regressziós egyenes tehát
A betűk fölé tett kis háztetők nem dekorációs célokat szolgálnak, hanem becslésen alapuló értékeket jelölnek. A regressziós egyenes egyenletében X felett nincs kalap, vagyis X tényleges érték, míg Y csak becsült. Ezt úgy kell értenünk, hogy ha
X=15 216 ami történetesen Csehország, akkor Y becsült értéke . A tényleges Y Csehország esetében Y=362. A tényleges érték a csehek esetében nagyobb, mint a becsült, így Csehország a trend-vonal felett van. Ha rápillantunk az ábrára, valóban. Számoljuk most ki a becsült értéket Görögországra is. A görögöknél X=17 941 így . A tényleges Y viszont csak Y=245, így a görögök a trend-vonal alatt vannak.
A regressziós egyenesen kívül létezik egy úgynevezett empirikus regressziós függvény is. A jobb szemléltetés érdekében ehhez alakítsuk át egy kicsit a táblázatunkat. Osszuk föl az egy főre jutó GDP és az ezer főre jutó gépkocsi számot is osztályközökre, például háromra.
1000 emberre Y
jutó gépkocsik
Total
Egy főre
jutó GDP
X
(ezer EUR)
0-249
250-499
500-749
10-19
2
2
0
4
20-29
0
3
1
4
30-39
0
2
0
1
Total
2
7
1
10
Ahogyan korábban a vegyes kapcsolat esetében, itt is megtehetjük, hogy az egyik ismérvet csak osztályozásra használjuk és a másik szerint számítunk átlagot, szórást meg ilyeneket. Legyen most az Y ismérv az, amit csak osztályozásra használunk. Ekkor X-nek az Y szerinti empirikus regressziós függvényét úgy kapjuk, ha minden Y osztályban kiszámoljuk X részátlagát.
Ezt ábrázolhatjuk egy koordinátarendszerben.
Ha mindezt fordítva csináljuk, és X-et használjuk osztályozásra, Y szerint pedig átlagokat számolunk, akkor az Y-nak X szerinti empirikus regressziós függvényét kapjuk.
Ezt is berajzoljuk a koordinátarendszerbe.
Az empirikus regressziós függvény nem képes kimutatni, hogy a két ismérv közötti kapcsolat sztochasztikus-e vagy függvényszerű. Ehhez vagy a már korábban látott lineáris korrelációs együtthatóra van szükségünk, vagy kiszámolhatjuk az úgynevezett determinációs hányadost.
X-nek az Y-ra vonatkozó determinációs hányadosa
Y-nak az X-re vonatkozó determinációs hányadosa
Fontos megjegyezni, hogy ha X és Y között sztochasztikus a kapcsolat,
általában . Számoljuk ki, és nézzük meg mi a helyzet most.
Hasonlóan izgalmas körülmények között kapjuk, hogy
Empirikus regressziós függvényt és determinációs hányadost is azonban csak akkor célszerű számolni, ha a megfigyelt sokaság elég nagy ahhoz, hogy az X és Y szerint képzett részsokaságok mindegyikében egynél több – lehetőleg minél több – elem van. Ha ez nem teljesül, a kapott eredmények gyakran lehetnek félrevezetők. Jelenleg is ez a helyzet például mindkét empirikus regressziós függvénnyel. A narancs színű például azt sejteti, hogy a GDP növekedésével a gépkocsik száma egyre meredekebben emelkedik, de ez egyáltalán nincs így.
A kék ezzel ellentétesen azt mutatja, hogy a GDP növekedésével visszaesés van a gépkocsik számában, ami szintén hamisnak bizonyul.
3.1. A népesség legmagasabb iskolai végzettségük és nemük szerinti megoszlása reprezentatív felmérés alapján 2001-ben Magyarországon az alábbi volt.
Legmagasabb
iskolai végzettség
Nő
Férfi
Total
8 általános
vagy kevesebb
84
82
166
Érettségi, vagy
szakiskolai
1892
2055
3947
Felsőfokú
586
561
1147
Total
2562
2698
5260
Állapítsuk meg, a nem és az iskolai végzettség közötti kapcsolat szorosságát.
A kapcsolat szorosságát a Cramer-féle együtthatóval fogjuk vizsgálni.
Ehhez szükségünk van a -re, aminek kiszámolása roppant barátságos.
Ehhez előállítjuk -okat, amit a következőképpen számolunk ki:
[Szövegdoboz: A *-os táblázat ( ) Legmagasabb iskolai végzettség Nő Férfi Total 8 általános vagy kevesebb 81 85 166 Érettségi, vagy Szakiskolai 1922,5 2024,5 3947 Felsőfokú 558,6 588,25 1147 Total 2562 2698 5260] [Szövegdoboz: A valódi táblázat ( ) Legmagasabb Iskolai végzettség Nő Férfi Total 8 általános vagy kevesebb 84 82 166 Érettségi, vagy Szakiskolai 1892 2055 3947 Felsőfokú 586 561 1147 Total 2562 2698 5260]
[Szövegdoboz: és és és és és és]
A jelek szerint tehát a két ismérv – a nem és az iskolai végzettség – nem független. Számoljuk ki ezt a bizonyos khí-négyzetet!
Most, hogy kiderült, a Cramer-együttható kiszámolása már csak pillanatok kérdése.
Cramer-féle asszociációs együttható
Itt és r=a táblázat sorainak száma és c=a táblázat oszlopainak száma. Itt éppen 3 sor van tehát r-1=3-1=2 és 2 oszlop van, így c-1=2-1=1, ezek közül pedig a kisebbik 1. Vagyis a Cramer-mutató:
3.2. A következő táblázat egy város szállodáinak ár és besorolás szerinti megoszlását tartalmazza. Elemezzük az ismérvek közti kapcsolatot.
Szálloda típusa
Total
Árak
(EUR/fő/éj)
**
***
****
0-50
37
8
1
46
51-100
15
40
3
58
101-150
10
33
12
55
151-200
4
22
15
41
Total
66
103
31
200
Először kiszámoljuk az átlagokat.
A ** szállodák árának átlaga
A *** szállodák árának átlaga
A **** szállodák árának átlaga
A főátlagot kétféleképpen is kiszámolhatjuk.
[Szövegdoboz: Vagy a „total” oszlop alapján] [Szövegdoboz: Vagy a részátlagokat súlyozzuk a szálloda-típusok számával:]
Térjünk rá a szórások kiszámolására.
[Szövegdoboz: Szálloda típusa Total Árak (EUR/fő/éj) ** *** **** 0-50 37 8 1 46 51-100 15 40 3 58 101-150 10 33 12 55 151-200 4 22 15 41 Total 66 103 31 200 Szálloda típusa Total Árak (EUR/fő/éj) ** *** **** 0-50 37 8 1 46 51-100 15 40 3 58 101-150 10 33 12 55 151-200 4 22 15 41 Total 66 103 31 200 Szálloda típusa Total Árak (EUR/fő/éj) ** *** **** 0-50 37 8 1 46 51-100 15 40 3 58 101-150 10 33 12 55 151-200 4 22 15 41 Total 66 103 31 200] [Szövegdoboz: Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk. Ehhez először a rész-szórásokat számoljuk ki: ** *** **** A belső szórás tehát Ha ezeknek a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás. Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését, az a teljes szórás.]
A háromféle szórásra mindig teljesül a összefüggés.
Ha időnk engedi, érdemes tehát mindhárom szórást kiszámolni és megnézni, hogy valóban kijön-e a .
Ha ugyanis nem, akkor nagy baj van.
Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE (Proportional Reduction Errors ) eljárással fogjuk megvizsgálni, ami azt adja meg, hogy az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.
Tehát
Ami azt jelenti, hogy 29%-al csökkenti a szálloda árának bizonytalanságát, ha tudjuk, hogy hány csillagos.
Nem hülyeség azonban megjegyezni, hogy a PRE kiszámolásához elegendő a háromféle szórásból mindössze kettő is. Mivel a legkellemetlenebb a belső szórás kiszámolása, érdemes azt mellőzni, és csak a másik kettőt kiszámolni. Ha persze maga a feladat igényli a belső szórás kiszámolását, akkor sajna nem ússzuk meg.
Szintén érdemes megjegyezni, hogy a PRE kiszámolható szórások helyett az eltérés-négyzetösszegek segítségével, amiket egy hangyányival könnyebben megkapunk.
3.3. Néhány ország középfokú iskolai képzésének egy diákra jutó oktatási ráfordítása illetve az éves egy főre jutó GDP adatai láthatók az alábbi táblázatban. Állapítsuk meg a két ismérv közti kapcsolat szorosságát, adjuk meg a regressziós egyenest.
ország
X
GDP/fő
(EUR)
Y
Oktatási ráfordítás
(Középfokú képzés diák/EUR)
Ausztria AT
28 978
76 900
Belgium BE
30 349
61 000
Csehország CZ
15 216
33 800
Franciaország FR
26 656
57 600
Görögország GR
17 941
59 200
Hollandia NL
28 669
61 500
Lengyelország PL
10 135
30 700
Magyarország HU
13 767
33 000
Németország DE
28 232
65 300
Svájc CH
31 987
60 400
Elsőként kiszámoljuk az átlagokat. Az X ismérv szerinti átlag a jó öreg általános iskolás módszer: összeadogatjuk szépen a GDP-ket aztán elosztjuk 10-el, merthogy 10 ország van a listánkon.
Valahogyan megbirkózunk Y átlagával is:
Most jöhetnek a szórások. Nem hülyeség a szórásokhoz először az úgynevezett eltérés-négyzetösszegeket kiszámolni, aminek jele .
Ekkor a szórás:
Tökugyanezt megcsináljuk Y-ra is.
A szórás pedig
Végül itt jön még egy izgalmas dolog.
Számoljuk ki ezt is.
Térjünk rá a két ismérv közötti kapcsolat vizsgálatára.
Először kiszámoljuk a lineáris korrelációs együtthatót, aztán felírjuk a regressziós egyenes egyenletét.
Számoljuk ki. A hozzávalókat itt gyűjtjük ebben a dobozban.
[Szövegdoboz:]
A lineáris korrelációs együttható azt méri, hogy X és Y között milyen szoros lineáris kapcsolat van. Értéke mindig . Ha akkor X és Y között függvényszerű lineáris kapcsolat van, ha akkor nincs lineáris kapcsolat. De ettől másfajta kapcsolat még lehet. A most kijött 0,866-os érték egész magas, vagyis X és Y között már-már lineáris kapcsolat mutatható ki. Ezt mindjárt meg is nézzük.
Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete, annak kiderítésére, hogy az X értékek hány százalékban magyarázzák meg az Y-ra adódó értékeket.
Vagyis az értéke azt adja meg, hogy a X ismerete hány százalékkal csökkenti az Y nagyságával kapcsolatos bizonytalanságot. Most éppen tehát ami elég sok: X ismerete 75%-al csökkenti az Y nagyságával kapcsolatos bizonytalanságot.
Térjünk rá a regressziós egyenesre! A regressziós egyenes egyenlete
ahol
a pedig úgy jön ki, hogy az egyenletben helyére Y átlagát, helyére pedig X átlagát helyettesítjük.
Jelenleg
Ekkor
amibe X és Y átlagait helyettesítve
és ebből jön ki .
A regressziós egyenes tehát
A betűk fölé tett kis háztetők becslésen alapuló értékeket jelölnek. A regressziós egyenes egyenletében X felett nincs kalap, vagyis X tényleges érték, míg Y csak becsült. Ezt úgy kell értenünk, hogy ha X=28 978 ami történetesen Ausztria éves egy főre jutó GDP-je, akkor Y becsült értéke vagyis elvileg ennyit kéne költeni a trend szerint minden középiskolásra, de az osztrákok biztosra mennek, mert a tényleges Y esetükben Y=76 900. Ausztria így a trend-vonal felett van. Ha rápillantunk az ábrára, valóban. Számoljuk most ki a becsült értéket Magyarországra is.
Ekkor X=13 767 így . A tényleges Y viszont csak Y=33 000, így a trend-vonal alatt vagyunk.
3.4. Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:
Alkalmazottak
száma (%)
Bruttó jövedelem
(USD)
átlag
szórás
Nő
56
2000
510
Férfi
44
2500
360
Összesen
100
Hány százalékban magyarázza meg a nem a bruttó jövedelem szórását?
Milyen szoros a kapcsolat a nem és a kereset között?
Elsőként nézzük meg az összes dolgozó átlagbérét.
Ez alighanem egy súlyozott átlag:
Most pedig szükségünk van a különböző szórásokra.
Lássuk csak melyik szórást tudjuk kiszámolni. A részátlagoknak a főátlagtól való eltérését adja meg a külső szórás:
A belső szórást pedig megkapjuk a rész-szórásokból:
A teljes szórás ekkor vagyis
A kapcsolat szorossága:
A nem 23,3%-ban magyarázza meg a kereset nagyságát.
A kapcsolat szorossága vagyis a közepesnél gyengébb.
3.5. Egy 40 lakásos társasház átlagos napi gázfogyasztása a téli időszakban a lakások szobáinak száma szerint a következő
Szobák száma
Total
Fogyasztás
(köbméter)
1
2
3
3
4
1
-
5
4
8
2
-
10
5
2
7
2
11
6
-
10
4
14
Total
14
20
6
40
Adjuk meg az átlagos napi gázfogyasztást az egyes szobaszámok esetén. Jellemezzük a lakások szobaszáma és a napi gázfogyasztás közötti összefüggést a H érték kiszámolásával.
Először kiszámoljuk az átlagokat.
1 szobás lakás napi átlaga
2 szobás lakás napi átlaga
3 szobás lakás napi átlaga
A főátlagot kétféleképpen is kiszámolhatjuk.
[Szövegdoboz: Vagy a „total” oszlop alapján] [Szövegdoboz: Vagy a részátlagokat súlyozzuk a lakás-típusok számával:]
Térjünk rá a szórások kiszámolására.
[Szövegdoboz: Szobák száma Total Fogyasztás (köbméter) 1 2 3 3 4 1 - 5 4 8 2 - 10 5 2 7 2 11 6 - 10 4 14 Total 14 20 6 40 Szobák száma Total Fogyasztás (köbméter) 1 2 3 3 4 1 - 5 4 8 2 - 10 5 2 7 2 11 6 - 10 4 14 Total 14 20 6 40 Szobák száma Total Fogyasztás (köbméter) 1 2 3 3 4 1 - 5 4 8 2 - 10 5 2 7 2 11 6 - 10 4 14 Total 14 20 6 40] [Szövegdoboz: Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk. Ehhez először a rész-szórásokat számoljuk ki: A belső szórás tehát Ha ezeknek a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás. Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését, az a teljes szórás.]
Ugyanez az összefüggés a szórások helyett leírható az eltérés-négyzetösszeg segítségével is.
Emlékeztetőül a menü tehát a következő:
[Szövegdoboz: Külső eltérés-négyzetösszeg SSK (sum of squares külső)] [Szövegdoboz: Külső szórás azt adja meg, hogy a részátlagok átlagosan mennyivel térnek el a főátlagtól:] [Szövegdoboz: Belső eltérés-négyzetösszeg SSB (sum of squares belső)] [Szövegdoboz: Belső szórás azt adja meg, hogy az egyes elemek átlagosan mennyivel térnek el a saját részátlaguktól:] [Szövegdoboz: Teljes szórás azt adja meg, hogy az egyes elemek átlagosan mennyivel térnek el a főátlagtól:] [Szövegdoboz: Teljes eltérés-négyzetösszeg SST (sum of squares teljes)]
Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE eljárással fogjuk megvizsgálni. A PRE érték kiszámolásával megállapítható, az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.
Most éppen
Tehát
Ami azt jelenti, hogy 50%-al csökkenti a napi gázfogyasztás nagyságának bizonytalan-ságát, ha tudjuk a lakás szobáinak a számát.
3.6. A következő táblázat néhány ország egy főre jutó GDP adatait illetve a nők első házasságkötésük kori életkorát tartalmazza. Állapítsuk meg a két ismérv közti kapcsolat szorosságát, adjuk meg a regressziós egyenest.
ország
X
GDP/fő
(EUR)
Y
Nők életkora
házasságkötéskor
Ausztria AT
28 978
26,6
Belgium BE
30 349
29,8
Csehország CZ
15 216
28,9
Franciaország FR
26 656
31,6
Görögország GR
17 941
26,9
Hollandia NL
28 669
26,9
Lengyelország PL
10 135
25,3
Magyarország HU
13 767
29,7
Németország DE
28 232
31
Svájc CH
31 987
29,4
Ismeretes, hogy
Elsőként kiszámoljuk az átlagokat. Az X ismérv szerinti átlag a jó öreg általános iskolás módszer: összeadogatjuk szépen a GDP-ket aztán elosztjuk 10-el, merthogy 10 ország van a listánkon.
Valahogyan megbirkózunk Y átlagával is:
Most jöhetnek a szórások. Szerencsére meg van adva, hogy ezért a szórás már meg is van:
Mázlink van Y-nal is:
Végül itt van még ez is:
Térjünk rá a két ismérv közötti kapcsolat vizsgálatára.
Először kiszámoljuk a lineáris korrelációs együtthatót, aztán felírjuk a regressziós egyenes egyenletét.
A lineáris korrelációs együttható azt méri, hogy X és Y között milyen szoros lineáris kapcsolat van. Értéke mindig . Ha akkor X és Y között függvényszerű lineáris kapcsolat van, ha akkor nincs lineáris kapcsolat. De ettől másfajta kapcsolat még lehet. A most kijött 0,3765 érték alacsony, vagyis X és Y között nem túl szoros kapcsolat van.
Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete, annak kiderítésére, hogy az X értékek hány százalékban magyarázzák meg az Y-ra adódó értékeket.
Vagyis az értéke azt adja meg, hogy a X ismerete hány százalékkal csökkenti az Y nagyságával kapcsolatos bizonytalanságot. Most éppen tehát vagyis X ismerete 14%-al csökkenti az Y nagyságával kapcsolatos bizonytalanságot.
Térjünk rá a regressziós egyenesre! A regressziós egyenes egyenlete
ahol
a pedig úgy jön ki, hogy az egyenletben helyére Y átlagát, helyére pedig X átlagát helyettesítjük.
Jelenleg
Ekkor
amibe X és Y átlagait helyettesítve
és ebből jön ki .
A regressziós egyenes tehát
3.7. Egy város lakosairól készült felmérés alapján az alábbi adatok álnak rendelkezésre:
Alkalmazottak
száma (ezer fő)
Bruttó jövedelem
(USD)
átlag
szórás
Pénzügyi szféra
120
2000
520
Szolgáltatói szféra
140
1500
340
Állami szféra
90
1000
210
Termelői szféra
130
980
220
Összesen
480
Mekkora a felsorolt szektorok átlagbére? Mekkora a szórás? Egy lakos foglalkozása hány százalékban magyarázza bruttó jövedelmének nagyságát?
Először a főátlagot. A részátlagokat súlyozzuk az alkalmazottak számával:
Térjünk rá a szórások kiszámolására.
Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk.
A belső szórás tehát
Ha a részátlagoknak nézzük a főátlagtól való eltérését,
az a külső szórás.
Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését,
az a teljes szórás. Ezt most csak úgy tudjuk kiszámolni, hogy a háromféle szórásra mindig teljesül a összefüggés.
Így hát
Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE (Proportional Reduction Errors ) eljárással fogjuk megvizsgálni, ami azt adja meg, hogy az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.
Tehát
Ami azt jelenti, hogy egy lakos foglalkozásának ismerete 58%-al csökkenti a bruttó jövedelmének nagyságával kapcsolatos bizonytalanságot.
3.8. Egy kábelgyárban megvizsgálták a 150 dolgozó neme és iskolai végzettsége közötti kapcsolatot. Az alábbi adatokat kapták:
A dolgozók 80%-a férfi.
A férfiak 15%-a szakképzett, míg 25%-uk csak 8 általánost végzett.
A szakképzettek közül minden harmadik nő.
A gimnáziumi végzettségűekre teljesül a függetlenség feltétele.
Adjuk meg az iskolai végzettség és nem szerinti megoszlást. Jellemezzük a kapcsolat szorosságát.
Mindkét ismérv minőségi, így kombinációs, más néven kontingencia táblát fogunk kapni.
Az egyik ismérv a férfi-nő, a másik a végzettség:
férfi
nő
össz
8 általános
30
3
33
Gimnáziumi
72
18
90
Szakképzett
18
9
27
össz
120
30
150
Ha a dolgozók 80%-a férfi, akkor férfi és így 30 nő dolgozik az üzemben.
A férfiak 15%-a szakképzett, ami és 25%-uk 8 általánost végzett, ami 30.
A többiek végzettsége gimnáziumi.
A szakképzettek közül minden harmadik nő, vagyis kétszer annyi férfi van. Mivel pedig 18 férfi van, alighanem 9 nő.
A gimnáziumi végzettségűekre teljesül a függetlenség, ami azt jelenti, hogy a férfi-nő arány a teljes sokaságban ugyanolyan, mint a gimnáziumot végzettek körében. A teljes sokaságban a férfiak aránya 80%, így akkor a gimnáziumi végzettségűek körében is. Az összes gimnáziumi végzettségű x db, akkor tehát x=90. A nők száma így 18.
A táblázattal megvolnánk, térjünk rá a kapcsolat szorosságának vizsgálatára.
A Cramer-mutatót és a Csuprov-mutatót számoljuk ki.
Csináljunk egy táblázatot.
[Szövegdoboz: táblázat férfi nő össz 8 általános 26,4 6,6 33 Gimnáziumi 72 18 90 Szakképzett 21,6 5,4 27 össz 120 30 150] [Szövegdoboz: eredeti táblázat férfi nő össz 8 általános 30 3 33 Gimnáziumi 72 18 90 Szakképzett 18 9 27 össz 120 30 150]
Cramer-mutató:
Csuprov-mutató:
A két ismérv között gyenge kapcsolat van.
3.9. Egy városban a családi házban lakók átlagosan 80 percet, míg a társasházban lakók 72 percet töltenek naponta utazással. Milyen szoros a kapcsolat a lakás típusa és az utazással eltöltött idő között, ha minden ötödik lakos családi házban lakik és az összes lakos utazással töltött idejének szórása az átlag 10%-a?
Rész-
Sokaságok
Rész-
arány
átlag
Családi ház
20%
80
társasház
80%
72
össz
100%
73,6
Az átlagosan utazással töltött idő:
A teljes szórás az átlag 10%-a vagyis 7,36
A külső szórás a részátlagoknak a főátlagtól való eltérését méri, vagyis:
A kapcsolat szorossága:
A lakás típusa 19%-ban magyarázza meg az utazással eltöltött idő nagyságát.
3.10 A népesség legmagasabb iskolai végzettsége és munkája szerinti megoszlása egy 1000 fős reprezentatív felmérés alapján az alábbi volt.
Legmagasabb
iskolai végzettség
Munka típusa
Total
Nehéz
Fizikai
Könnyű
fizikai
Szellemi
8 általános
92
23
10
125
Érettségi, vagy
47
280
163
490
Felsőfokú
6
74
305
385
Total
145
377
478
1000
a)Adjuk meg a peremeloszlások alapján a munka típusa és az iskolai végzettség közötti kapcsolat eloszlását abban az esetben, ha a két ismérv független lenne.
b)Állapítsuk meg, a munka típusa és az iskolai végzettség közötti kapcsolat szorosságát.
Először előállítjuk -okat, amit a következőképpen számolunk ki:
[Szövegdoboz: A valódi táblázat ( ) Legmagasabb iskolai végzettség Munka típusa Total Nehéz Fizikai Könnyű fizikai Szellemi 8 általános 92 23 10 125 Érettségi, vagy 47 280 163 490 Felsőfokú 6 74 305 385 Total 145 377 478 1000]
[Szövegdoboz: és és és és és és és és és]
[Szövegdoboz: A *-os táblázat ( ) Legmagasabb iskolai végzettség Munka típusa Total Nehéz Fizikai Könnyű fizikai Szellemi 8 általános 18,125 47,125 59,75 125 Érettségi, vagy 71,05 184,73 234,22 490 Felsőfokú 55,825 145,145 184,03 385 Total 145 377 478 1000]
Most térjünk rá a két ismérv közötti kapcsolat szorosságának vizsgálatára.
Így, hogy végre kiderült, a Cramer-együttható kiszámolása már tulajdonképpen szórakoztató:
A Csuprov-féle asszociációs együttható most ugyanazt az értéket adja:
3.11. Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:
Nők
Férfiak
Kifizetett
összes bér
(USD)
Átlagbér
(USD)
Létszám
(fő)
Átlagbér
(USD)
47 040
840
78
960
Az egyes dolgozók keresete átlagosan 25%-al tér el az összes dolgozó átlagkeresetétől.
Hány százalékban magyarázza meg a nem a kereset szórását?
Milyen szoros a kapcsolat a nem és a kereset között?
Számoljuk ki, hogy hány nő van. Ehhez a kifizetett összes bért osztjuk az átlagbérrel:
Most, hogy ez kiderült, nézzük meg az összes dolgozó átlagbérét.
Ez egy nagyon bonyolult súlyozott átlag:
A teljes szórás az átlag 25%-a vagyis
Lássuk csak melyik szórást tudjuk még kiszámolni. A belső szórás a tényleges fizetések részátlagoktól való eltérése. A tényleges fizetéseket viszont sajnálatosan nem tudjuk.
A külső szórás a részátlagoknak a főátlagtól való eltérését méri, na ez viszont jónak tűnik:
A kapcsolat szorossága:
A nem 6,77%-ban magyarázza meg a kereset nagyságát.
A kapcsolat szorossága vagyis gyenge.
3.12. A következő táblázat egy cég alkalmazottainak havi béreit tartalmazza három országban. Elemezzük az ismérvek közti kapcsolatot.
Ország
Total
Bérek
(EUR)
DE
AT
HU
500-699
5
40
120
165
700-899
10
110
530
650
900-1099
70
650
230
950
1100-
12
150
15
177
Total
95
950
895
1940
Először kiszámoljuk az átlagokat.
A német dolgozók bérének átlaga
Az osztrák dolgozók bérének átlaga
A magyar dolgozók bérének átlaga
A főátlagot kétféleképpen is kiszámolhatjuk.
[Szövegdoboz: Vagy a „total” oszlop alapján] [Szövegdoboz: Vagy a részátlagokat súlyozzuk a rész- sokaságok számával:]
Térjünk rá a szórások kiszámolására.
[Szövegdoboz: Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk. Ehhez először a rész-szórásokat számoljuk ki: DE AT HU A belső szórás tehát Ha ezeknek a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás. Ha pedig az egyes értékeknek nézzük a főátlagtól való eltérését, az a teljes szórás.] [Szövegdoboz: Ország Total Bérek (EUR) DE AT HU 500-699 5 40 120 165 700-899 10 110 530 650 900-1099 70 650 230 950 1100- 12 150 15 177 Total 95 950 895 1940 Ország Total Bérek (EUR) DE AT HU 500-699 5 40 120 165 700-899 10 110 530 650 900-1099 70 650 230 950 1100- 12 150 15 177 Total 95 950 895 1940 Ország Total Bérek (EUR) DE AT HU 500-699 5 40 120 165 700-899 10 110 530 650 900-1099 70 650 230 950 1100- 12 150 15 177 Total 95 950 895 1940]
Most nézzük meg, milyen szoros kapcsolat van a két ismérv között. Ezt az úgynevezett PRE (Proportional Reduction Errors ) eljárással fogjuk megvizsgálni, ami azt adja meg, hogy az X ismérv ismerete hány százalékkal csökkenti az Y ismérv nagyságával kapcsolatos bizonytalanságot.
Tehát
Ami azt jelenti, hogy 27%-al csökkenti az alkalmazottak bérének bizonytalanságát, ha tudjuk, hogy melyik országban dolgozik.
A PRE kiszámolásához egyébként elegendő, ha a háromféle szórásból csak kettőt számolunk ki. Mivel a legkellemetlenebb a belső szórás, érdemes azt mellőzni, és csak a másik kettőt kiszámolni. Ha persze maga a feladat igényli a belső szórás kiszámolását, akkor sajna nem ússzuk meg.
Szintén érdemes megjegyezni, hogy a PRE kiszámolható szórások helyett az eltérés-négyzetösszegek segítségével, amiket egy hangyányival könnyebben megkapunk.
3.13. Egy cég dolgozóinak keresetéről az alábbiakat tudjuk:
Az nők és férfiak keresete átlagosan 14 euróval tér el a nők és férfiak átlagkeresetétől, míg a az összes dolgozó keresete 12%-al tér el az összes dolgozó 240 eurós átlagkeresetétől.
Hány százalékban magyarázza meg a nem a kereset szórását?
Milyen szoros a kapcsolat a nem és a kereset között?
A nők és férfiak keresetének a részátlagoktól való eltérése a belső szórás.
Az összes dolgozó keresetének eltérése a főátlagtól a teljes szórás, ami az átlag 12%-a, tehát:
Most, hogy megvan a belső szórás és a teljes szórás:
Tehát
A nem 76,4%-ban magyarázza meg a kereset nagyságát.