- Kombinatorika
- Valszám alapok, klasszikus valszám
- Teljes valószínűség tétele, Bayes tétel
- Eloszlás, eloszlásfüggvény, sűrűségfüggvény
- Várható érték és szórás
- Markov és Csebisev egyenlőtlenségek
- A binomiális eloszlás és a hipergeometriai eloszlás
- Nevezetes diszkrét és folytonos eloszlások
- Becslések
- Hipotézisvizsgálat
- Regressziószámítás
- Idősorok
Regressziószámítás
Lineáris regresszió
A regresszió egyenes egyenlete:
\( y = b_0 + b_1 \cdot x \)
Ahol $b_1 = \frac{\sum dx \cdot dy}{\sum d^2 x}$ és $b_0 = \overline{y}-b_1 \cdot \overline{x} $
A regressziós egyenes egyenletében szereplő regressziós paraméterek közül $b_1$ az egyenes meredeksége. A $b_0$ érték kevésbé jelentős, ez azt adja meg, hogy a magyarázó változó nulla értékéhez milyen $y$ érték tartozik.
Reziduum
A regressziós egyenes egyenlete $ \hat{y} = \hat{b_0}+\hat{b_1} \cdot x$
Ez egy lineáris függvény, ami mindegyik x-hez hozzárendel valamilyen y-t. Ezek általánan eltérnek a valódi y-októl. Ezeket az eltéréseket reziduumoknak nevezzük.
SSE
A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg.
$ SSE = \sum e_i^2 = \sum (y_i - \hat{y}_i ) ^2$
Ha a regresszió tökéletesen illeszkedik, akkor az $e_i = y_i - \hat{y}_i$ különbségek mindegyike 0, így SSE=0. Ha az illeszkedés nem tökéletes, akkor SSE egy pozitív érték, ami az illeszkedés pontatlanságát méri.
Reziduális szórás
Ha az SSE értékeit elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét, akkor kapjuk a reziduális szórást:
$ s_e^{*} = \sqrt{ \frac{SSE}{n}} = \sqrt{ \frac{\sum e_i^2}{n}} = \sqrt{ \frac{\sum (y_i - \hat{y}_i)^2}{n}} $
Lineáris korrelációs együttható
Az illeszkedés egy mérőszáma a lineáris korrelációs együttható:
$ r = \frac{\sum dx \cdot dy}{\sqrt{\sum d^2 x \cdot \sum d^2 y}} $
A lineáris korrelációs együttható azt méri, hogy x és y között milyen szoros lineáris kapcsolat van. Értéke mindig $-1 \leq r \leq 1 $.
Determinációs együttható
A magyarázóerőt méri az úgynevezett determinációs együttható, melynek jele $R^2$. Ez a kétváltozós lineáris modell esetében megegyezik $r^2$-tel.
$R^2 = \frac{SSR}{SST}=1-\frac{SSE}{SST} $
Itt SSE az eltérés-négyzetösszeg, míg SSR az úgynevezett regressziós, vagy magyarázó négyzetösszeg, SST pedig a teljes négyzetösszeg, a köztük lévő kapcsolat pedig...
$SST = \sum d^2 y \quad SSR = \sum ( \hat{y}_i - \overline{\hat{y}} )^2 = b_1^2 \sum d^2 x \quad SSE = \sum (y_i - \hat{y}_i)^2 = \sum e_i^2$
Hatványkitevős regresszió
A regresszió egyenes egyenlete:
\( \hat{y} = \hat{b}_0 \cdot x^{\hat{b}_1} \)
Amiből
\( \lg{ \hat{y}} = \lg{ \hat{b}_0} + \hat{b}_1 \cdot \lg{ x} \)
Ahol $\hat{b}_1 = \frac{\sum d \lg{ x} \cdot d \lg{ y}}{\sum d^2 \lg{ x}}$ és $\lg{ \hat{b}_0} = \overline{ \lg{ y} } - \overline{\lg{ x}}\cdot \hat{b}_1$
Exponenciális regresszió
A regresszió egyenes egyenlete:
\( \hat{y} = \hat{b}_0 \cdot \hat{b}_1^x\)
Amiből
\( \lg{ \hat{y}} = \lg{ \hat{b}_0} + x \cdot \hat{b}_1 \)
Ahol $\lg{\hat{b}_1} = \frac{\sum dx \cdot d \lg{ y}}{\sum d^2 x}$ és $\lg{ \hat{b}_0} = \overline{ \lg{ y} } - \overline{x}\cdot \lg{\hat{b}_1}$
Elaszticitás
Az elaszticitás két összefüggő jelenség közti kapcsolat.
Lineáris modellben: $El( \hat{y}, x) = \frac{\hat{b}_1 x}{\hat{y}}=\frac{\hat{b}_1 x}{\hat{b}_0+\hat{b}_1 x}$
Hatványkitevős modellben: $El( \hat{y}, x)=\hat{b}_1$
Exponenciális modellben: $El( \hat{y}, x) = x \cdot \ln{\hat{b}_1} $
Standard lineáris modell feltételei
I. A magyarázó változók nem valószínűségi változók.
II. A magyarázó változók lineárisan független rendszert alkotnak.
III. Az eredményváltozó közel lineáris függvénye a magyarázó változónak.
IV. Az $\epsilon$ hibatag feltételes eloszlása normális, várható értéke nulla.
V. Az $\epsilon$ hibatag különböző x-ekhez tartozó értékei korrelálatlanok.
Becslések a standard lineáris modellben
A paraméterek becslése:
\( \hat{b}_i \pm t_{1 - \frac{\alpha}{2} } \cdot (n-k-1) \cdot s_{ \hat{b}_i} \)
A regresszió becslése:
\( \hat{y}_{*} \pm t_{1 - \frac{\alpha}{2} } \cdot (n-k-1) \cdot s_{ \hat{y}_{*}} \)
Trigonometriai összefüggések
\( \tan{x} = \frac{ \sin{x} }{ \cos{x} } \)
\( \cot{x} = \frac{ \cos{x} }{ \sin{x} } \)
\( \sin^2{\alpha} + \cos^2{\alpha} = 1 \quad \sin^2{\alpha} = 1-\cos^2{\alpha} \quad \cos^2{\alpha}=1-\sin^2{\alpha} \)
\( \cos{\alpha} = \sin{ \left( \frac{ \pi}{2} - \alpha \right) } \quad \cos{\alpha} = \sin{ \left( \alpha + \frac{ \pi}{2}\right) } \quad \sin{\alpha} = \sin{ ( \pi - \alpha) }\)
\( \sin{\alpha} = \cos{ \left( \frac{ \pi}{2} - \alpha \right) } \quad -\sin{\alpha} = \cos{ \left( \alpha + \frac{ \pi}{2}\right) } \quad -\cos{\alpha} = \cos{ ( \pi - \alpha) }\)
\( \sin{2\alpha} = 2 \sin{\alpha}\cos{\alpha} \quad \sin{(\alpha \pm \beta)} = \sin{\alpha} \cos{\beta} \pm \cos{\alpha} \sin{\beta} \)
\( \cos{2\alpha} = \cos^2{\alpha} - \sin^2{\alpha} \quad \cos{(\alpha \pm \beta )} = \cos{\alpha} \cos{\beta} \mp \sin{\alpha}\sin{\beta} \)
\( \sin^2{\alpha}=\frac{1-\cos{2 \alpha}}{2} \)
\( \cos^2{\alpha}=\frac{1+\cos{2 \alpha}}{2} \)
Koszinusz
Az egységkörben az $x$ tengely irányát kezdő iránynak nevezzük, az egységvektor végpontjába mutató irányt pedig záró iránynak. A két irány által bezárt szög $\alpha$. Az egységvektor végpontjának $x$ koordinátáját nevezzük az $\alpha$ szög koszinuszának, és így jelöljük: $\cos{ \alpha}$.
Szinusz
Az egységkörben az $x$ tengely irányát kezdő iránynak nevezzük, az egységvektor végpontjába mutató irányt pedig záró iránynak. A két irány által bezárt szög $\alpha$. Az egységvektor végpontjának $y$ koordinátáját nevezzük az $\alpha$ szög szinuszának, és így jelöljük: $\sin{ \alpha}$.
Tangens
Egy $\alpha$ szög tangense az $\alpha$ szög szinuszának és koszinuszának hányadosával egyenlő:
\( \tan{\alpha} = \frac{ \sin{\alpha}}{\cos{\alpha}} \quad \alpha \neq \frac{\pi}{2}+k\cdot \pi \quad k \in Z \)
Többváltozós lineáris regresszió
A többváltozós regressziós modelleket olyankor alkalmazzuk, amikor az eredményváltozó alakulását több magyarázó változó tükrében vizsgáljuk.
A többváltozós lineáris regresszió egyenlete:
\( y = \hat{b}_0 + \hat{b}_1 x_1 + \hat{b}_2 x_2 + \dots + \hat{b}_k x_k + \epsilon \)
Az y eredményváltozó itt k darab magyarázó változótól és a hibatagtól függ.
A képletben a $\hat{b}_0$ paraméter a tengelymetszet, a többi $\hat{b}_i$ paraméter pedig azt jelenti, hogy az i-edik magyarázó változó egy egységgel történő változása, mennyivel változtatja az $\hat{y}$ értéket, ha a többi magyarázó változót rögzítjük.
Korrelációs mátrix többváltozós esetben
A kétváltozós esethez hasonlóan a korreláció itt is a változók közti kapcsolat szorosságát írja le, csakhogy itt egy fokkal rosszabb a helyzet, ugyanis most bármely két változó korrelációját vizsgálhatjuk. Ezt tartalmazza a korrelációmátrix.
\( R = \begin{pmatrix} 1 & r_{y1} & r_{y2} & \dots & r_{yk} \\ r_{1y} & 1 & r_{12} & \dots & r_{1k} \\ r_{2y} & r_{21} & 1 & \dots & r_{2k} \\ \dots & \dots & \dots & \dots & \dots \\ r_{ky} & r_{k1} & r_{k2} & \dots & 1 \end{pmatrix} \)
Itt $r_{ij}$ az $x_i$ és az $x_j$ magyarázó változók közti korrelációt írja le, tehát például $r_{12}$ az $x_1$ és az $x_2$ közti korrelációt jelenti.
$r_{iy}$ pedig az $x_i$ magyarázó változó és az y eredményváltozó közti kapcsolatot jelenti.
Mivel $r_{ij}=r_{ji}$ a korreláció-mátrix szimmetrikus. Az áttekinthetőbb felírás kedvéért a felső háromszöget el is szokták hagyni.
Többváltozós regresszió tesztelése hipotézisvizsgálattal
A lineáris regresszió egyenlete: $\hat{y} = \hat{b}_0 + \hat{b}_1 x_1 + \hat{b}_2 x_2 + \dots + \hat{b}_k x_k $
A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a $H_0 : b_i = 0$ feltevést, ellenhipotézisnek pedig azt, hogy $H_1 : b_i \neq 0$.
A nullhipotézis azt állítja, hogy a modellben a $b_i$ paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy $b_i \neq 0$ vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van.
Varianciaanalízis-táblázat
Szóródás oka | Négyzetösszeg | Szabadságfok | Átlagos négyzetösszeg | F |
---|---|---|---|---|
Regresszió | $SSR$ | $k$ | $MSR = \frac{SSR}{k}$ | $F=\frac{MSR}{MSE}$ |
Hiba | $SSE$ | $n-k-1$ | $MSE = \frac{SSE}{n-k-1}$ | |
Teljes | $SST$ | $n-1$ |
Multikollinearitás
A multikollinearitás röviden összefoglalva azt jelenti, hogy két vagy több magyarázó változó között túl szoros korrelációs kapcsolat van, és ez zavarja a becslést.
A multikollinearitás mérésére az úgynevezett VIF (variance inflator factor) variancia növelő faktor van forgalomban.
\( VIF_j = \frac{1}{1-R_j^2} \)
A képletben szereplő $R_j^2$ a j-edik magyarázó változó és az összes többi magyarázó változó közti determinációs együttható.
Autokorreláció
Az autokorreláció a regresszió maradéktagjának a saját későbbi értékeivel való korrelációját jelenti, vagyis egyfajta szabályszerűséget a maradékváltozóban. Ideális esetben a maradéktagnak véletlenszerűnek kell lennie, bármiféle szabályszerűségért a magyarázó változók felelnek a regresszióban.
Az autókorreláció tesztelésére a Durbin-Wattson-tesztet használjuk.
Durbin-Wattson teszt
A Durbin-Wattson-teszt lényegében egy hipotizésvizsgálat, aminek részletezésére nem térünk ki, mindössze a használatát nézzük meg.
Maga a próbafüggvény
\( d = \frac{\sum_{t=2}^{n}(e_t-e_{t-1})^2}{\sum_{t=2}^{n}e_t^2} \)
A szignifikanciaszint $\alpha$, a próba elvégzése pedig az alábbi módon történik:
$d_L$ és $d_U$ értékeket kikeressük a táblázatból,
n = a megfigyelések száma,
k = a magyarázó változók száma,
végül megnézzük, hogy a próbafüggvény melyik tartományba esik.
Nézzük meg, hogy Európa néhány országában az egy főre jutó GDP hogyan befolyásolja a gépjárművek számát, adjuk meg a lineáris regresszió egyenletét.
ország | X | Y | |
GDP/fő (EUR) |
Gépjárművek (db / 10 000 fő) |
||
Ausztria | AT | 50 380 | 5500 |
Belgium | BE | 46 237 | 5030 |
Csehország | CZ | 23 539 | 5020 |
Franciaország | FR | 41 897 | 4790 |
Görögország | GR | 19 570 | 4790 |
Hollandia | NL | 52 646 | 4810 |
Lengyelország | PL | 15 601 | 5710 |
Magyarország | HU | 16 470 | 3380 |
Németország | DE | 46 473 | 5550 |
Svájc | CH | 82 484 | 5390 |
Egy statisztika vizsgára történő készülésnél a tanulók saját tapasztalatain alapuló felmérés szerint a tanulással töltött órák száma és az elért pontszám között az alábbi összefüggéseket lehet kimutatni.
Tanulással töltött órák \( x \) |
Pontszám \( y \) |
3 | 5 |
4 | 6 |
5 | 8 |
6 | 9 |
9 | 16 |
10 | 20 |
12 | 24 |
16 | 56 |
20 | 81 |
24 | 96 |
Adjuk meg a lineáris, a hatványkitevős, és az exponenciális regresszió egyenletét,és döntsük el, hogy melyik regresszió illeszkedik-e jobban.
Az egy főre jutó GDP és az egymilló lakosra jutó orvosok számának kapcsolatát vizsgáljuk.
ország | X | Y |
GDP/fő (USD) |
Egymillió lakosra jutó orvosok száma |
|
Ausztria | 50 380 | 5183 |
Belgium | 46 237 | 3083 |
Dánia | 59 770 | 3998 |
Franciaország | 41 897 | 3158 |
Norvégia | 75 294 | 4659 |
Hollandia | 52 646 | 3583 |
Svédország | 51 404 | 4117 |
Olaszország | 33 159 | 3990 |
Németország | 46 473 | 4249 |
Svájc | 82 484 | 4298 |
Számoljuk ki az elaszticitást 50 ezer dolláros és 60 ezer dolláros egy főre jutó GDP-nél.
Az alábbi táblázat néhány ország egy főre jutó GDP-jét és a nők életkorát tartalmazza első házasságkötésük idején. Készítsünk lineáris regressziót, ahol a magyarázó változó az egy főre jutó GDP. Értelmezzük a modell paramétereit, készítsünk variancianalízis táblázatot, adjuk meg a modell magyarázó erejét!
ország | X | Y | |
GPD/fő |
Nők életkora házasságkötéskor |
||
Ausztria | AT | 28 978 | 26,6 |
Belgium | BE | 30 349 | 29,8 |
Csehország | CZ | 15 216 | 28,9 |
Franciaország | FR | 26 656 | 31,6 |
Görögország | GR | 17 941 | 26,9 |
Hollandia | NL | 28 669 | 26,9 |
Lengyelország | PL | 10 135 | 25,3 |
Magyarország | HU | 13 767 | 29,7 |
Németország | DE | 28 232 | 31 |
Svájc | CH | 31 987 | 29,4 |
Hőmérséklet (°C) |
Kőolaj hordonkénti ára (USD) |
Hétvége van? |
Eladott gombócok száma |
25 | 100 | Igen | 760 |
28. | 96 | Nem | 746 |
32 | 98 | Nem | 796 |
12 | 100 | Igen | 658 |
7 | 102 | Igen | 466 |
16 | 96 | Igen | 642 |
24 | 92 | Nem | 724 |
5 | 94 | Igen | 412 |
31 | 98 | Nem | 756 |
27 | 104 | Nem | 710 |
25 | 108 | Igen | 678 |
18 | 110 | Nem | 655 |
Készítsünk lineáris regressziót, majd értelmezzük a modell paramétereit. Számítsuk ki a korreláció-mátrixát.
Hőmérséklet (°C) |
Átlagos levegőminőség (%) |
Front van? |
Halálozások száma |
8 | 100 | Nem | 50 |
12. | 64 | Nem | 43 |
16 | 56 | Nem | 38 |
25 | 38 | Nem | 36 |
28 | 85 | Igen | 42 |
30 | 96 | Igen | 50 |
5 | 120 | Nem | 56 |
16 | 68 | Nem | 40 |
26 | 93 | Nem | 46 |
27 | 104 | Nem | 52 |
30 | 24 | Igen | 48 |
8 | 35 | Igen | 41 |
Készítsünk lineáris regressziót, majd értelmezzük a modell paramétereit. Végezzük el a regresszió becsléseit.
Egy városban a naponta elhalálozottak száma és különböző meteorológiai hatások közötti összefüggést szeretnénk felderíteni, ezért 12 napon vizsgáljuk a hőmérsékletet, a levegőminőséget, valamint, hogy érkezik-e front.
Hőmérséklet (°C) |
Átlagos levegőminőség (%) |
Front van? |
Halálozások száma |
8 | 100 | Nem | 50 |
12. | 64 | Nem | 43 |
16 | 56 | Nem | 38 |
25 | 38 | Nem | 36 |
28 | 85 | Igen | 42 |
30 | 96 | Igen | 50 |
5 | 120 | Nem | 56 |
16 | 68 | Nem | 40 |
26 | 93 | Nem | 46 |
27 | 104 | Nem | 52 |
30 | 24 | Igen | 48 |
8 | 35 | Igen | 41 |
Készítsünk lineáris regressziót, majd értelmezzük a modell paramétereit. Elemezzük a regressziós modellt hipotézisvizsgálatokkal, készítsünk varianciaanalízis táblázatot.
Napi középhőmérséklet (°C) |
Víz hőmérséklete (°C) |
Strand napi forgalma |
22 | 21 | 765 |
23 | 21 | 1572 |
18 | 18 | 510 |
25 | 20 | 1967 |
22 | 21 | 1142 |
16 | 19 | 576 |
24 | 22 | 986 |
20 | 21 | 1216 |
24 | 22 | 1267 |
26 | 24 | 1686 |
19 | 19 | 981 |
20 | 21 | 1412 |
Készítsünk lineáris regressziót, majd értelmezzük a modell paramétereit. Vizsgáljuk a multkollinearitást és autokorrelációt.
Néhány ország középfokú iskolai képzésének egy diákra jutó oktatási ráfordítása illetve az éves egy főre jutó GDP adatai láthatóak az alábbi táblázatban. Adjuk meg a lineáris regresszió modellt, a reziduális szórást, határozzuk meg a modell magyarázó erejét.
ország | X | Y | |
GDP/fő (EUR) |
Oktatási ráfordítás (középfokú képzés; diák/EUR) |
||
Ausztria | AT | 28 978 | 76 900 |
Belgium | BE | 30 349 | 61 000 |
Csehország | CZ | 15 216 | 33 800 |
Franciaország | FR | 26 656 | 57 600 |
Görögország | GR | 17 941 | 59 200 |
Hollandia | NL | 28 669 | 61 500 |
Lengyelország | PL | 10 135 | 30 700 |
Magyarország | HU | 13 767 | 33 000 |
Németország | DE | 28 232 | 65 300 |
Svájc | CH | 31 987 | 60 400 |
Egy strand forgalmának alakulása a napi középhőmérséklettől függően 12 megfigyelt nap alapján az alábbi volt:
nap | napi középhőmérséklet (C°) |
forgalom (fő) |
1. | 22 | 765 |
2. | 23 | 1572 |
3. | 18 | 510 |
4. | 25 | 1967 |
5. | 22 | 1142 |
6. | 16 | 576 |
7. | 24 | 986 |
8. | 20 | 1216 |
9. | 24 | 1267 |
10. | 26 | 1686 |
11. | 19 | 981 |
12. | 20 | 1412 |
Adjuk meg a lineáris regresszió egyenletét, adjuk meg a korrelációs és a determinációs együtthatót és döntsük el, hogy a lineáris vagy a hatványkitevős regresszió illeszkedik-e jobban, ha ismeretes, hogy
$$ \sum d^2x = 100,91 \quad \sum d^2y=2 155 847 \quad \sum dx \cdot dy = 10 894,67 \quad \hat{y}=1,43 \cdot x^{2,17} $$
Az alábbi táblázat néhány ország egy főre jutó GDP-jét és a nők életkorát tartalmazza első házasságkötésük idején. Készítsünk lineáris regressziót, ahol a magyarázó változó az egy főre jutó GDP. Értelmezzük a modell paramétereit, készítsünk variancianalízis táblázatot, adjuk meg a modell magyarázó erejét!
ország | X | Y | |
GPD/fő |
Nők életkora házasságkötéskor |
||
Ausztria | AT | 28 978 | 26,6 |
Belgium | BE | 30 349 | 29,8 |
Csehország | CZ | 15 216 | 28,9 |
Franciaország | FR | 26 656 | 31,6 |
Görögország | GR | 17 941 | 26,9 |
Hollandia | NL | 28 669 | 26,9 |
Lengyelország | PL | 10 135 | 25,3 |
Magyarország | HU | 13 767 | 29,7 |
Németország | DE | 28 232 | 31 |
Svájc | CH | 31 987 | 29,4 |
Néhány ország adatai alapján vizsgáljuk meg az átlagos iskolázottsági szint és a születéskor várható élettertam közti kapcsolatot. Adjuk meg a lineáris és az exponenciális regressziós modellt, amiben magyarázó változó az átlagos iskolázottsági szint. Melyik modell illeszkedik jobban?
Átlagos iskolázottsági szint (év) |
Születéskor várható élettartam (év) |
|
1. | 12,6 | 81,1 |
2. | 12,4 | 78,5 |
3. | 11,6 | 75,4 |
4. | 10,4 | 74 |
5. | 4,4 | 65,4 |
átlag | 10,3 | 74,9 |
Egy cégnél 30 alkalmazottat vizsgáltak meg, hogy miként magyarázza az életkor, illetve az, hogy az illető férfi-e vagy nő (férfi=0, nő=1) a fizetés nagyságát. A kapott regressziós modell a havi fizetés nagyságát ezer forintban adja meg, ahol \( x_1 \) jelenti az életkort és \( x_2 \) jelenti azt, hogy az illető férfi-e vagy nő.
$$ \hat{y}=64+7,6x_1 - 16,7x_2 \quad s_{ \hat{\beta}_1}=4,2 \quad s_{ \hat{\beta}_2}=10,83 \quad SSE=81,2 \quad SST=105,7 $$
Adjuk meg a modell paramétereinek jelentését. Szignifikánsnak tekinthető-e a modell alapján az életkor, illetve a nem, az alkalmazott fizetése szempontjából 10%-os szignifikanciaszinten? Teszteljük teljes modellt 10%-os szignifikanciaszint mellett.
Egy strand forgalmának modellezésére két magyarázó változót használunk, a napi középhőmérsékletet ( \( x_1 \) ) illetve azt, hogy hétvége van vagy sem ( \( x_2=0 \) ha nincs hétvége és \( x_2 = 1 \) ha igen).
Egy 12 megfigyelés alapján készített modellről az alábbiakat tudjuk:
$$ \hat{y}=396+12,6x_1 +18 x_2 \qquad s_{ \hat{\beta}_1}=2,19 \qquad s_{ \hat{\beta}_2}=38,15 $$
$$ R=\begin{pmatrix} 1 & & \\ 0,92 & 1 & \\ -0,57 & -0,67 & 1 \end{pmatrix} $$
Adjuk meg a lineáris regressziós modell paramétereinek jelentését. Szignifikánsnak tekinthető-e a modell alapján a napi középhőmérséklet a strand forgalmának szempontjából 10%-os szignifikanciaszinten? Adjuk meg a fogalom és a hőmérséklet kapcsolatát leíró parciális korrelációs együttható értékét. Adjuk meg a többszörös determinációs hányados értékét.
Ez az öt pont itt a grafikonon egészen biztosan nem köthető össze egyetlen egyenes vonallal… Olyan lineáris függvény tehát nem lesz, amelyik minden ponton átmegy. De olyan még lehet, amelyik minden ponthoz a lehető legközelebb megy. Itt a grafikonon a mamutfenyők törzskerületét jelöljük x-el… Az életkort pedig y-nal. És a függvény is mindegyik x-hez hozzárendel valamilyen y-t. Ezek általában eltérnek a valódi y-októl. Annak érdekében, hogy a valódi y-okkal ne keverjük őket össze, kis háztetőket rakunk ezekre az y-okra és becsült y-nak nevezzük őket. Az eltéréseket pedig -nal fogjuk jelölni. A cél az, hogy ez az eltérés a lehető legkisebb legyen. De van itt még egy dolog. Ezek az eltérések néha pozitív számok… Néha pedig negatívak. Minket azonban most csak a távolság érdekel, vagyis az, hogy a kis piros vonalkák milyen hosszúak. Egy trükköt fogunk használni és mindegyik eltérést négyzetre emeljük. az előjelek most nem érdekelnek. Úgy tudunk megszabadulni az előjelektől, hogy ezeket négyzetre emeljük. A cél az, hogy ez a négyzetösszeg legyen minimális. Ezt a módszert legkisebb négyzetek módszerének nevezzük, és akit az elméleti részletek untatnak, nyugodtan ugorjon át ide. És így a függvény a lehető legpontosabban írja le a mamutfenyők életkorát. A függvényünk minden x-hez hozzárendel egy y-t. De ez nem pont annyi, mint a valódi y. Ezt becsült y-nak nevezzük és a jele y kalap. A regresszió elnevezés az angol regression to the mean szókapcsolatból, ered, aminek jelentése visszatérés az átlaghoz és Francis Galton-tól származik, aki apák és fiaik testmagasságát vizsgálva jutott arra a megállapításra, hogy a magasabb apáknak magasabb fiai születnek, vagyis a fiúk visszatérnek az apáik átlagához. Az regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától. Miként függ például a repülőterek forgalma az olajár alakulásától, az 1000 főre jutó gépkocsik száma az egy főre jutó GDP-től vagy a várható élettartam a jövedelmi viszonyoktól. Ezekben a példákban az eredményváltozóhoz mindössze egyetlen magyarázó változó tartozik, ami a regressziószámítás legegyszerűbb módja a kétváltozós eset. Az élet azonban sajnos jóval bonyolultabb. A repülőterek forgalma az olaj árán kívül függ az adott évben végrehajtott terrorcselekmények számától, a szélsőséges időjárási események számától, a világgazdaság állapotától és még sok más tényezőtől, vagyis a magyarázó változók száma általában több, az ilyen eseteket pedig többváltozós regressziónak nevezzük. Vizsgálódásunkat az egyszerűbben átlátható kétváltozós esettel kezdjük. Itt csak egy magyarázó változót veszünk figyelembe, ez azonban nem azt jelenti, hogy ne volnának mellette más magyarázó változók is. Mindössze arról van szó, hogy azokat most nem vizsgáljuk, hatásukat a regresszió hibájának könyveljük el. A kétváltozós lineáris regresszió sémája a következő: Itt a magyarázó változó, pedig az eredményváltozó, ami jó közelítéssel az -nek lineáris függvényeként áll elő de mivel x nem képes y-t 100%-ban megmagyarázni, van egy hibatag. Ebbe a hibatagba van belezsúfolva a többi magyarázó változó, amikkel az egyváltozós esetben nem foglalkozunk. Nézzük meg például, hogy Európa néhány országában az egy főre jutó GDP hogyan befolyásolja a gépkocsival rendelkező lakosok számát. ország x GDP/fő (EUR) y Gépkocsik száma (db/1000 fő) Ausztria AT 28 978 496 Belgium BE 30 349 447 Csehország CZ 15 216 362 Franciaország FR 26 656 465 Görögország GR 17 941 245 Hollandia NL 28 669 388 Lengyelország PL 10 135 259 Magyarország HU 13 767 235 Németország DE 28 232 517 Svájc CH 31 987 486 Esetünkben tehát a GDP lesz a magyarázó változó, a gépkocsik száma pedig az eredményváltozó. Fontos azonban észrevenni, hogy ezeket a szerepeket mi osztjuk ki, egy általunk feltételezett összefüggés alapján. Ha például a jövedelem és az egészséges táplálkozás közötti kapcsolatot vizsgáljuk, elvileg lehetne a jövedelem az eredményváltozó, és a táplálkozási szokások a magyarázó változó, vagyis minél egészségesebben eszünk, annál több pénzünk van. Csak valahogy a józan ész azt diktálja, hogy ez inkább fordítva van és nem attól lesz több pénzünk, hogy egészségesen eszünk, hanem attól eszünk egészségesen, hogy több a pénzünk. Vannak aztán olyan esetek, amikor nem is olyan egyszerű eldönteni, hogy melyiket tekintsük eredményváltozónak és melyiket magyarázónak. Egy teória szerint például aki minden nap egy deci bort megiszik, az jobb egészségre számíthat, mint aki egyáltalán nem iszik, vagy aki túl sokat iszik. Később aztán kiderült, megeshet, hogy ez éppen fordítva van. Az eleve egészségesen élő emberek azok, akik napi egy deci bort isznak, míg az egészségtelenül élők vagy vedelnek, vagy nem isznak. Sokszor tehát egyáltalán nem egyértelmű, hogy mit tekintsünk magyarázó és mit eredményváltozónak, és nemegyszer vezetett már komoly tudományos felfedezéshez a szerepek felcserélése. Visszatérve példánkhoz, ábrázoljuk egy koordinátarendszerben az országokat, ahol az x tengelyen az egy főre jutó GDP-t, míg az y-on az 1000 főre jutó gépkocsik számát mérjük. Az ábrán jól látszik, hogy az országok nagyjából egy egyenes mentén helyezkednek el, ezért lineáris regressziót alkalmazunk. A kétváltozós lineáris regresszió egyenlete: Az hibatagot elhagyva kapjuk a regressziós egyenes egyenletét: Az y fölé tett háztetőre emlékeztető jel itt azt jelenti, hogy becsült érték. Ezt úgy kell elképzelni, hogy ha x=13 767 ami éppenséggel Magyarország, akkor a hozzá tartozó tényleges y érték y=235. Mivel azonban a hibatagot elhagytuk, a regressziós egyenes nem megy át ezen a ponton, hanem fölötte megy, a becsült érték tehát picivel nagyobb a ténylegesnél. CZ esetében ez éppen fordítva van, ott a becsült y kisebb, mint a tényleges. A tényleges y értékektől az eltérés és mivel így ez az eltérés Célunk egy olyan egyenes előállítása, ami a lehető legjobban illeszkedik a koordinátarendszerben szereplő pontokhoz, vagyis a lehető legközelebb halad el mellettük, ami azt jelenti, hogy ezeknek az eltéréseknek kell minimálisnak lenni. Az elv, amivel ez az egyenes előállítható, az úgynevezett legkisebb négyzetek módszere. Fontos figyelmeztetés! Az alábbiakban a nyugalom megzavarására alkalmas szavak fognak elhangzani, úgymint deriválás, szélsőérték, meg ilyenek. Akiben ezek rosszérzést keltenek, ugorja át őket. Technikai okokból nem magukat az eltéréseket vizsgáljuk, hanem a négyzetüket. Az eltérések négyzetösszegének kell tehát minimálisnak lennie. A szóban forgó négyzetösszeg tehát A módszer lényege, hogy b1 és b0 Most pedig ami tulajdonképpen egy kétváltozós függvény, változói és . Ha deriváljuk ezen változók szerint, majd a deriváltakat egyenlővé tesszük nullával, megkapjuk a függvény lehetséges szélsőértékét. A helyzet az, hogy itt valóban van is szélsőérték, ráadásul éppen az ami nekünk kell, vagyis minimum. A nullával egyenlővé tett parciális deriváltak alapján ezeket az úgynevezett normálegyenleteket kapjuk: Végül még egy cseles lépés következik. Az egész koordinátarendszert eltoljuk -al és -al. Ekkor a regressziós egyenes meredeksége ugyanaz marad, csak a tengelymetszet változik meg és lesz belőle. A normálegyenletek ekkor és jelöléseket használva: Mivel pedig és ezért Az első egyenlet teljesen haszontalan, a másodikból viszont Ezek után úgy jön ki, hogy az egyenletben helyére y átlagát, x helyére pedig x átlagát helyettesítjük. Ha valakinek jobban tetszik, megjegyezhető a képlet is. Térjünk most vissza az eredeti példánkhoz és nézzük meg ott a regressziós egyenest. Az x szerinti átlag Az y szerinti átlag: Most jöhetnek az úgynevezett eltérés-négyzetösszegek: Végül itt jön még egy izgalmas dolog. A regressziós egyenes együtthatói ekkor: és az egyenletbe x és y átlagait helyettesítve és ebből jön ki . A regressziós egyenes tehát A regressziós egyenes egyenletében szereplő becsült regressziós együtthatók közül az egyenes meredeksége, ami azt adja meg, hogy az x magyarázó változó egy egységnyi növekedése hány egységgel változtatja meg az y eredményváltozó értékét. A érték kevésbé jelentős, ez azt adja meg, hogy a magyarázó változó nulla értékéhez milyen y érték tartozik. Esetünkben azt jelenti, hogy egy eurós GDP növekedés 0,012-vel növeli az 1000 főre jutó gépkocsik számát, míg most csak technikai paraméter, valós jelentése nincs – elvileg ennyi gépkocsi jut 1000 főre egy olyan országban, ahol nulla az egy főre jutó GDP. A paraméterek értelmezése után érdemes megnézni egy másfajta jellemzést, az úgynevezett elaszticitást. Az elaszticitás azt fejezi ki, hogy az x magyarázó változó 1%-os változása hány %-os változást okoz az eredményváltozóban. Ha például az egy főre jutó GDP x=30 000, akkor 1%-os GDP változás lássuk hány %-os változást okoz az autók számában: tehát 0,76%.
Az lineáris regresszió illeszkedésének vizsgálatához meghatározzuk az úgynevezett reziduumokat. Ezek tulajdonképpen az illeszkedési hibák, amiket azoknál a pontoknál tapasztalunk, amelyek alapján a lineáris regressziót felírtuk. A reziduumok tehát az különbségek. Ezek a különbségek azonban nem azonosak az hibataggal. Az hibatag ugyanis maga is egy függvény, amibe a többi, általunk most nem vizsgált magyarázó változó hatását zsúfoltuk bele, míg az reziduumok csupán abban a néhány pontban adják meg a hibát, amelyek alapján a regressziót felírtuk. Még egyszerűbben fogalmazva az lineáris regresszióban a teljes megfigyelési tartományon érvényes hibatag, míg az csak a megfigyelt pontokban teljesül. A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg. Ha a regresszió tökéletesen illeszkedik, akkor az különbségek mindegyike nulla, így SSE=0. Ha az illeszkedés nem tökéletes, akkor SSE egy pozitív érték, ami az illeszkedés pontatlanságát méri, valahogy úgy, ahogyan a szórás méri az átlagtól való eltérést. A szórásra még jobban emlékeztető mutatót kapunk, ha az SSE értékét elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét. Az így kapott állatfajta neve reziduális szórás: Az illeszkedés egy másik mérőszáma a lineáris korrelációs együttható. A lineáris korrelációs együttható azt méri, hogy x és y között milyen szoros lineáris kapcsolat van. Értéke mindig . Ha akkor x és y között függvényszerű lineáris kapcsolat van. Ha majdnem 1 vagy a -1, akkor x és y között majdnem lineáris kapcsolat van, vagyis koordinátarendszerben ábrázolva a kapott pontok lényegében egy egyenes mentén helyezkednek el. Ha közel van a nullához, akkor a pontok jobban szóródnak az egyenes körül, mellesleg ezt a szóródást méri a reziduális szórás. Ha akkor x és y között nincs lineáris kapcsolat. Ettől azonban másfajta kapcsolat még lehet. Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete, annak kiderítésére, hogy az x értékek hány százalékban magyarázzák meg az y-ra adódó értékeket. Vagyis az értéke azt adja meg, hogy az x magyarázó változó hány százalékban magyarázza meg az y eredményváltozót, másként fogalmazva azt, hogy mekkora a lineáris regressziós modell magyarázó ereje. Szintén ezt a magyarázóerőt méri az úgynevezett determinációs együttható, melynek jele . Ez a kétváltozós lineáris modell esetében megegyezik -el. Itt SSE a már ismert eltérés-négyzetösszeg, míg SSR az úgynevezett regressziós, vagy magyarázó négyzetösszeg, SST pedig a teljes négyzetösszeg, a köztük lévő kapcsolat pedig Ez a négyzetösszeg-felbontás – ha még emlékszünk rá – éppen úgy működik, mint a két ismérv közti vegyes kapcsolat vizsgálatánál az SST=SSB+SSK összefüggés. A következőkben nézzünk meg egy tanulságos példát!
Hatványkitevős és exponenciális regresszió Vannak olyan esetek, amikor a magyarázó változó és az eredményváltozó között nem lineáris a kapcsolat. Ilyenkor legtöbbször hatványkitevős vagy exponenciális regressziót használunk. Nézzünk meg egy konkrét példát, ahol összehasonlítjuk a szóba jöhető regressziós modelleket. Egy statisztika vizsgára tanulók saját tapasztalatain alapuló felmérése szerint a tanulással töltött órák száma és az elért pontszám között az alábbi összefüggéseket sikerült kimutatni. Tanulással töltött órák Pontszám (max 100) 3 5 4 6 5 8 6 9 9 16 10 20 12 24 16 56 20 81 24 96 Az összehasonlítás kedvéért nézzük meg mindhárom regressziós modellt, a lineáris a hatványkitevős és az exponenciális modellt. A lineáris regressziót már ismerjük, erre a lineáris modellre fogjuk a másik kettőt visszavezetni egy trükk segítségével. Megeshet, hogy néhányan rosszakat fognak tőle álmodni, da sajna a trükk az lesz, hogy vesszük a regressziós egyenletek logaritmusát. Mindegy milyen alapú logaritmust veszünk, legyen mondjuk 10-es alapú, vagyis lg. Az így kapott egyenletek hajszálra megegyeznek az eredeti lineáris modell egyenletével, csak bizonyos betűk elé odakerült, hogy lg. A paraméterek kiszámításának képletei tehát szintén ugyanazok maradnak, csak ott is oda kell írni, hogy lg. Az eredeti táblázatunkat kiegészítjük és oszlopokkal. Tanulással töltött órák Pontszám (max 100) 3 5 0,4771 0,6989 4 6 0,6020 0,7781 5 8 0,6989 0,9031 6 9 0,7781 0,9542 9 16 0,9542 1,2041 10 20 1,000 1,3010 12 24 1,0791 1,3802 16 56 1,2041 1,7482 20 81 1,3010 1,9085 24 96 1,3802 1,9823 A lineáris regressziónál minden ugyanúgy megy, mint eddig: A regresszió egyenlete: A csak technikai paraméter, pedig azt jelenti, hogy minden egyes órányi tanulás 4,586 ponttal növeli a vizsga pontszámát. Nézzük mi a helyzet a hatványkitevős regressziónál. A regresszió egyenlete amibe a kapott paramétereket írva Itt csak a paraméternek van érdemi jelentése, ráadásul kicsit szokatlan. Hatványkitevős regressziónál ugyanis az elaszticitás. Esetünkben tehát az elaszticitás 1,514, ami annyit jelent, hogy x 1%-os növekedése 1,514%-al növeli y-t. Másként 1%-al több tanulás 1,514%-al növeli a vizsgán elért pontszámot. Végül az exponenciális regresszió: A regresszió egyenlete amibe a kapott paramétereket írva A paraméterek jelentése a következő. csak technikai paraméter, pedig azt jelenti, hogy minden egyes órányi tanulás 1,16-szorosára növeli a vizsga pontszámát. Nézzük meg, a három regresszió közül melyik illeszkedik a legjobban. Elsőként a reziduumokat számoljuk ki. Tanulással töltött órák Pontszám (max 100) lineáris hatvány exp. 3 5 -4,129 3,456 5,822 4 6 0,457 5,343 6,754 5 8 5,043 7,490 7,834 6 9 9,629 9,871 9,087 9 16 23,387 18,237 14,185 10 20 27,973 21,391 16,455 12 24 37,145 28,192 22,141 16 56 55,489 43,579 40,090 20 81 73,833 61,094 72,588 24 96 92,177 80,516 131,432 A jelek szerint a lineáris modell SSE-je a legkisebb, tehát ebben az esetben ez a modell illeszkedik legjobban.
Többváltozós lineáris regresszió A többváltozós regressziós modelleket olyankor alkalmazzuk, amikor az eredményváltozó alakulását több magyarázó változó tükrében vizsgáljuk. Például egy fagyiárus napi forgalma függ attól, hogy hány fok van az adott napon, a 30 fokos kánikula határozottan jobban kedvez az eladásnak, mint a -10 fokos hideg. Ezen kívül azonban számít az is, hogy az embereknek mennyi elfagyizni való pénzük van, mint ahogy mondjuk az is, hogy éppen hétvége van-e vagy sem. A többváltozós lineáris regresszió egyenlete Az y eredményváltozó itt k darab magyarázó változótól és a hibatagtól függ. Az hibatagot elhagyva kapjuk az eredményváltozó becsült képletét: A , , stb. paramétereket, ahogyan a kétváltozós esetben, itt is a legkisebb négyzetek módszerével kapjuk meg, de mindenki megkönnyebbülésére ezt most nem részletezzük. Mivel itt több magyarázó változó is van, a helyzet jóval bonyolultabb lesz. A magyarázó változók értékeit egy mátrixba rendezzük, ahol az első oszlop csupa 1-es, minden további oszlop pedig egy-egy magyarázó változó értékeit tartalmazza. A fagyiárus esetében három magyarázó változót vizsgálunk, az első arról szól, hogy hány fok van, a másodi arról, hogy mennyi pénze van az embereknek, a harmadik pedig arról, hogy hétvége van-e vagy sem. A csupa 1-es oszlop után jöjjön az, hogy hány fok volt az adott napon. A 12 érték 12 különböző nap adatait tartalmazza. A következő oszlop a gazdasági helyzetet írja le, ami szintén hatással van a forgalomra. Ezt azonban jóval bonyolultabb egyetlen számmal jellemezni, mint a hőmérsékletet. A gazdasági helyzet egyik mérője lehet például a kőolaj világpiaci ára. Romló gazdasági helyzetben ugyanis a kőolaj ára általában csökken, míg javulás esetén nő. Azokat a magyarázó változókat, amik tartalmilag csak közvetve befolyásolják az eredményváltozót, proxy változónak nevezzük. Esetünkben a kőolaj ára ilyen proxy változó. Pusztán azért mert drágább az olaj, nyilván nem fogunk több fagyit venni, de ha a drágább olaj együtt jár a jobb gazdasági mutatókkal, akkor már igen. A negyedik oszlop arról szól, hogy hétvége van-e vagy sem. Hétvégén ugyanis általában több, hétköznap kevesebb fagyit vesznek az emberek. Az ilyen típusú magyarázó változókat dummy változónak nevezzük. A dummy változó két értéket vehet föl, leginkább úgy szokás alkalmazni, hogy 0-át vagy 1-et. Esetünkben az, hogy hétvége van-e, egy dummy változó. Legyen , ha hétvége van és ha nem. Végül az eredményváltozó ugyanezen napokon mért értékeit az vektor tartalmazza. Ez ugyebár az eladott gombócok száma. A , , paramétereket az X mátrix és az vektor alapján, a következő, nem éppen kellemes képlet alapján számoljuk ki: A képletben szereplő műveletek akkor elvégezhetőek, ha az mátrixnak létezik inverze, amihez az kell – ha valaki kicsit járatos a lineáris algebrában – hogy az X mátrix oszlopvektorai lineárisan független rendszert alkossanak. Ez lényegében azt jelenti, hogy a magyarázó változók között ne legyen függvényszerű kapcsolat. A képlet végén lévő vektorral való szorzáshoz pedig az kell, hogy az összefüggés teljesüljön, vagyis legalább annyi megfigyelésünk legyen, amennyi a becsülni kívánt paraméterek száma. Ezek azonban csak a technikai feltételek. A gyakorlatban arra kell törekedni, hogy a megfigyelések száma legalább háromszorosa legyen a becsülni kívánt paraméterek számának. Esetünkben a paraméterek száma négy, tehát a 12 megfigyelésünk éppen hogy elég. Az X mátrix általános alakja k darab magyarázó változó értékeit tartalmazza, a megfigyelések száma n. Az vektor az n darab megfigyelés során tapasztalt eredményváltozó értékeket tartalmazza. A lineáris regresszió paraméterei szépen egymás után a vektorban lesznek. Nézzük meg a konkrét számításokat a fagylalt-biznisz esetében. Ezeket csak a szemléltetés kedvéért mutatjuk be, valójában senkinek nem kell majd ilyeneket kiszámolnia. Ezekre és az ehhez hasonló számolásokra ugyanis különféle statisztikai programcsomagok vannak forgalomban. így Aminek az inverze A lineáris regresszió paraméterei szépen egymás után a vektorban lesznek. Ez úgy értendő, hogy és A lineáris regresszió egyenlete amibe az imént kapott értékeket írva a egyenlet adódik az eladott fagyik számára. A lineáris regresszió képletében a paraméter a tengelymetszet, a többi paraméter pedig azt jelenti, hogy az i-edik magyarázó változó egy egységgel történő változása, mennyivel változtatja az értéket, ha a többi magyarázó változót rögzítjük. Lássuk mi mondható a fagylalt-biznisz esetében! Ez most – mint általában – csak technikai paraméter. Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az önmagában 12,57 gombóccal növeli a napi eladást. Ez a magyarázó változó a gazdasági helyzetet írta le, méghozzá a kőolaj árával. Adataink alapján az derült ki, hogy 1 dolláros olajár növekedés 0,32 gombóccal csökkenti az eladást. Ez egy úgynevezett dummy változó volt, ami 1, ha hétvége van és 0, ha nincs. A 18,34 tehát azt jelenti, hogy pusztán attól, hogy hétvége van, 18,34 gombóccal több fagyi adható el. A paraméterek értelmezése után érdemes megnézni itt is az elaszticitást, ami azt fejezi ki, hogy az magyarázó változó 1%-os változása hány %-os változást okoz az eredményváltozóban, ha a többi magyarázó változót rögzítjük. Az elaszticitás számszerű értéke egy konkrét esetben a következő: Ha például 20 fok van, 100 dollár egy hordó olaj és hétvége van, akkor 1%-os hőmérsékletváltozás hány %-al növeli az eladást? Vagyis 1%-os hőmérséklet-emelkedés 0,37%-al növeli az eladást. A továbbiakban a kapott lineáris regresszió elemzéséről lesz szó. Elsőként, ahogyan a kétváltozós esetben tettük, most is megnézzük a reziduumokat és a korrelációt, majd az elaszticitást. Ezt követően azonban jóval érdekesebb dolgokat csinálunk. A hipotézisvizsgálat eszközeit felhasználva megvizsgáljuk, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem. A fagyis történetben például a kőolaj árának 1 dolláros változása csak 0,32 gombócnyi hatással van a fagyi-eladásra, így fölmerül a gyanú, hogy ezt a változót fölöslegesen vizsgáljuk. Kezdetben ugyan logikusnak tűnt a gazdasági helyzet, mint magyarázó változó használata, de a konkrét eredmények ezt kérdésessé teszik. Ennek tisztázására használjuk majd a hipotézisvizsgálat eszközeit.
Korreláció a többváltozós lineáris modellben A kétváltozós esethez hasonlóan a korreláció itt is a változók közti kapcsolat szorosságát írja le, csakhogy itt egy fokkal rosszabb a helyzet, ugyanis most bármely két változó korrelációját vizsgálhatjuk. Ezt tartalmazza a korreláció-mátrix. Itt az és az magyarázó változó közti korrelációt írja le, tehát például az és az közti korrelációt jelenti. pedig az magyarázó változó és az y eredményváltozó közti kapcsolatot jelenti. Mivel a korreláció-mátrix szimmetrikus. Az áttekinthetőbb felírás kedvéért a felső háromszöget, ami tehát tökugyanaz, mint az alsó, el is szokták hagyni. Számítsuk ki az előző fagyis példánk korreláció-mátrixát. Ehhez a három magyarázó változó és az egy eredményváltozó összes lehetséges korrelációját ki kell számolnunk, ami igencsak aggasztónak tűnik. Sőt, az is, éppen ezért erre olyan statisztikai programcsomagok vannak forgalomban, amik az egész mátrixot egy pillanat alatt előállítják. Mi most mégis, csupán a hecc kedvéért kezdjük el kiszámolgatni a korrelációs mátrix elemeit. A jelek szerint hat darab ilyen korrelációt kell kiszámolnunk. Nézzük például mennyi . A korreláció képlete Tehát most Hasonló izgalmakat jelent mondjuk kiszámolása is: A többi értéket is ugyanígy kapjuk, a korrelációs mátrix pedig A kapott korrelációs mátrix tehát tetszőlegesen kiválasztott két változó közti kapcsolat szorosságát méri. Ez az érték azonban nem a közvetlen kapcsolatot, hanem benne van a többi változó közvetett hatása is. Vagyis például ami azt jelenti, hogy ilyen szoros a kapcsolat a kőolaj ára és az eladott gombócok száma között, de ebbe benne van a többi változó hatása is. Ha tehát például szoros kapcsolat van a kőolaj ára és a hőmérséklet között, akkor a hőmérséklet hatása is érezteti magát az olajár-fagyieladás korrelációban. Megeshet tehát az, hogy az olajár valójában nem hat a fagyi eladásra, viszont szorosan összefügg a hőmérséklettel. Mivel pedig a hőmérséklet valóban hatással van a fagyi eladásra, ez a hatás az olajár-fagyieladás korrelációban is felbukkan. Szükség lenne tehát a többi hatástól megtisztított tiszta korrelációkra is. Ezeket nevezzük parciális korrelációs együtthatóknak. Az parciális korrelációs együttható azt adja meg, hogy milyen szoros kapcsolat van az y eredményváltozó és a j-edik magyarázó változó között, ha a többi magyarázó változó hatását kiszűrjük. ahol Elő kell állítani tehát a korrelációs mátrix inverzét. Ismét a hecc kedvéért kiszámoljuk ezt a mátrixot, de valójában vannak kiváló statisztikai programcsomagok, amik ezt mind kiszámolják. Visszatérve az olajár-fagyieladás kérdésre: Ami azt jelenti, hogy a többi változó hatásától megtisztított korreláció -0,0412 ellentétben a korábbi 0,022 értékkel. Számítsuk ki a hömérséklet-fagyieladás parciális korrelációt is. A korábbi 0,923-nál tehát valójában kicsivel gyengébb a hőmérséklet és az eladott fagyik száma közti kapcsolat. Az lineáris regresszió illeszkedésének vizsgálatához meghatározzuk az úgynevezett reziduumokat. Ezek tulajdonképpen az illeszkedési hibák, amiket azokon a helyeken tapasztalunk, amelyek alapján a lineáris regressziót felírtuk. A reziduumok tehát az különbségek. Ezek a különbségek azonban most sem azonosak az hibataggal. Az hibatag ugyanis maga is egy függvény, amibe a többi, általunk nem vizsgált magyarázó változó hatását zsúfoltuk bele, míg az reziduumok csupán abban a néhány pontban adják meg a hibát, amelyek alapján a regressziót felírtuk. A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg, ami hajszálra megegyezik a kétváltozós esetben megismerttel. Ha a regresszió tökéletesen illeszkedik, akkor az különbségek mindegyike nulla, így SSE=0. Ha az illeszkedés nem tökéletes, akkor SSE egy pozitív érték, ami az illeszkedés pontatlanságát méri, valahogy úgy, ahogyan a szórás méri az átlagtól való eltérést. A szórásra még jobban emlékeztető mutatót kapunk, ha az SSE értékét elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét. Az így kapott állatfajta neve reziduális szórás: A kétváltozós esethez hasonlóan itt is vizsgálhatjuk az négyzetösszegeket is, melyekre itt is teljesül az SST=SSR+SSE összefüggés. A kétváltozós esethez hasonlóan itt is a modell magyarázó erejét méri a determinációs együttható: Jóval érdekesebb azonban az, amivel most vizsgálódásunkat folytatjuk. Ez nem más, mint a hipotézisvizsgálat alkalmazása a regressziószámításban, méghozzá annak eldöntéséhez, hogy az általunk választott magyarázó változók közül melyek azok, amelyek tényleg hatással vannak az eredményváltozóra. Ez jön most.
2. Paraméterek szeparált tesztelése Elsőként a paraméterek tesztelését végezzük el a hipotézisvizsgálat segítségével. Vagyis azt fogjuk vizsgálni, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem. A lineáris regresszió egyenlete A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést, ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van. A próbafüggvény, amit használunk a t-eloszlás lesz, ahol = az A mátrix i-edik sor j-edik eleme KÉTOLDALI KRITIKUS TARTOMÁNY : : BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: A regresszió egyenlete A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk a hőmérsékletért felelős lesz, aztán jön a levegőminőségért felelős végül a fronthatásról szóló . : : a szignifikanciaszint legyen a szabadságfok továbbra is v=n-k-1=12-3-1=8 tehát a kritikus értékek BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: Az elfogadási tartomány tehát A próbafüggvény értékek az egyes paraméterekre: A három paraméterből -nél és -nál a próbafüggvény az elfogadási tartományba esik, ami azt jelenti, hogy elfogadjuk a : nullhipotézist. Ez annyit jelent, hogy 10%-os szignifikanciaszinten az 1-es és a 3-as magyarázó változók szerepeltetése a modellben fölösleges, az eredményváltozóra kifejtett hatásuk szignifikánsan nulla. A halálozás tehát szignifikánsan csak a 2-es változótól, vagyis a levegőminőségtől függ – legalábbis a megfigyeléseink alapján. A másik két magyarázó változó szerepeltetése fölösleges. 3. Modell egészének tesztelése A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót. Ehhez a : nullhipotézist vizsgáljuk a : ellenében. A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani. Ha még emlékszünk a hipotézisvizsgálat különböző próbáira, az ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni. A próbafüggvény A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre: JOBB OLDALI KRITIKUS ÉRTÉK: VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió Hiba Teljes SST=SSR+SSE Kiszámolunk kettőt. VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió SSR=229,67 k=3 Hiba SSE=184 n-3-1=8 Teljes SST=413,67 n-1=11 A szignifikanciaszint legyen , a két szabadságfok pedig és , így az F-eloszlás eloszlástáblázatából a kritikus érték A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a : nullhipotézist teljesül, ami azt jelenti, hogy az egész modell rossz, az általunk választott magyarázó változók – legalábbis a megfigyeléseink alapján – nem magyarázzák kielégítően az eredményváltozót. Annak oka, hogy miért is rossz a modell, többféle lehet. Gyakori probléma a magyarázó változók nem megfelelő kiválasztása, de magukban a megfigyelésekben is adódhatnak hibák. Mielőtt ezekre a problémákra és kiküszöbölésükre rátérnénk, nézzünk meg egy példát, ahol az eddigieket összefoglaljuk.
Az regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától. Ehhez először elkészítjük a regresszió paramétereinek becslését, lineáris regresszió esetén tehát a , , stb. paraméterek kellenek. Amint a paraméterek megvannak, fölírjuk magának a regressziónak az egyenletét. A kérdés az, hogy vajon jól specifikáltuk-e modellünket, helyesen válogattuk-e meg a magyarázó változókat és azok valóban meggyőző erővel képesek-e magyarázni az eredményváltozót. Nos ezen kínzó kételyek eloszlatására használjuk a modell-elemzés különböző eszközeit. Megvizsgáljuk a reziduumokat, ezek alapján kiszámoljuk a reziduális szórást és az R determinációs együtthatót, ami az első információkat szolgáltatja a modell magyarázó erejéről. Ezek után a hipotézisvizsgálat eszközeivel tudunk tesztelni minden egyes magyarázó változót, hogy kiderüljön, melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem. Végül globális F-próbával az egész modellt is teszteljük. Amennyiben modellünk kiállta a próbákat, érdemes megvizsgálni a korrelációs mátrixot illetve a parciális korrelációs együtthatókat is. Nézzünk meg ehhez egy konkrét példát. Ha az ember többet eszik, mint amennyi energiát utána elhasznál, sajnálatos módon hízásnak indul. Ennek a kis kellemetlenségnek a számszerűsítésére egy kísérletet végeztek 12 azonos testtömegű résztvevővel. Az egy hónapig tartó kísérletben a plusz kilókat vizsgálták, ez az eredményváltozó, a magyarázó változók pedig a naponta bevitt energia, a napi intenzív mozgás és egy dummy változó, ami 0, ha az illető genetikailag hízásra nem hajlamos és 1, ha igen. A kísérlet adatait tartalmazza az X mátrix, az első oszlop a szokásos egyesek, utána a bevitt napi energiamennyiség, aztán a napi mozgás, végül a hízásra való hajlam. Az vektor az egy hónap alatt bekövetkező testtömeg változást tartalmazza. Először kiszámítjuk a lineáris regresszió paramétereit: Ehhez szükségünk van az mátrixra. Mátrixok inverzét nem különösebben kellemes dolog kiszámolni, ezért legokosabb, ha ezt a számítógépre bízzuk. paraméterei szépen egymás után a vektorban állnak elő: Ez úgy értendő, hogy és A lineáris regresszió alakú, amibe az imént kapott paramétereket helyettesítve A paraméterek jelentése a szokásos: Ez most – mint általában – csak technikai paraméter. Az 1-es magyarázó változó a napi energia bevitel volt, tehát ez azt jelenti, hogy ha egy kalóriával nagyobb a napi energia bevitel, az a hónap végén 0,0036 kg-al növeli a testtömeget. Ez a magyarázó változó a napi mozgást írta le, vagyis az derült ki, hogy naponta egy perccel több mozgás a hónap végén 0,0725 kg-al kevesebbet jelent. Ez egy úgynevezett dummy változó volt, ami 1, ha az illető hízásra hajlamos, és 0, ha nem. Pusztán a hízásra való hajlam egy hónap alatt 0,8044 kg többletet eredményez. Ez az együtthatók parciális értelmezése, ami azt jelenti, hogy egy magyarázó változó hogyan hat az eredményváltozó alakulására, ha az összes többi magyarázó változót változatlanul hagyjuk. Most térjünk rá a modell elemzésére. Elsőként kiszámoljuk a modell által szolgáltatott értékeket. Ebből pedig a reziduumokat és SSE-t. A különböző négyzetösszegek között az alábbi összefüggés van: SST=SSE+SSR Nekünk SSE már megvan, de még valamelyiket ki kell számolni. Számoljuk ki mondjuk SST-t. Ekkor a determinációs együttható Ami azt jelenti, hogy a modell magyarázó ereje 68,5%-os, ami nem rossz. A reziduumokból kiszámoljuk a reziduális szórást: Most térjünk rá a becslésekre. Először a regresszió paramétereinek aztán magának a regressziónak az intervallumbecslését készítjük el. A becslésnél t-eloszlást használunk, aminek szabadságfoka v=n-k-1, tehát jelenleg v=12-3-1=8, a konfidencia szint pedig általánosan . Az paraméterek becslései egyenként Magának a regressziónak a becslése pedig A becslés tehát függ az X mátrixtól, vagyis a konfidencia sáv nem egyforma széles. Azon pontok környékén, amelyek alapján a regressziót felírtuk, a konfidencia sáv keskenyebb, itt kisebb a hiba, távolabbi pontok esetében viszont a hiba egyre nagyobb. Konkrét konfidenciaszinthez tartozó konkrét becsléseket most nem csinálunk, ezzel majd a feladatokban fogunk foglalkozni. Most pedig térjünk rá a regresszióval kapcsolatos hipotézisek vizsgálatára. 2. Paraméterek szeparált tesztelése Elsőként a paraméterek tesztelését végezzük el a hipotézisvizsgálat segítségével. Vagyis azt fogjuk vizsgálni, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem. A lineáris regresszió egyenlete A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést, ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van. A próbafüggvény, amit használunk a t-eloszlás lesz, ahol = az A mátrix i-edik sor j-edik eleme KÉTOLDALI KRITIKUS TARTOMÁNY : : BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: A regresszió egyenlete A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk a hőmérsékletért felelős lesz, aztán jön a levegőminőségért felelős végül a fronthatásról szóló . : : a szignifikanciaszint legyen a szabadságfok továbbra is v=n-k-1=12-3-1=8 tehát a kritikus értékek BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: Az elfogadási tartomány tehát A próbafüggvény értékek az egyes paraméterekre: A három paraméterből a próbafüggvény egyiknél sem esik az elfogadási tartományba, vagyis mindhárom esetben elvetjük a : nullhipotézist. Ez annyit jelent, hogy 10%-os szignifikanciaszinten egyik magyarázó változó szerepe sem szignifikánsan nulla, az y eredményváltozó magyarázásához szükség van rájuk. 3. Modell egészének tesztelése A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót. Ehhez a : nullhipotézist vizsgáljuk a : ellenében. A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani. Ha még emlékszünk a hipotézisvizsgálat különböző próbáira, az ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni. A próbafüggvény A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre: JOBB OLDALI KRITIKUS ÉRTÉK: VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió Hiba Teljes Korábban már kiszámoltuk, hogy SSE=3,85 és SST=12,25 így SSR=12,25-3,85=8,4 A szignifikanciaszint legyen , a két szabadságfok pedig és , így az F-eloszlás eloszlástáblázatából a kritikus érték A próbafüggvény-érték tehát az kritikus tartományba esik, vagyis a : nullhipotézist elvetjük, ami azt jelenti, hogy az egész modellt globálisan vizsgálva is arra jutottunk, hogy minden magyarázó változóra szükség van, a modell jó. Végül, ha már ilyen jó a modell, számoljuk ki a változók közti kapcsolat szorosságát leíró korrelációs mátrixot. Itt az és az magyarázó változó közti korrelációt írja le, tehát például az és az közti korrelációt jelenti. pedig az magyarázó változó és az y eredményváltozó közti kapcsolatot jelenti. Mivel a korreláció-mátrix szimmetrikus. Az áttekinthetőbb felírás kedvéért a felső háromszöget, ami tehát tökugyanaz, mint az alsó, el is szokták hagyni. A korrelációs mátrixhoz a három magyarázó változó és az egy eredményváltozó összes lehetséges korrelációját ki kell számolnunk. Ezt általában számítógépes programok számolják, mi csupán a hecc kedvéért kezdjük el kiszámolgatni a korrelációs mátrix elemeit. A jelek szerint hat darab ilyen korrelációt kell kiszámolnunk. Nézzük például mennyi . A korreláció képlete Tehát most Hasonló izgalmakat jelent a többi értéket kiszámolása is. Így kapjuk, a korrelációs mátrixot A kapott korrelációs mátrix tehát tetszőlegesen kiválasztott két változó közti kapcsolat szorosságát méri. Vagyis például ami azt jelenti, hogy ilyen szoros a kapcsolat a bevitt energia és az egy hónap után mutatkozó többletkilók között. Ez azonban nem a tiszta kapcsolatot írja le, hanem benne van a többi magyarázó változó esetleges zavaró hatása is. Ha tisztán a kalóriák és a testtömeg növekedése közötti kapcsolatra van szükségünk, akkor ki kell számolni a parciális korrelációs együtthatókat is. Az parciális korrelációs együttható azt adja meg, hogy milyen szoros kapcsolat van az y eredményváltozó és a j-edik magyarázó változó között, ha a többi magyarázó változó hatását kiszűrjük. ahol Elő kell állítani tehát a korrelációs mátrix inverzét. Visszatérve hízás-kalória kérdésre: Ami azt jelenti, hogy a többi változó hatásától megtisztított korreláció 0,5536 helyett jóval nagyobb, 0,826. Még szembeötlőbb az eredeti korrelációs mátrix értéke, ami pozitív korrelációt mutat a testmozgás és a hízás között. Ez nyilvánvalóan nem lehet. Ha kiszámoljuk a többi hatástól megtisztított parciális korrelációt: Ami már hihető, vagyis a tényleges kapcsolat a hízás és a testmozgás közt negatív: több mozgás=kevesebb hízás. Ezzel a példánkkal lényegében áttekintettük a regressziószámítást, már csak néhány apróság maradt.
Multikollinearitás, autokorreláció, heteroszkedaszticitás A lineáris regressziónak néhány kellemetlen tulajdonságát kell már csak megnéznünk. Ezek egytől egyig olyan bosszantó problémák, amik magát a regressziót és az abból való következtetéseket elrontják. Az első ilyen kellemetlenség a multikollinearitás, ami röviden összefoglalva azt jelenti, hogy két vagy több magyarázó változó között túl szoros korrelációs kapcsolat van, és ez zavarja a becslést. A legtöbb lineáris regressziónál nem teljesül, hogy a magyarázó változók korrelálatlanok. Kis mértékű korreláció kis mértékben zavarja a regressziót, a túl erős korreláció viszont az egész modellt használhatatlanná teheti. Egy másik kellemetlen probléma a jellemzően idősoroknál fellépő autokorreláció. Ez a regresszió maradéktagjának a saját későbbi értékeivel való korrelációját jelenti, vagyis egyfajta szabályszerűséget a maradékváltozóban. Ideális esetben maradéktagnak véletlenszerűnek kell lennie, bármiféle szabályszerűségért a magyarázó változók felelnek a regresszióban. A felsorolt problémák bemutatására nézzünk meg egy különösen szerencsétlenül megalkotott regressziót. Vizsgáljuk meg, hogyan függ egy tóparti strand forgalma két magyarázó változótól, a napi átlaghőmérséklettől és a víz napi hőmérsékletétől. A regressziót 12 nap adatai alapján készítjük el, aminek fele csütörtök másik fele vasárnap. Az első vizsgált nap csütörtök, a második ugyanazon hét vasárnapja, aztán a következő megint csütörtök, utána megint vasárnap és így tovább. A modellben a multikollinearitás és az autokorreláció is megtalálható. A multikollinearitás azért jelentkezik, mert a két magyarázó változó egymással szorosan összefügg. Külön-külön a víz hőmérséklete is hatással van a strand forgalmára, meg a napi átlaghőmérséklet is, de mivel ezek egymással igen szorosan összefüggnek, mindkettő szerepeltetése a regressziós modellt használhatatlanná teszi. Az autokorreláció is jelen lesz a modellben, mert bármilyen idő van, vasárnaponként mindig többen vannak a strandon, mint csütörtökön. Mivel pedig nem szerepeltetünk olyan változót, ami azért felel, hogy hétvége van-e vagy sem, ez a maradéktagban fog megjelenni. Felváltva vizsgálunk csütörtököket és vasárnapokat, tehát a maradéktag felváltva lesz kicsi és nagy, ami erős autokorrelációt jelent. Végül szintén a maradéktaggal kapcsolatos probléma az úgynevezett heteroszkedasz-ticitás, ami azt jelenti, hogy a maradékváltozó varianciája nem állandó, hanem függ az x értékektől. A heteroszkedaszticitás zavarja a regresszióval kapcsolatos becsléseket, így jobban szeretjük, ha a maradéktag állandó varianciájú vagyis homoszkedasztikus. Ennek vizsgálatával most nem foglalkozunk, inkább lássuk a modellt! A 12 nap adatait tartalmazza az X mátrix, az első oszlop a szokásos egyesek, utána a napi középhőmérséklet és a víz hőmérséklete. Az vektor strand napi forgalmát tartalmazza. A lineáris regresszió paramétereit a képlet alapján számoljuk, amit ezúttal már nem részletezünk, paraméterei szépen egymás után a vektorban állnak elő: Ez úgy értendő, hogy A lineáris regresszió alakú, amibe az imént kapott paramétereket helyettesítve A paraméterek parciális értelmezésénél érhető tetten a multikollinearitás káros hatása. Ez most – mint általában – csak technikai paraméter. Azt jelenti, hogy minden egy fokos hőmérsékletemelkedés 118,2 emberrel növeli a strand forgalmát. Ez pedig azt jelenti, hogy a tó vizének minden egy fokos hőmérséklet-emelkedése 26,2 emberrel csökkenti a forgalmat. Ez az utóbbi megállapítás meglehetősen gyanús, a tó vizének melegedésével ugyanis inkább több lesz a vendég, nem pedig kevesebb. Feltéve, hogy nem 50 fokos a víz. Külön-külön mindkét magyarázó változó jól magyarázná a strandolók számát. Ha melegebb van, akkor többen, ha hidegebb kevesebben strandolnak. Ha melegebb a víz, többen, ha hidegebb kevesebben strandolnak. Így viszont, hogy mindkét magyarázó változót egyszerre szerepeltettük a modellben, a köztük lévő szoros kapcsolat egymás magyarázó erejét kioltja. Mivel mindkettő ugyanazt magyarázza, nevezetesen, hogy jó időben többen strandolnak, a két magyarázó változó együttes jelenléte a regressziót elrontja, ezt nevezzük multikollinearitásnak. A multikollinearitás mérésére az úgynevezett VIF (variance inflator factor) variancia növelő faktor van forgalomban. A képletben szereplő a j-edik magyarázó változó és az összes többi magyarázó változó közti determinációs együttható. Kiszámolni úgy tudjuk, hogy egy olyan regressziós modellt készítünk, amiben játssza az eredményváltozó szerepét, ami a többi magyarázó változótól függ. A VIF mutatót úgy értelmezzük, hogy amikor minimális értékét az 1-et veszi föl, akkor nincs multikollinearitás, míg egyre nagyobb értékei az egyre nagyobb multikollinearitást jelentik. Ha 1 és 2 közé esik, akkor gyenge, ha 2 és 5 közé, akkor erős, ha 5-nél nagyobb, akkor nagyon erős a multikollinearitás. Számoljuk ki például értékét, vagyis nézzük meg, a 2-es magyarázó változó, a vízhőmérséklet esetében mennyire erős a multikollinearitás. Ehhez elkészítjük azt a regressziós modellt, amiben a vízhőmérséklet az eredmény-változó, a többi pedig az őt magyarázó változó. Mivel most összesen két magyarázó volt, ez a bizonyos többi nem más, mint az 1-es változó, a napi középhőmérséklet. A regresszió alakú, a paramétereket kiszámolása a szokásos. és Mivel már rengeteg ilyet számoltunk, ezt most ne részletezzük, és . Az a regressziós modell, ahol a víz hőmérséklete játssza az eredményváltozó szerepét: A modell determinációs együtthatója ez lesz az a bizonyos . A multikollinearitás tehát erős, a két magyarázó változó együttes szerepeltetése a regresszió szempontjából káros. Mivel mindkét magyarázó változó ugyanazt mondja, vagyis, hogy jó időben többen strandolnak, a kettő közül az egyiket mellőzve sokkal jobb regressziós modellt kapunk. Tartsuk meg az 1-es számú magyarázó változót, a napi középhőmérsékletet. Modellünk ekkor egyetlen magyarázó változót tartalmaz, a regresszió egyenlete Itt az értékek a strand forgalmának becsült értékei, vagyis, hogy miképpen alakul a forgalom a napi középhőmérséklet, mint magyarázó változó függvényében. Nézzük meg, hogy a regresszió által szolgáltatott vajon mennyire térnek el a tényleges y-októl. A maradéktagban felváltva követik egymást a negatív és pozitív értékek, vagyis igen erős szabályszerűséget mutat. Ennek oka elég egyértelmű, éspedig az, hogy felváltva vizsgáltunk csütörtököket és vasárnapokat. Mivel csütörtökön kevesebben érnek rá strandolni, ilyenkor mindig kisebb vendégszámok lesznek függetlenül az időjárástól. A magyarázó változónk csak az időjárással foglalkozik, ezért ezt a nem időjárásból adódó ingadozást a maradéktag kénytelen leírni. Ideális esetben a maradéktag csak a véletlentől függhet, nem tartalmazhat semmilyen törvényszerűséget. Ha mégis ezt teszi, azt autokorrelációnak nevezzük. A jelek szerint tehát igen erős autokorrelációval van dolgunk. Az autokorreláció tesztelésére a Durbin-Wattson-tesztet fogjuk használni. A teszt lényegében egy hipotézisvizsgálat, aminek részletezésére most nem térünk ki, mindössze a használatát nézzük meg. Maga a próbafüggvény A szignifikanciaszint , a próba elvégzése pedig az alábbi módon történik: és értékeket kikeressük a táblázatból, n=a megfigyelések száma, k=a magyarázó változók száma végül megnézzük a próbafüggvény melyik tartományba esik. Lássuk mit ad ez a teszt a jelenlegi helyzetben. A szignifikanciaszint legyen 5%-os. A megfigyelések száma n=12, a magyarázó változók száma k=1, a Durbin-Watson táblázatból kikeressük a és értékeket. Lássuk hova esik a d-próba értéke!
Néhány ország középfokú iskolai képzésének egy diákra jutó oktatási ráfordítása illetve az éves egy főre jutó GDP adatai láthatók az alábbi táblázatban. Adjuk meg a lineáris regressziós modellt, a reziduális szórást, határozzuk meg a modell magyarázó erejét. ország x GDP/fő (EUR) y Oktatási ráfordítás (Középfokú képzés diák/EUR) Ausztria AT 28 978 76 900 Belgium BE 30 349 61 000 Csehország CZ 15 216 33 800 Franciaország FR 26 656 57 600 Görögország GR 17 941 59 200 Hollandia NL 28 669 61 500 Lengyelország PL 10 135 30 700 Magyarország HU 13 767 33 000 Németország DE 28 232 65 300 Svájc CH 31 987 60 400 A lineáris regresszió ahol és Elsőként kiszámoljuk az átlagokat. Aztán a négyzetes eltéréseket. A lineáris regressziós modell együtthatói és A regressziós egyenes tehát Itt azt jelenti, hogy egy eurós növekedés az egy főre jutó éves GDP-ben A korrelációs együttható 1,7 eurós növekedést eredményez az egy főre jutó oktatási ráfordításban (nem egy évben, hanem a teljes tanulmánya során). most csupán technikai paraméter, elméletileg azt jelenti, hogy ha az egy főre jutó GDP nulla, akkor 14 512 eurót költenek hallgatónként oktatásra, de ez valahogy Etiópiában vagy Szomáliában ahol az egy főre jutóm GDP lényegében valóban nulla, nem így van. Ennek jelentése az, hogy az x magyarázó változó és az y eredményváltozó között elég erős pozitív lineáris kapcsolat van. A korrelációs együttható négyzete pedig ami azt jelenti, hogy a modell magyarázó ereje egész magas, 75%-os. Az x magyarázó változó 75%-ban felel az y eredményváltozó alakulásáért. Számoljuk ki a lineáris regresszió hibáját, a reziduális szórást. Ehhez az SSE eltérés-négyzetösszegre van szükségünk. ország x GDP/fő (EUR) Oktatási ráfordítás (Középfokú képzés diák/EUR) tényleges becsült Ausztria AT 28 978 76 900 63 774,6 Belgium BE 30 349 61 000 66 105,3 Csehország CZ 15 216 33 800 40 379,2 Franciaország FR 26 656 57 600 59 827,2 Görögország GR 17 941 59 200 45 011,7 Hollandia NL 28 669 61 500 63 249,3 Lengyelország PL 10 135 30 700 31 741,5 Magyarország HU 13 767 33 000 37 915,9 Németország DE 28 232 65 300 62 506,4 Svájc CH 31 987 60 400 68 889,9 A reziduális szórás pedig A teljes négyzetösszeg AZ SST=SSR+SSE összefüggés alapján pedig
Egy strand forgalmának alakulása a napi középhőmérséklettől függően 12 megfigyelt nap alapján az alábbi volt: nap napi közép- hőmérséklet (°C) forgalom (fő) 1. 22 765 2. 23 1572 3. 18 510 4. 25 1967 5. 22 1142 6. 16 576 7. 24 986 8. 20 1216 9. 24 1267 10. 26 1686 11. 19 981 12. 20 1412 Adjuk meg a lineáris regresszió egyenletét, adjuk meg a korrelációs és a determinációs együtthatót és döntsük el, hogy a lineáris vagy a hatványkitevős regresszió illeszkedik-e jobban, ha ismeretes, hogy A lineáris regresszió ahol és Elsőként kiszámoljuk az átlagokat. A lineáris regressziós modell együtthatói és A regressziós egyenes tehát A korrelációs együttható Ennek jelentése az, hogy az x magyarázó változó és az y eredményváltozó között elég erős pozitív lineáris kapcsolat van. Számoljuk ki a lineáris regresszió hibáját, a reziduális szórást. Ehhez az SSE eltérés-négyzetösszegre van szükségünk. nap napi közép- hőmérséklet (°C) forgalom (fő) lineáris 1. 22 765 1218,16 2. 23 1572 1326,11 3. 18 510 786,36 4. 25 1967 1542,01 5. 22 1142 1218,16 6. 16 576 570,46 7. 24 986 1434,06 8. 20 1216 1002,26 9. 24 1267 1434,06 10. 26 1686 1649,96 11. 19 981 894,31 12. 20 1412 1002,26 A reziduális szórás pedig A teljes négyzetösszeg A determinációs hányados Ahhoz, hogy eldönthessük melyik modell illeszkedik jobban, nézzük meg az SSE-t a hatványkitevős modellre is.
Az alábbi táblázat néhány ország egy főre jutó GDP-jét és a nők életkorát tartalmazza első házasságkötésük idején. Készítsünk lineáris regressziót, ahol a magyarázó változó az egy főre jutó GDP. Értelmezzük a modell paramétereit, készítsünk varianciaanalízis táblázatot, adjuk meg a modell magyarázó erejét! ország GDP/fő (EUR) Nők életkora házasságkötéskor Ausztria AT 28 978 26,6 Belgium BE 30 349 29,8 Csehország CZ 15 216 28,9 Franciaország FR 26 656 31,6 Görögország GR 17 941 26,9 Hollandia NL 28 669 26,9 Lengyelország PL 10 135 25,3 Magyarország HU 13 767 29,7 Németország DE 28 232 31 Svájc CH 31 987 29,4 A lineáris regresszió és szükségünk van a és a paraméterekre. és Elsőként kiszámoljuk az átlagokat. és Ha y a magyarázó változó lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami Ez a harmadik követelmény a standard lineáris modellben. Ebbe az imént kapott értékeket írva A paraméterek jelentése: Ez most – mint általában – csak technikai paraméter. Ami azt jelenti, hogyha 1 EUR-val nagyobb az egy főre jutó GDP, az 0,0001 évvel tolja ki a nők első házasságkötésének dátumát. Ez tulajdonképpen 0,4 nap. Ha 100 EUR-val nagyobb az egy főre jutó GDP, az viszont már 40 napot jelent. A modell vizsgálata varianciaanalízis segítségével a következő: A nullhipotézis : , míg az ellenhipotézis : . A próbafüggvény A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre: JOBB OLDALI KRITIKUS ÉRTÉK: VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió Hiba Teljes SST=SSR+SSE Kiszámolunk kettőt. VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió SSR=5,49 k=1 Hiba SSE=33,31 n-k-1=8 Teljes SST=38,8 n-1=9 A szignifikanciaszint legyen , a két szabadságfok pedig és , így az F-eloszlás eloszlástáblázatából a kritikus érték A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a : nullhipotézist teljesül, ami azt jelenti, hogy regressziós modell rossz, magyarázó ereje nem meggyőző. Az két hipotézisvizsgálat eltérő eredményei úgy értendők, hogy a magyarázó változó hatása ugyan szignifikánsan nem nulla, de mégis az egész regressziós modell csak kis mértékben magyarázza, hogy a nők hány éves korukban mennek férjhez. Ezt jól szemlélteti a modell magyarázó erejét kifejező úgynevezett determinációs együttható is Ez mindössze 14%-os magyarázó erőt jelent.
Néhány ország adatai alapján vizsgáljuk meg az átlagos iskolázottsági szint és a születéskor várható élettartam közti kapcsolatot. Adjunk meg a lineáris és az exponenciális regressziós modellt, amiben magyarázó változó az átlagos iskolázottsági szint. Melyik modell illeszkedik jobban? Átlagos iskolázottsági szint (év) Születéskor várható élettartam (év) 1. 12,6 81,1 2. 12,4 78,5 3. 11,6 75,4 4. 10,4 74 5. 4,4 65,4 átlag 10,3 74,9 Íme a menü: Nekünk most a lineáris és az exponenciális regresszióra van szükségünk. Az hozzávalók aztán no és persze Számoljuk ki ezeket. A lineáris regressziós modell együtthatói és A regressziós egyenes Minden egyes iskolában töltött év átlagosan 1,7 évvel növeli a várható élettartamot. Ha az iskolában töltött évek száma nulla, a várható élettartam 57,4 év. Az exponenciális regressziós modell együtthatói és és és A regresszió Minden egyes iskolában töltött év átlagosan 1,023-szeresével növeli a várható élettartamot. Ha az iskolában töltött évek száma nulla, a várható élettartam 58,48 év. Nézzük meg, melyik modell illeszkedik jobban! Átlagos iskolázottsági szint (év) Születéskor várható élettartam (év) lineáris regresszió exponenciális regresszió 1. 12,6 81,1 78,82 77,24 2. 12,4 78,5 78,48 76,89 3. 11,6 75,4 77,12 75,51 4. 10,4 74 75,08 73,47 5. 4,4 65,4 64,88 64,10 átlag 10,3 74,9 lineáris regresszió: exponenciális regresszió: A lineáris regresszió tehát lényegesen jobban illeszkedik.
Egy cégnél 30 alkalmazottat vizsgáltak meg, hogy miként magyarázza az életkor, illetve az, hogy az illető férfi-e vagy nő (férfi=0, nő=1) a fizetés nagyságát. A kapott regressziós modell a havi fizetés nagyságát ezer forintban adja meg, ahol jelenti az életkort és jelenti azt, hogy az illető férfi-e vagy nő. Adjuk meg a modell paramétereinek jelentését. Szignifikánsnak tekinthető-e modell alapján az életkor, illetve a nem, az alkalmazott fizetése szempontjából 10%-os szignifikanciaszinten? Teszteljük a teljes modellt 10%-os szignifikanciaszint mellett. A paraméterek parciális értelmezése: Ez most is – mint általában – csak technikai paraméter. Minden egyes év elteltével átlagosan 7,6 ezerrel nagyobb lesz az alkalmazottak fizetése. Az a tény, hogy valaki nő, átlagosan 16,7 ezerrel csökkenti a fizetés nagyságát. Lássuk a paraméterek tesztelését! A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést, ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van. A próbafüggvény, amit használunk a t-eloszlás lesz, KÉTOLDALI KRITIKUS TARTOMÁNY : : BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: A regresszió egyenlete A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk az életkor lesz, aztán jön vagyis, hogy az illető férfi-e vagy nő. : : a szignifikanciaszint a szabadságfok v=n-k-1=30-2-1=27 tehát a kritikus értékek BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: Az elfogadási tartomány tehát A próbafüggvény értékek az egyes paraméterekre: A két paraméterből a próbafüggvény a másodiknál esik az elfogadási tartományba, így annál elfogadjuk a : nullhipotézist. Ez annyit jelent, hogy 10%-os szignifikanciaszinten a regressziós modellben csak az életkor szerepe szignifikánsan nem nulla. Térjünk rá a modell egészének tesztelésére. A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót. Ehhez a : nullhipotézist vizsgáljuk a : ellenében. A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani. Ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni. A próbafüggvény A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre: JOBB OLDALI KRITIKUS ÉRTÉK: VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió Hiba Teljes A szignifikanciaszint , a két szabadságfok pedig és , így az F-eloszlás eloszlástáblázatából a kritikus érték ezekből A próbafüggvény-érték az elfogadási tartományba esik, vagyis a : nullhipotézist elfogadjuk, ami azt jelenti, hogy szignifikánsan minden magyarázó változó hatása nulla, az egész modellt globálisan vizsgálva az rossz.
Egy strand forgalmának modellezésére két magyarázó változót használunk, a napi középhőmérsékletet ( ) illetve azt, hogy hétvége van-e vagy sem ( =0 ha nincs hétvége és =1 ha igen). Egy 12 megfigyelés alapján készített modellről az alábbiakat tudjuk: Adjuk meg a lineáris regressziós modell paramétereinek jelentését. Szignifikánsnak tekinthető-e modell alapján a napi középhőmérséklet a strand forgalmának szempontjából 10%-os szignifikanciaszinten? Adjuk meg a forgalom és a hőmérséklet kapcsolatát leíró parciális korrelációs együttható értékét. Adjuk meg a többszörös determinációs hányados értékét. Lássuk mi mondható a paraméterekről. Ez most – mint általában – csak technikai paraméter. Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az önmagában 12,6 gombóccal növeli átlagosan a forgalmat. Ez egy úgynevezett dummy változó volt, ami 1, ha hétvége van és 0, ha nincs. A 18 tehát azt jelenti, hogy pusztán attól, hogy hétvége van, 18 emberrel több vendég van. Lássuk a paraméter tesztelését! A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést, ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis a magyarázó változónak a regresszióban nem nulla hatása van. A próbafüggvény, amit használunk a t-eloszlás lesz, KÉTOLDALI KRITIKUS TARTOMÁNY : : BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: A szignifikanciaszint a szabadságfok v=n-k-1=12-2-1=9 tehát a kritikus értékek BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: Az elfogadási tartomány tehát A próbafüggvény értékek az egyes paraméterekre: A próbafüggvény a kritikus tartományba esik, vagyis elvetjük a : nullhipotézist. Ez annyit jelent, hogy 10%-os szignifikanciaszinten a regressziós modellben a hőmérsékletnek szignifikáns szerepe van. Térjünk rá a korreláció vizsgálatára. A korreláció mátrix szimmetrikus, tehát a felső üres rész ugyanaz, mint az alsó, vagyis vagy tehát ha például valaki egy képletben nem -t hanem -et lát, akkor semmi ok az aggodalomra, ezek ugyanazok. A hőmérséklet és a forgalom közötti korrelációs együttható értéke ebben azonban benne van a másik magyarázó változó hatása is. Ettől a hatástól megtisztítva lesz belőle parciális korrelációs együttható, amit azokban az esetekben, amikor a magyarázó változók száma kettő, így is számolhatunk: A tényleges kapcsolat a hőmérséklet és a forgalom között tehát valamivel gyengébb, mint az alapján feltételezett. Végül lássuk a determinációs hányadost, ami a modell magyarázó erejét adja meg. Ha a magyarázó változók száma kettő,
Standard lineáris modell kétváltozós eset A regressziószámítás egyik lényeges kérdése magának a regressziós modellnek az elemzése. Az elemzést a leginkább elterjedt modell, az úgynevezett standard lineáris modell esetében végezzük el. A standard lineáris modellnek a feltételei első ránézésre kissé bonyolultak, ezért mielőtt ezekre rátérnénk, nézzünk inkább egy mesét! Vizsgáljuk meg, milyen hatással van az egy főre jutó GDP arra, hogy a nők hány éves korukban kötik első házasságukat. A következő táblázat néhány általunk választott ország adatait tartalmazza. ország x GDP/fő (EUR) y Nők életkora házasságkötéskor Ausztria AT 28 978 26,6 Belgium BE 30 349 29,8 Csehország CZ 15 216 28,9 Franciaország FR 26 656 31,6 Görögország GR 17 941 26,9 Hollandia NL 28 669 26,9 Lengyelország PL 10 135 25,3 Magyarország HU 13 767 29,7 Németország DE 28 232 31 Svájc CH 31 987 29,4 A 10 megfigyelt országot választhattuk volna véletlenszerűen, most azonban ezek előre beállított értékek, vagyis direkt ezeket az országokat választottuk. Nos ez volna a standard lineáris modell első követelménye, vagyis az, hogy a magyarázó változó értékei nem valószínűségi változók. A második feltétel kétváltozós esetben – vagyis most – automatikusan teljesül. A lineáris regresszió és szükségünk van a és a paraméterekre. és Elsőként kiszámoljuk az átlagokat. és Ha y a magyarázó változó lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami Ez a harmadik követelmény a standard lineáris modellben. Ebbe az imént kapott értékeket írva A paraméterek jelentése: Ez most – mint általában – csak technikai paraméter. Ami azt jelenti, hogyha 1 EUR-val nagyobb az egy főre jutó GDP, az 0,0001 évvel tolja ki a nők első házasságkötésének dátumát. Ez tulajdonképpen 0,4 nap. Ha 100 EUR-val nagyobb az egy főre jutó GDP, az viszont már 40 napot jelent. Most térjünk rá a modellel kapcsolatos vizsgálatokra. 1. Becslések a standard lineáris modellben A regresszió paramétereinek illetve magának a regressziónak az intervallumbecslése hasonló a korábbi intervallumbecslésekhez. Ahhoz, hogy ennek lényegét megértsük, elég, belegondolnunk abba, hogy a regresszió alapján, ha például egy ország egy főre jutó GDP-je 30 000 EUR, akkor a regresszió alapján vagyis átlagosan 29,3 évesen mennek a nők férjhez. Könnyen elképzelhető azonban egy olyan ország, ahol az egy főre jutó GDP 30 000 EUR, ám a nők mondjuk csak 31 évesen mennek férjhez, vagyis a 29,3 nem azt jelenti, hogy márpedig minden országban így kell lennie. A tényleges érték tehát egy sávban helyezkedik el a regresszió körül, amit konfidencia sávnak nevezünk. Ennek a sávnak a meghatározásához először maguknak a paramétereknek az intervallumbecslését csináljuk meg, amihez szükségünk van standard hibára. Ezt a már korábbról ismert reziduális szórás segítségével fogjuk megkapni. Most azonban a torzítatlanság érdekében az úgynevezett korrigált reziduális szórásra van szükségünk, ami Itt n a megfigyelések száma, k pedig a magyarázó változók száma, ami most k=1. ország x y Ausztria AT 28 978 26,6 29,2 Belgium BE 30 349 29,8 29,3 Csehország CZ 15 216 28,9 27,8 Franciaország FR 26 656 31,6 28,9 Görögország GR 17 941 26,9 28,0 Hollandia NL 28 669 26,9 29,2 Lengyelország PL 10 135 25,3 27,3 Magyarország HU 13 767 29,7 27,7 Németország DE 28 232 31 29,1 Svájc CH 31 987 29,4 29,5 A standard lineáris modell két további feltétele az hibataggal kapcsolatos, és az intervallumbecsléshez kell. Ezekről a feltételekről azt érdemes tudni, hogy általában teljesülnek, vagy legalábbis hazudhatjuk róluk, hogy teljesülnek. Nézzük meg az paramétereinek becsléseit. A becslésnél t-eloszlást használunk, aminek szabadságfoka v=n-k-1, tehát jelenleg v=10-1-1=8, a konfidencia szint pedig általánosan . Az paraméterek becslései egyenként Ha például a konfidencia szint 90%-os, akkor így a szabadságfok pedig v=n-k-1=10-1-1=8 2. A paraméter tesztelése Az lineáris regresszió paraméterének tesztelését végezzük el a hipotézisvizsgálat segítségével. Tulajdonképpen azt fogjuk vizsgálni, hogy a magyarázó változó ténylegesen képes-e magyarázni y-t. A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést, ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis a magyarázó változó hatása az eredmény-változóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis a magyarázó változónak a regresszióban nem nulla hatása van. A próbafüggvény, amit használunk a t-eloszlás lesz, ahol KÉTOLDALI KRITIKUS TARTOMÁNY : : BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: : : a szignifikanciaszint legyen a szabadságfok továbbra is v=n-k-1=10-1-1=8 tehát a kritikus értékek BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: Az elfogadási tartomány tehát A próbafüggvény érték: A próbafüggvény értéke bőven az elfogadási tartományon kívül esik, így a nullhipotézist elvetjük, a : ellenhipotézist pedig elfogadjuk, vagyis a szerepe a regresszióban igenis jelentős, az egy főre jutó GDP valóban szerepet játszik abban, hogy a nők hány évesen mennek férjhez. 3. Modell egészének tesztelése A magyarázó változó tesztelése végezhető F-próbával is. Ennek igazán majd a többváltozós regresszió esetén lesz jelentősége. A nullhipotézis ezúttal is : , míg az ellenhipotézis : . A próbafüggvény A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre: JOBB OLDALI KRITIKUS ÉRTÉK: VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió Hiba Teljes SST=SSR+SSE Kiszámolunk kettőt. VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió SSR=5,49 k=1 Hiba SSE=33,31 n-k-1=8 Teljes SST=38,8 n-1=9 A szignifikanciaszint legyen , a két szabadságfok pedig és , így az F-eloszlás eloszlástáblázatából a kritikus érték A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a : nullhipotézist teljesül, ami azt jelenti, hogy regressziós modell rossz, magyarázó ereje nem meggyőző. Az két hipotézisvizsgálat eltérő eredményei úgy értendők, hogy a magyarázó változó hatása ugyan szignifikánsan nem nulla, de mégis az egész regressziós modell csak kis mértékben magyarázza, hogy a nők hány éves korukban mennek férjhez. Ezt jól szemlélteti a modell magyarázó erejét kifejező úgynevezett determinációs együttható is Ez mindössze 14%-os magyarázó erőt jelent. A továbbiakban rátérünk a többváltozós regressziós modell vizsgálatára.
Standard lineáris modell A regressziószámítás egyik lényeges kérdése magának a regressziós modellnek az elemzése. Az elemzést a leginkább elterjedt modellel, az úgynevezett standard lineáris modellel kezdjük. A standard lineáris modellnek a feltételei első ránézésre kissé bonyolultak, ezért mielőtt ezekre rátérnénk, nézzünk inkább egy kellemes történetet! Egy városban a naponta elhalálozottak száma és különböző meteorológiai hatások közötti összefüggést szeretnénk földeríteni, ezért 12 napon vizsgáljuk a hőmérsékletet, a levegőminőséget, valamint, hogy érkezik-e front. A 12 nap adatait tartalmazza az X mátrix. Az első oszlop a szokásos egyesekből áll, aztán jön a hőmérséklet. A következő oszlop az átlagos levegőminőség (a megengedett határérték %-ában), az utolsó oszlop pedig egy dummy változó, ha van front, , ha nincs. Végül az vektor az adott napok halálozási adatait tartalmazza. A 12 megfigyelt napot választhattuk volna véletlenszerűen, például úgy, hogy 12 egymás utáni napot vizsgálunk. Ebben az esetben a magyarázó változók értékei valószínűségi változók, vagyis nem tőlünk függnek az értékeik. Most azonban ezek előre beállított értékek, vagyis direkt ezeket a napokat választottuk. Nos ez volna a standard lineáris modell első követelménye, vagyis az, hogy a magyarázó változó értékei nem valószínűségi változók. Most számítsuk ki a lineáris regresszió paramétereit: Elsőként kiszámítjuk az mátrixot, amire majd még később is nagy szükségünk lesz. Mátrixok inverzét nem különösebben kellemes dolog kiszámolni, ezért leg- okosabb, ha ezt a számítógépre bízzuk. Ahhoz, hogy ez az inverz mátrix létezzen teljesülnie kell annak a technikai követelménynek, hogy az eredeti X mátrix oszlopai, vagyis a magyarázó változók lineárisan független rendszert alkossanak. Nos akinek mond ez valamit, az örüljön neki, akinek nem, annak úgyis mindegy, a feladatok megoldásához nem fog kelleni. Ha tehát létezik ez a bizonyos mátrix, akkor a lineáris regresszió paraméterei szépen egymás után a vektorban állnak elő: Ez úgy értendő, hogy és Ha y a magyarázó változók lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami Ez a harmadik követelmény a standard lineáris modellben. Ebbe az imént kapott értékeket írva A paraméterek jelentése a szokásos: Ez most – mint általában – csak technikai paraméter. Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az átlagosan 0,0527-el csökkenti a napi halálozást. Ez a magyarázó változó a légszennyezettséget írta le, vagyis az derült ki, hogy 1%pontos növekedés 0,1559-el növeli a halálozások számát. Ez egy úgynevezett dummy változó volt, ami 1, ha van front és 0, ha nincs. A 3,6783 azt jelenti, hogy front esetén átlagosan ennyivel többen haláloznak el. A standard lineáris modell két további feltétele az hibataggal kapcsolatos. Ezekről a feltételekről azt érdemes tudni, hogy általában teljesülnek, vagy legalábbis hazudhatjuk róluk, hogy teljesülnek (jó közelítéssel teljesülnek). Most, hogy áttekintettük a standard lineáris modell öt követelményét, térjünk rá a modellel kapcsolatos vizsgálatokra. Legérdekesebb vizsgálataink a hipotézisvizsgálat eszközeit felhasználva azok lesznek, amikor megvizsgáljuk, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem. Vagyis például a hőmérséklet egy fokos változása csak 0,0527-el változtat a napi halálozási számon, így fölmerül a gyanú, hogy ezt a változót fölöslegesen vizsgáljuk, vagyis nincs számottevő hatása. Kezdetben ugyan logikusnak tűnt a hőmérséklet, mint magyarázó változó használata, hiszen az extrém meleg időben valóban megugrik a halálozás, de más időszakokban megeshet, hogy a hőmérséklet nincs hatással a halálozásra. A helyzet tisztázására használjuk majd a hipotézisvizsgálat eszközeit. Mielőtt azonban erre rátérnénk, előbb a becslésekkel kell foglalkoznunk. 1. Becslések a standard lineáris modellben A regresszió paramétereinek illetve magának a regressziónak az intervallumbecslése hasonló a korábbi intervallumbecslésekhez. Ahhoz, hogy ennek lényegét megértsük, elég, belegondolnunk abba, hogy a regresszió alapján, ha például 12 fokos az átlaghőmérséklet, 50%-os a légszennyezettség, nincs front, akkor éppen 40,64-en haláloznak el. Könnyen elképzelhető azonban egy olyan nap, amikor szintén ugyanilyen körülmények vannak, de sajnálatos módon 42 haláleset történik. Vagyis a 40,64 nem azt jelenti, hogy márpedig minden nap, amikor ugyanezek a körülmények vannak pontosan 40,64-en haláloznak el, hanem azt, hogy várhatóan ezen érték körül ingadozik majd a halálesetek száma. A tényleges érték tehát egy sávban helyezkedik el a regresszió körül, amit konfidencia sávnak nevezünk. Ennek a sávnak a meghatározásához először maguknak a paramétereknek az intervallumbecslését csináljuk meg, amihez szükségünk van standard hibára. Ezt a már korábbról ismert reziduális szórás segítségével fogjuk megkapni. Most azonban a torzítatlanság érdekében az úgynevezett korrigált reziduális szórásra van szükségünk, ami Itt a regresszió által szolgáltatott és a tényleges y értékek különbsége, vagyis Az i-edik paraméter becslésének standard hibája ahol = az A mátrix i-edik sor j-edik elemét jelenti. Nézzük meg az paramétereinek becsléseit. A becslésnél t-eloszlást használunk, aminek szabadságfoka v=n-k-1, tehát jelenleg v=12-3-1=8, a konfidencia szint pedig általánosan . Az paraméterek becslései egyenként Magának a regressziónak a becslése pedig A becslés tehát függ az X mátrixtól, vagyis a konfidencia sáv nem egyforma széles. Azon pontok környékén, amelyek alapján a regressziót felírtuk, a konfidencia sáv keskenyebb, itt kisebb a hiba, távolabbi pontok esetében viszont a hiba egyre nagyobb. Konkrét konfidenciaszinthez tartozó konkrét becsléseket most nem csinálunk, ezzel majd a feladatokban fogunk foglalkozni. Most pedig térjünk rá a regresszióval kapcsolatos hipotézisek vizsgálatára.