Valószínűségszámítás epizód tartalma:
Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.
A képsor tartalma
Standard lineáris modell kétváltozós eset
A regressziószámítás egyik lényeges kérdése magának a regressziós modellnek az elemzése. Az elemzést a leginkább elterjedt modell, az úgynevezett standard lineáris modell esetében végezzük el.
A standard lineáris modellnek a feltételei első ránézésre kissé bonyolultak, ezért mielőtt ezekre rátérnénk, nézzünk inkább egy mesét!
Vizsgáljuk meg, milyen hatással van az egy főre jutó GDP arra, hogy a nők hány éves korukban kötik első házasságukat. A következő táblázat néhány általunk választott ország adatait tartalmazza.
ország x
GDP/fő
(EUR) y
Nők életkora
házasságkötéskor
Ausztria AT 28 978 26,6
Belgium BE 30 349 29,8
Csehország CZ 15 216 28,9
Franciaország FR 26 656 31,6
Görögország GR 17 941 26,9
Hollandia NL 28 669 26,9
Lengyelország PL 10 135 25,3
Magyarország HU 13 767 29,7
Németország DE 28 232 31
Svájc CH 31 987 29,4
A 10 megfigyelt országot választhattuk volna véletlenszerűen, most azonban ezek előre beállított értékek, vagyis direkt ezeket az országokat választottuk.
Nos ez volna a standard lineáris modell első követelménye, vagyis az, hogy a magyarázó változó értékei nem valószínűségi változók.
A második feltétel kétváltozós esetben – vagyis most – automatikusan teljesül.
A lineáris regresszió
és szükségünk van a és a
paraméterekre.
és
Elsőként kiszámoljuk az átlagokat.
és
Ha y a magyarázó változó lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami
Ez a harmadik követelmény a standard lineáris modellben.
Ebbe az imént kapott értékeket írva
A paraméterek jelentése:
Ez most – mint általában – csak technikai paraméter.
Ami azt jelenti, hogyha 1 EUR-val nagyobb az egy főre jutó GDP, az 0,0001 évvel tolja ki a nők első házasságkötésének dátumát. Ez tulajdonképpen 0,4 nap. Ha 100 EUR-val nagyobb az egy főre jutó GDP, az viszont már 40 napot jelent.
Most térjünk rá a modellel kapcsolatos vizsgálatokra.
1. Becslések a standard lineáris modellben
A regresszió paramétereinek illetve magának a regressziónak az intervallumbecslése hasonló a korábbi intervallumbecslésekhez. Ahhoz, hogy ennek lényegét megértsük, elég, belegondolnunk abba, hogy a regresszió alapján, ha például egy ország egy főre jutó GDP-je 30 000 EUR, akkor a regresszió alapján
vagyis átlagosan 29,3 évesen mennek a nők férjhez.
Könnyen elképzelhető azonban egy olyan ország, ahol az egy főre jutó GDP 30 000 EUR, ám a nők mondjuk csak 31 évesen mennek férjhez, vagyis a 29,3 nem azt jelenti, hogy márpedig minden országban így kell lennie. A tényleges érték tehát egy sávban helyezkedik el a regresszió körül, amit konfidencia sávnak nevezünk.
Ennek a sávnak a meghatározásához először maguknak a paramétereknek az intervallumbecslését csináljuk meg, amihez szükségünk van standard hibára. Ezt a már korábbról ismert reziduális szórás segítségével fogjuk megkapni.
Most azonban a torzítatlanság érdekében az úgynevezett korrigált reziduális szórásra van szükségünk, ami
Itt n a megfigyelések száma, k pedig a magyarázó változók száma, ami most k=1.
ország x
y
Ausztria AT 28 978 26,6 29,2
Belgium BE 30 349 29,8 29,3
Csehország CZ 15 216 28,9 27,8
Franciaország FR 26 656 31,6 28,9
Görögország GR 17 941 26,9 28,0
Hollandia NL 28 669 26,9 29,2
Lengyelország PL 10 135 25,3 27,3
Magyarország HU 13 767 29,7 27,7
Németország DE 28 232 31 29,1
Svájc CH 31 987 29,4 29,5
A standard lineáris modell két további feltétele az hibataggal kapcsolatos, és az intervallumbecsléshez kell. Ezekről a feltételekről azt érdemes tudni, hogy általában teljesülnek, vagy legalábbis hazudhatjuk róluk, hogy teljesülnek.
Nézzük meg az
paramétereinek becsléseit.
A becslésnél t-eloszlást használunk, aminek szabadságfoka
v=n-k-1, tehát jelenleg v=10-1-1=8, a konfidencia szint
pedig általánosan .
Az paraméterek becslései egyenként
Ha például a konfidencia szint 90%-os, akkor így a szabadságfok pedig v=n-k-1=10-1-1=8
2. A paraméter tesztelése
Az lineáris regresszió paraméterének tesztelését végezzük el a
hipotézisvizsgálat segítségével. Tulajdonképpen azt fogjuk vizsgálni, hogy a magyarázó változó ténylegesen képes-e magyarázni y-t.
A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést,
ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis a magyarázó változó hatása az eredmény-változóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis a magyarázó változónak a regresszióban nem nulla hatása van.
A próbafüggvény, amit használunk a t-eloszlás lesz,
ahol
KÉTOLDALI KRITIKUS TARTOMÁNY
:
:
BAL OLDALI KRITIKUS ÉRTÉK:
JOBB OLDALI KRITIKUS ÉRTÉK:
: : a szignifikanciaszint legyen a szabadságfok továbbra is v=n-k-1=10-1-1=8 tehát a kritikus értékek
BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK:
Az elfogadási tartomány tehát
A próbafüggvény érték:
A próbafüggvény értéke bőven az elfogadási tartományon kívül esik, így a nullhipotézist elvetjük, a : ellenhipotézist pedig elfogadjuk, vagyis a szerepe a regresszióban igenis jelentős, az egy főre jutó GDP valóban szerepet játszik abban, hogy a nők hány évesen mennek férjhez.
3. Modell egészének tesztelése
A magyarázó változó tesztelése végezhető F-próbával is. Ennek igazán majd a többváltozós regresszió esetén lesz jelentősége.
A nullhipotézis ezúttal is : , míg az ellenhipotézis : .
A próbafüggvény
A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:
JOBB OLDALI KRITIKUS ÉRTÉK:
VARIANCIAANALÍZIS-TÁBLÁZAT
SZÓRÓDÁS
OKA NÉGYZETÖSSZEG SZABADSÁG-
FOK ÁTLAGOS
NÉGYZETÖSSZEG F
Regresszió
Hiba
Teljes
SST=SSR+SSE
Kiszámolunk kettőt.
VARIANCIAANALÍZIS-TÁBLÁZAT
SZÓRÓDÁS
OKA NÉGYZETÖSSZEG SZABADSÁG-
FOK ÁTLAGOS
NÉGYZETÖSSZEG F
Regresszió
SSR=5,49
k=1
Hiba
SSE=33,31
n-k-1=8
Teljes
SST=38,8
n-1=9
A szignifikanciaszint legyen , a két szabadságfok pedig és , így az F-eloszlás eloszlástáblázatából a kritikus érték
A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a : nullhipotézist teljesül, ami azt jelenti, hogy regressziós modell rossz, magyarázó ereje nem meggyőző.
Az két hipotézisvizsgálat eltérő eredményei úgy értendők, hogy a magyarázó változó hatása ugyan szignifikánsan nem nulla, de mégis az egész regressziós modell csak kis mértékben magyarázza, hogy a nők hány éves korukban mennek férjhez.
Ezt jól szemlélteti a modell magyarázó erejét kifejező úgynevezett determinációs együttható is
Ez mindössze 14%-os magyarázó erőt jelent.
A továbbiakban rátérünk a többváltozós regressziós modell vizsgálatára.
Itt jön egy izgalmas
Valószínűségszámítás epizód.
Valószínűségszámítás epizód.