Statisztika 2 epizód tartalma:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.

A képsor tartalma

Többváltozós lineáris regresszió

A többváltozós regressziós modelleket olyankor alkalmazzuk, amikor az eredményváltozó alakulását több magyarázó változó tükrében vizsgáljuk.

Például egy fagyiárus napi forgalma függ attól, hogy hány fok van az adott napon, a 30 fokos kánikula határozottan jobban kedvez az eladásnak, mint a -10 fokos hideg. Ezen kívül azonban számít az is, hogy az embereknek mennyi elfagyizni való pénzük van, mint ahogy mondjuk az is, hogy éppen hétvége van-e vagy sem.

A többváltozós lineáris regresszió egyenlete

Az y eredményváltozó itt k darab magyarázó változótól és a hibatagtól függ.

Az hibatagot elhagyva kapjuk az eredményváltozó becsült képletét:

A , , stb. paramétereket, ahogyan a kétváltozós esetben, itt is a legkisebb négyzetek módszerével kapjuk meg, de mindenki megkönnyebbülésére ezt most nem részletezzük.

Mivel itt több magyarázó változó is van, a helyzet jóval bonyolultabb lesz. A magyarázó változók értékeit egy mátrixba rendezzük, ahol az első oszlop csupa 1-es, minden további oszlop pedig egy-egy magyarázó változó értékeit tartalmazza.

A fagyiárus esetében három magyarázó változót vizsgálunk, az első arról szól, hogy hány fok van, a másodi arról, hogy mennyi pénze van az embereknek, a harmadik pedig arról, hogy hétvége van-e vagy sem.

A csupa 1-es oszlop után jöjjön az, hogy hány fok volt az adott napon. A 12 érték 12 különböző nap adatait tartalmazza.

A következő oszlop a gazdasági helyzetet írja le, ami szintén hatással van a forgalomra.

Ezt azonban jóval bonyolultabb egyetlen számmal jellemezni, mint a hőmérsékletet. A gazdasági helyzet egyik mérője lehet például a kőolaj világpiaci ára. Romló gazdasági helyzetben ugyanis a kőolaj ára általában csökken, míg javulás esetén nő.

Azokat a magyarázó változókat, amik tartalmilag csak közvetve befolyásolják az eredményváltozót, proxy változónak nevezzük. Esetünkben a kőolaj ára ilyen proxy változó. Pusztán azért mert drágább az olaj, nyilván nem fogunk több fagyit venni, de ha a drágább olaj együtt jár a jobb gazdasági mutatókkal, akkor már igen.

A negyedik oszlop arról szól, hogy hétvége van-e vagy sem. Hétvégén ugyanis általában több, hétköznap kevesebb fagyit vesznek az emberek. Az ilyen típusú magyarázó változókat dummy változónak nevezzük. A dummy változó két értéket vehet föl, leginkább úgy szokás alkalmazni, hogy 0-át vagy 1-et. Esetünkben az, hogy hétvége van-e, egy dummy változó. Legyen , ha hétvége van és ha nem.

Végül az eredményváltozó ugyanezen napokon mért értékeit az vektor tartalmazza. Ez ugyebár az eladott gombócok száma.

A , , paramétereket az X mátrix és az vektor alapján, a következő, nem éppen kellemes képlet alapján számoljuk ki:

A képletben szereplő műveletek akkor elvégezhetőek, ha az mátrixnak létezik inverze, amihez az kell – ha valaki kicsit járatos a lineáris algebrában – hogy az X mátrix oszlopvektorai lineárisan független rendszert alkossanak. Ez lényegében azt jelenti, hogy a magyarázó változók között ne legyen függvényszerű kapcsolat.

A képlet végén lévő vektorral való szorzáshoz pedig az kell, hogy az összefüggés teljesüljön, vagyis legalább annyi megfigyelésünk legyen, amennyi a becsülni kívánt paraméterek száma.

Ezek azonban csak a technikai feltételek. A gyakorlatban arra kell törekedni, hogy a megfigyelések száma legalább háromszorosa legyen a becsülni kívánt paraméterek számának. Esetünkben a paraméterek száma négy, tehát a 12 megfigyelésünk éppen hogy elég.

Az X mátrix általános alakja k darab magyarázó változó értékeit tartalmazza, a megfigyelések száma n.

Az vektor az n darab megfigyelés során tapasztalt eredményváltozó értékeket tartalmazza.

A lineáris regresszió paraméterei szépen egymás után a vektorban lesznek.

Nézzük meg a konkrét számításokat a fagylalt-biznisz esetében. Ezeket csak a szemléltetés kedvéért mutatjuk be, valójában senkinek nem kell majd ilyeneket kiszámolnia. Ezekre és az ehhez hasonló számolásokra ugyanis különféle statisztikai programcsomagok vannak forgalomban.

így

Aminek az inverze

A lineáris regresszió paraméterei szépen egymás után a vektorban lesznek.

Ez úgy értendő, hogy és

A lineáris regresszió egyenlete

amibe az imént kapott értékeket írva a

egyenlet adódik az eladott fagyik számára.

A lineáris regresszió

képletében a paraméter a tengelymetszet, a többi paraméter pedig azt jelenti, hogy az i-edik magyarázó változó egy egységgel történő változása, mennyivel változtatja az értéket, ha a többi magyarázó változót rögzítjük.

Lássuk mi mondható a fagylalt-biznisz esetében!

Ez most – mint általában – csak technikai paraméter.

Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az önmagában 12,57 gombóccal növeli a napi eladást.

Ez a magyarázó változó a gazdasági helyzetet írta le, méghozzá a kőolaj árával. Adataink alapján az derült ki, hogy 1 dolláros olajár növekedés 0,32 gombóccal csökkenti az eladást.

Ez egy úgynevezett dummy változó volt, ami 1, ha hétvége van és 0, ha nincs. A 18,34 tehát azt jelenti, hogy pusztán attól, hogy hétvége van, 18,34 gombóccal több fagyi adható el.

A paraméterek értelmezése után érdemes megnézni itt is az elaszticitást, ami azt fejezi ki, hogy az magyarázó változó 1%-os változása hány %-os változást okoz az eredményváltozóban, ha a többi magyarázó változót rögzítjük.

Az elaszticitás számszerű értéke egy konkrét esetben a következő:

Ha például 20 fok van, 100 dollár egy hordó olaj és hétvége van, akkor 1%-os hőmérsékletváltozás hány %-al növeli az eladást?

Vagyis 1%-os hőmérséklet-emelkedés 0,37%-al növeli az eladást.

A továbbiakban a kapott lineáris regresszió elemzéséről lesz szó. Elsőként, ahogyan a kétváltozós esetben tettük, most is megnézzük a reziduumokat és a korrelációt, majd az elaszticitást.

Ezt követően azonban jóval érdekesebb dolgokat csinálunk. A hipotézisvizsgálat eszközeit felhasználva megvizsgáljuk, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.

A fagyis történetben például a kőolaj árának 1 dolláros változása csak 0,32 gombócnyi hatással van a fagyi-eladásra, így fölmerül a gyanú, hogy ezt a változót fölöslegesen vizsgáljuk. Kezdetben ugyan logikusnak tűnt a gazdasági helyzet, mint magyarázó változó használata, de a konkrét eredmények ezt kérdésessé teszik. Ennek tisztázására használjuk majd a hipotézisvizsgálat eszközeit.

Korreláció a többváltozós lineáris modellben

A kétváltozós esethez hasonlóan a korreláció itt is a változók közti kapcsolat szorosságát írja le, csakhogy itt egy fokkal rosszabb a helyzet, ugyanis most bármely két változó korrelációját vizsgálhatjuk. Ezt tartalmazza a korreláció-mátrix.

Itt az és az magyarázó változó közti korrelációt írja le, tehát például az és az közti korrelációt jelenti.

pedig az magyarázó változó és az y eredményváltozó közti kapcsolatot jelenti.

Mivel a korreláció-mátrix szimmetrikus. Az áttekinthetőbb felírás kedvéért a felső háromszöget, ami tehát tökugyanaz, mint az alsó, el is szokták hagyni.

Számítsuk ki az előző fagyis példánk korreláció-mátrixát. Ehhez a három magyarázó változó és az egy eredményváltozó összes lehetséges korrelációját ki kell számolnunk, ami igencsak aggasztónak tűnik. Sőt, az is, éppen ezért erre olyan statisztikai programcsomagok vannak forgalomban, amik az egész mátrixot egy pillanat alatt előállítják.

Mi most mégis, csupán a hecc kedvéért kezdjük el kiszámolgatni a korrelációs mátrix elemeit.

A jelek szerint hat darab ilyen korrelációt kell kiszámolnunk.

Nézzük például mennyi .

A korreláció képlete

Tehát most

Hasonló izgalmakat jelent mondjuk kiszámolása is:

A többi értéket is ugyanígy kapjuk, a korrelációs mátrix pedig

A kapott korrelációs mátrix tehát tetszőlegesen kiválasztott két változó közti kapcsolat szorosságát méri. Ez az érték azonban nem a közvetlen kapcsolatot, hanem benne van a többi változó közvetett hatása is.

Vagyis például ami azt jelenti, hogy ilyen szoros a kapcsolat a kőolaj ára és az eladott gombócok száma között, de ebbe benne van a többi változó hatása is.

Ha tehát például szoros kapcsolat van a kőolaj ára és a hőmérséklet között, akkor a hőmérséklet hatása is érezteti magát az olajár-fagyieladás korrelációban. Megeshet tehát az, hogy az olajár valójában nem hat a fagyi eladásra, viszont szorosan összefügg a hőmérséklettel. Mivel pedig a hőmérséklet valóban hatással van a fagyi eladásra, ez a hatás az olajár-fagyieladás korrelációban is felbukkan.

Szükség lenne tehát a többi hatástól megtisztított tiszta korrelációkra is. Ezeket nevezzük parciális korrelációs együtthatóknak.

Az parciális korrelációs együttható azt adja meg, hogy milyen szoros kapcsolat van az y eredményváltozó és a j-edik magyarázó változó között, ha a többi magyarázó változó hatását kiszűrjük.

ahol

Elő kell állítani tehát a korrelációs mátrix inverzét. Ismét a hecc kedvéért kiszámoljuk ezt a mátrixot, de valójában vannak kiváló statisztikai programcsomagok, amik ezt mind kiszámolják.

Visszatérve az olajár-fagyieladás kérdésre:

Ami azt jelenti, hogy a többi változó hatásától megtisztított korreláció -0,0412 ellentétben a korábbi 0,022 értékkel.

Számítsuk ki a hömérséklet-fagyieladás parciális korrelációt is.

A korábbi 0,923-nál tehát valójában kicsivel gyengébb a hőmérséklet és az eladott fagyik száma közti kapcsolat.

Az lineáris regresszió illeszkedésének vizsgálatához meghatározzuk az úgynevezett reziduumokat. Ezek tulajdonképpen az illeszkedési hibák, amiket azokon a helyeken tapasztalunk, amelyek alapján a lineáris regressziót felírtuk.

A reziduumok tehát az különbségek.

Ezek a különbségek azonban most sem azonosak az hibataggal.

Az hibatag ugyanis maga is egy függvény, amibe a többi, általunk nem vizsgált magyarázó változó hatását zsúfoltuk bele, míg az reziduumok csupán abban a néhány pontban adják meg a hibát, amelyek alapján a regressziót felírtuk.

A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg, ami hajszálra megegyezik a kétváltozós esetben megismerttel.

Ha a regresszió tökéletesen illeszkedik, akkor az különbségek mindegyike nulla, így SSE=0. Ha az illeszkedés nem tökéletes, akkor SSE egy pozitív érték, ami az illeszkedés pontatlanságát méri, valahogy úgy, ahogyan a szórás méri az átlagtól való eltérést.

A szórásra még jobban emlékeztető mutatót kapunk, ha az SSE értékét elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét. Az így kapott állatfajta neve reziduális szórás:

A kétváltozós esethez hasonlóan itt is vizsgálhatjuk az

négyzetösszegeket is, melyekre itt is teljesül az SST=SSR+SSE összefüggés.

A kétváltozós esethez hasonlóan itt is a modell magyarázó erejét méri a determinációs együttható:

Jóval érdekesebb azonban az, amivel most vizsgálódásunkat folytatjuk. Ez nem más, mint a hipotézisvizsgálat alkalmazása a regressziószámításban, méghozzá annak eldöntéséhez, hogy az általunk választott magyarázó változók közül melyek azok, amelyek tényleg hatással vannak az eredményváltozóra. Ez jön most.

Standard lineáris modell

A regressziószámítás egyik lényeges kérdése magának a regressziós modellnek az elemzése. Az elemzést a leginkább elterjedt modellel, az úgynevezett standard lineáris modellel kezdjük. A standard lineáris modellnek a feltételei első ránézésre kissé bonyolultak, ezért mielőtt ezekre rátérnénk, nézzünk inkább egy kellemes történetet!

Egy városban a naponta elhalálozottak száma és különböző meteorológiai hatások közötti összefüggést szeretnénk földeríteni, ezért 12 napon vizsgáljuk a hőmérsékletet, a levegőminőséget, valamint, hogy érkezik-e front.

A 12 nap adatait tartalmazza az X mátrix.

Az első oszlop a szokásos egyesekből áll, aztán jön a hőmérséklet.

A következő oszlop az átlagos levegőminőség (a megengedett határérték %-ában),

az utolsó oszlop pedig egy dummy változó, ha van front, , ha nincs.

Végül az vektor az adott napok halálozási adatait tartalmazza.

A 12 megfigyelt napot választhattuk volna véletlenszerűen, például úgy, hogy 12 egymás utáni napot vizsgálunk. Ebben az esetben a magyarázó változók értékei valószínűségi változók, vagyis nem tőlünk függnek az értékeik. Most azonban ezek előre beállított értékek, vagyis direkt ezeket a napokat választottuk.

Nos ez volna a standard lineáris modell első követelménye, vagyis az, hogy a magyarázó változó értékei nem valószínűségi változók.

STANDARD LINEÁRIS MODELL FELTÉTELEI:

I. A magyarázó változók nem valószínűségi változók.

II. A magyarázó változók lineárisan független

rendszert alkotnak.

III. Az eredményváltozó közel lineáris függvénye a

magyarázó változóknak.

IV. Az hibatag feltételes eloszlása normális, várható

értéke nulla.

V. Az hibatag különböző x-ekhez tartozó értékei

korrelálatlanok.

Most számítsuk ki a lineáris

regresszió paramétereit:

Elsőként kiszámítjuk az

mátrixot, amire majd még később

is nagy szükségünk lesz.

Mátrixok inverzét nem különösebben

kellemes dolog kiszámolni, ezért leg-

okosabb, ha ezt a számítógépre bízzuk.

Ahhoz, hogy ez az inverz mátrix létezzen teljesülnie kell annak a technikai követelménynek, hogy az eredeti X mátrix oszlopai, vagyis a magyarázó változók lineárisan független rendszert alkossanak. Nos akinek mond ez valamit, az örüljön neki, akinek nem, annak úgyis mindegy, a feladatok megoldásához nem fog kelleni.

Ha tehát létezik ez a bizonyos mátrix, akkor a lineáris regresszió

paraméterei szépen egymás után a vektorban állnak elő:

Ez úgy értendő, hogy és

Ha y a magyarázó változók lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami

Ez a harmadik követelmény a standard lineáris modellben.

Ebbe az imént kapott értékeket írva

A paraméterek jelentése a szokásos:

Ez most – mint általában – csak technikai paraméter.

Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az átlagosan 0,0527-el csökkenti a napi halálozást.

Ez a magyarázó változó a légszennyezettséget írta le, vagyis az derült ki, hogy 1%pontos növekedés 0,1559-el növeli a halálozások számát.

Ez egy úgynevezett dummy változó volt, ami 1, ha van front és 0, ha nincs. A 3,6783 azt jelenti, hogy front esetén átlagosan ennyivel többen haláloznak el.

A standard lineáris modell két további feltétele az hibataggal kapcsolatos. Ezekről a feltételekről azt érdemes tudni, hogy általában teljesülnek, vagy legalábbis hazudhatjuk róluk, hogy teljesülnek (jó közelítéssel teljesülnek).

Most, hogy áttekintettük a standard lineáris modell öt követelményét, térjünk rá a modellel kapcsolatos vizsgálatokra.

Legérdekesebb vizsgálataink a hipotézisvizsgálat eszközeit felhasználva azok lesznek, amikor megvizsgáljuk, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.

Vagyis például a hőmérséklet egy fokos változása csak 0,0527-el változtat a napi halálozási számon, így fölmerül a gyanú, hogy ezt a változót fölöslegesen vizsgáljuk, vagyis nincs számottevő hatása. Kezdetben ugyan logikusnak tűnt a hőmérséklet, mint magyarázó változó használata, hiszen az extrém meleg időben valóban megugrik a halálozás, de más időszakokban megeshet, hogy a hőmérséklet nincs hatással a halálozásra. A helyzet tisztázására használjuk majd a hipotézisvizsgálat eszközeit. Mielőtt azonban erre rátérnénk, előbb a becslésekkel kell foglalkoznunk.

1. Becslések a standard lineáris modellben

A regresszió paramétereinek illetve magának a regressziónak az intervallumbecslése hasonló a korábbi intervallumbecslésekhez. Ahhoz, hogy ennek lényegét megértsük, elég, belegondolnunk abba, hogy a regresszió alapján, ha például

12 fokos az átlaghőmérséklet,

50%-os a légszennyezettség,

nincs front,

akkor éppen 40,64-en haláloznak el.

Könnyen elképzelhető azonban egy olyan nap, amikor szintén ugyanilyen körülmények vannak, de sajnálatos módon 42 haláleset történik. Vagyis a 40,64 nem azt jelenti, hogy márpedig minden nap, amikor ugyanezek a körülmények vannak pontosan 40,64-en haláloznak el, hanem azt, hogy várhatóan ezen érték körül ingadozik majd a halálesetek száma. A tényleges érték tehát egy sávban helyezkedik el a regresszió körül, amit konfidencia sávnak nevezünk.

Ennek a sávnak a meghatározásához először maguknak a paramétereknek az intervallumbecslését csináljuk meg, amihez szükségünk van standard hibára. Ezt a már korábbról ismert reziduális szórás segítségével fogjuk megkapni.

Most azonban a torzítatlanság érdekében az úgynevezett korrigált reziduális szórásra van szükségünk, ami

Itt a regresszió által szolgáltatott és a tényleges y értékek különbsége, vagyis

Az i-edik paraméter becslésének standard hibája

ahol = az A mátrix i-edik sor j-edik elemét jelenti.

Nézzük meg az

Paraméterek becslése

Regresszió becslése

n=megfigyelések száma

k=paraméterek száma

paramétereinek becsléseit.

A becslésnél t-eloszlást használunk, aminek szabadságfoka

v=n-k-1, tehát jelenleg v=12-3-1=8, a konfidencia szint

pedig általánosan .

Az paraméterek becslései egyenként

Magának a regressziónak a becslése pedig

A becslés tehát függ az X mátrixtól, vagyis a konfidencia sáv nem egyforma széles. Azon pontok környékén, amelyek alapján a regressziót felírtuk, a konfidencia sáv keskenyebb, itt kisebb a hiba, távolabbi pontok esetében viszont a hiba egyre nagyobb.

Konkrét konfidenciaszinthez tartozó konkrét becsléseket most nem csinálunk, ezzel majd a feladatokban fogunk foglalkozni. Most pedig térjünk rá a regresszióval kapcsolatos hipotézisek vizsgálatára.

2. Paraméterek szeparált tesztelése

Elsőként a paraméterek tesztelését végezzük el a hipotézisvizsgálat segítségével. Vagyis azt fogjuk vizsgálni, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.

A lineáris regresszió egyenlete

A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést,

ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van.

A próbafüggvény, amit használunk a t-eloszlás lesz,

ahol = az A mátrix i-edik sor j-edik eleme

KÉTOLDALI KRITIKUS TARTOMÁNY

:

:

BAL OLDA LI KRITIKUS ÉRTÉK:

JOBB OLDALI KRITIKUS ÉRTÉK:

A regresszió egyenlete

A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk a hőmérsékletért felelős lesz, aztán jön a levegőminőségért felelős végül a fronthatásról szóló .

: : a szignifikanciaszint legyen a szabadságfok továbbra is v=n-k-1=12-3-1=8 tehát a kritikus értékek

BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK:

Az elfogadási tartomány tehát

A próbafüggvény értékek az egyes paraméterekre:

A három paraméterből -nél és -nál a próbafüggvény az elfogadási tartományba esik, ami azt jelenti, hogy elfogadjuk a : nullhipotézist.

Ez annyit jelent, hogy 10%-os szignifikanciaszinten az 1-es és a 3-as magyarázó változók szerepeltetése a modellben fölösleges, az eredményváltozóra kifejtett hatásuk szignifikánsan nulla.

A halálozás tehát szignifikánsan csak a 2-es változótól, vagyis a levegőminőségtől függ – legalábbis a megfigyeléseink alapján. A másik két magyarázó változó szerepeltetése fölösleges.

3. Modell egészének tesztelése

A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót.

Ehhez a : nullhipotézist vizsgáljuk a : ellenében.

A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani.

Ha még emlékszünk a hipotézisvizsgálat különböző próbáira, az ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni.

A próbafüggvény

A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:

JOBB OLDALI KRITIKUS ÉRTÉK:

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

Hiba

Teljes

SST=SSR+SSE

Kiszámolunk kettőt.

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

SSR=229,67

k=3

Hiba

SSE=184

n-3-1=8

Teljes

SST=413,67

n-1=11

A szignifikanciaszint legyen , a két szabadságfok pedig és , így az

F-eloszlás eloszlástáblázatából a kritikus érték

A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a

: nullhipotézist teljesül, ami azt jelenti, hogy az egész modell rossz, az általunk választott magyarázó változók – legalábbis a megfigyeléseink alapján – nem magyarázzák kielégítően az eredményváltozót.

Annak oka, hogy miért is rossz a modell, többféle lehet. Gyakori probléma a magyarázó változók nem megfelelő kiválasztása, de magukban a megfigyelésekben is adódhatnak hibák. Mielőtt ezekre a problémákra és kiküszöbölésükre rátérnénk, nézzünk meg egy példát, ahol az eddigieket összefoglaljuk.

Az regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától.

Ehhez először elkészítjük a regresszió paramétereinek becslését, lineáris regresszió

esetén tehát a , , stb. paraméterek kellenek.

Amint a paraméterek megvannak, fölírjuk magának a regressziónak az egyenletét. A kérdés az, hogy vajon jól specifikáltuk-e modellünket, helyesen válogattuk-e meg a magyarázó változókat és azok valóban meggyőző erővel képesek-e magyarázni az eredményváltozót.

Nos ezen kínzó kételyek eloszlatására használjuk a modell-elemzés különböző eszközeit.

Megvizsgáljuk a reziduumokat, ezek alapján kiszámoljuk a reziduális szórást és az R determinációs együtthatót, ami az első információkat szolgáltatja a modell magyarázó erejéről.

Ezek után a hipotézisvizsgálat eszközeivel tudunk tesztelni minden egyes magyarázó változót, hogy kiderüljön, melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.

Végül globális F-próbával az egész modellt is teszteljük.

Amennyiben modellünk kiállta a próbákat, érdemes megvizsgálni a korrelációs mátrixot illetve a parciális korrelációs együtthatókat is.

Nézzünk meg ehhez egy konkrét példát.

Ha az ember többet eszik, mint amennyi energiát utána elhasznál, sajnálatos módon hízásnak indul. Ennek a kis kellemetlenségnek a számszerűsítésére egy kísérletet végeztek 12 azonos testtömegű résztvevővel. Az egy hónapig tartó kísérletben a plusz kilókat vizsgálták, ez az eredményváltozó, a magyarázó változók pedig a naponta bevitt energia, a napi intenzív mozgás és egy dummy változó, ami 0, ha az illető genetikailag hízásra nem hajlamos és 1, ha igen.

A kísérlet adatait tartalmazza az X mátrix, az első oszlop a szokásos egyesek,

utána a bevitt napi energiamennyiség, aztán a napi mozgás, végül a hízásra való hajlam.

Az vektor az egy hónap alatt bekövetkező testtömeg változást tartalmazza.

Először kiszámítjuk a lineáris regresszió paramétereit:

Ehhez szükségünk van az mátrixra.

Mátrixok inverzét nem különösebben kellemes dolog kiszámolni, ezért legokosabb, ha ezt a számítógépre bízzuk.

paraméterei szépen egymás után a vektorban állnak elő:

Ez úgy értendő, hogy és

A lineáris regresszió

alakú, amibe az imént kapott paramétereket helyettesítve

A paraméterek jelentése a szokásos:

Ez most – mint általában – csak technikai paraméter.

Az 1-es magyarázó változó a napi energia bevitel volt, tehát ez azt jelenti, hogy ha egy kalóriával nagyobb a napi energia bevitel, az a hónap végén 0,0036 kg-al növeli a testtömeget.

Ez a magyarázó változó a napi mozgást írta le, vagyis az derült ki, hogy naponta egy perccel több mozgás a hónap végén 0,0725 kg-al kevesebbet jelent.

Ez egy úgynevezett dummy változó volt, ami 1, ha az illető hízásra hajlamos, és 0, ha nem. Pusztán a hízásra való hajlam egy hónap alatt 0,8044 kg többletet eredményez.

Ez az együtthatók parciális értelmezése, ami azt jelenti, hogy egy magyarázó változó hogyan hat az eredményváltozó alakulására, ha az összes többi magyarázó változót változatlanul hagyjuk.

Most térjünk rá a modell elemzésére. Elsőként kiszámoljuk a modell által szolgáltatott

értékeket.

Ebből pedig a reziduumokat és SSE-t.

A különböző négyzetösszegek között az alábbi összefüggés van:

SST=SSE+SSR

Nekünk SSE már megvan, de még valamelyiket ki kell számolni.

Számoljuk ki mondjuk SST-t.

Ekkor a determinációs együttható

Ami azt jelenti, hogy a modell magyarázó ereje 68,5%-os, ami nem rossz.

A reziduumokból kiszámoljuk a reziduális szórást:

Most térjünk rá a becslésekre. Először a regresszió paramétereinek aztán magának a regressziónak az intervallumbecslését készítjük el.

Paraméterek becslése

Regresszió becslése

n=megfigyelések száma

k=paraméterek száma

A becslésnél t-eloszlást használunk, aminek szabadságfoka

v=n-k-1, tehát jelenleg v=12-3-1=8, a konfidencia szint

pedig általánosan .

Az paraméterek becslései egyenként

Magának a regressziónak a becslése pedig

A becslés tehát függ az X mátrixtól, vagyis a konfidencia sáv nem egyforma széles. Azon pontok környékén, amelyek alapján a regressziót felírtuk, a konfidencia sáv keskenyebb, itt kisebb a hiba, távolabbi pontok esetében viszont a hiba egyre nagyobb.

Konkrét konfidenciaszinthez tartozó konkrét becsléseket most nem csinálunk, ezzel majd a feladatokban fogunk foglalkozni. Most pedig térjünk rá a regresszióval kapcsolatos hipotézisek vizsgálatára.

2. Paraméterek szeparált tesztelése

Elsőként a paraméterek tesztelését végezzük el a hipotézisvizsgálat segítségével. Vagyis azt fogjuk vizsgálni, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.

A lineáris regresszió egyenlete

A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést,

ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van.

A próbafüggvény, amit használunk a t-eloszlás lesz,

ahol = az A mátrix i-edik sor j-edik eleme

KÉTOLDALI KRITIKUS TARTOMÁNY

:

:

BAL OLDA LI KRITIKUS ÉRTÉK:

JOBB OLDALI KRITIKUS ÉRTÉK:

A regresszió egyenlete

A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk a hőmérsékletért felelős lesz, aztán jön a levegőminőségért felelős végül a fronthatásról szóló .

: : a szignifikanciaszint legyen a szabadságfok továbbra is v=n-k-1=12-3-1=8 tehát a kritikus értékek

BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK:

Az elfogadási tartomány tehát

A próbafüggvény értékek az egyes paraméterekre:

A három paraméterből a próbafüggvény egyiknél sem esik az elfogadási tartományba, vagyis mindhárom esetben elvetjük a : nullhipotézist.

Ez annyit jelent, hogy 10%-os szignifikanciaszinten egyik magyarázó változó szerepe sem szignifikánsan nulla, az y eredményváltozó magyarázásához szükség van rájuk.

3. Modell egészének tesztelése

A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót.

Ehhez a : nullhipotézist vizsgáljuk a : ellenében.

A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani.

Ha még emlékszünk a hipotézisvizsgálat különböző próbáira, az ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni.

A próbafüggvény

A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:

JOBB OLDALI KRITIKUS ÉRTÉK:

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

Hiba

Teljes

Korábban már kiszámoltuk, hogy SSE=3,85 és SST=12,25 így SSR=12,25-3,85=8,4

A szignifikanciaszint legyen , a két szabadságfok pedig és , így az

F-eloszlás eloszlástáblázatából a kritikus érték

A próbafüggvény-érték tehát az kritikus tartományba esik, vagyis a

: nullhipotézist elvetjük, ami azt jelenti, hogy az egész modellt globálisan vizsgálva is arra jutottunk, hogy minden magyarázó változóra szükség van, a modell jó.

Végül, ha már ilyen jó a modell, számoljuk ki a változók közti kapcsolat szorosságát leíró korrelációs mátrixot.

Itt az és az magyarázó változó közti korrelációt írja le, tehát például az és az közti korrelációt jelenti.

pedig az magyarázó változó és az y eredményváltozó közti kapcsolatot jelenti.

Mivel a korreláció-mátrix szimmetrikus. Az áttekinthetőbb felírás kedvéért a felső háromszöget, ami tehát tökugyanaz, mint az alsó, el is szokták hagyni.

A korrelációs mátrixhoz a három magyarázó változó és az egy eredményváltozó összes lehetséges korrelációját ki kell számolnunk. Ezt általában számítógépes programok számolják, mi csupán a hecc kedvéért kezdjük el kiszámolgatni a korrelációs mátrix elemeit.

A jelek szerint hat darab ilyen korrelációt kell kiszámolnunk.

Nézzük például mennyi .

A korreláció képlete

Tehát most

Hasonló izgalmakat jelent a többi értéket kiszámolása is. Így kapjuk, a korrelációs mátrixot

A kapott korrelációs mátrix tehát tetszőlegesen kiválasztott két változó közti kapcsolat szorosságát méri.

Vagyis például ami azt jelenti, hogy ilyen szoros a kapcsolat a bevitt energia és az egy hónap után mutatkozó többletkilók között.

Ez azonban nem a tiszta kapcsolatot írja le, hanem benne van a többi magyarázó változó esetleges zavaró hatása is.

Ha tisztán a kalóriák és a testtömeg növekedése közötti kapcsolatra van szükségünk, akkor ki kell számolni a parciális korrelációs együtthatókat is.

Az parciális korrelációs együttható azt adja meg, hogy milyen szoros kapcsolat van az y eredményváltozó és a j-edik magyarázó változó között, ha a többi magyarázó változó hatását kiszűrjük.

ahol

Elő kell állítani tehát a korrelációs mátrix inverzét.

Visszatérve hízás-kalória kérdésre:

Ami azt jelenti, hogy a többi változó hatásától megtisztított korreláció 0,5536 helyett jóval nagyobb, 0,826.

Még szembeötlőbb az eredeti korrelációs mátrix értéke, ami pozitív korrelációt mutat a testmozgás és a hízás között. Ez nyilvánvalóan nem lehet.

Ha kiszámoljuk a többi hatástól megtisztított parciális korrelációt:

Ami már hihető, vagyis a tényleges kapcsolat a hízás és a testmozgás közt negatív:

több mozgás=kevesebb hízás.

Ezzel a példánkkal lényegében áttekintettük a regressziószámítást, már csak néhány apróság maradt.

 

TÖBBVÁLTOZÓS LINEÁRIS REGRESSZIÓ

05
Hopsz, úgy tűnik nem vagy belépve, pedig itt olyan érdekes dolgokat találsz, mint például:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.

Itt jön egy fantasztikus
Statisztika 2 epizód.

Hozzászólások

Még nincs hozzászólás. Legyél Te az első!