Valószínűségszámítás epizód tartalma:
Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.
A képsor tartalma
Korreláció a többváltozós lineáris modellben
A kétváltozós esethez hasonlóan a korreláció itt is a változók közti kapcsolat szorosságát írja le, csakhogy itt egy fokkal rosszabb a helyzet, ugyanis most bármely két változó korrelációját vizsgálhatjuk. Ezt tartalmazza a korreláció-mátrix.
Itt az és az magyarázó változó közti korrelációt írja le, tehát például az és az közti korrelációt jelenti.
pedig az magyarázó változó és az y eredményváltozó közti kapcsolatot jelenti.
Mivel a korreláció-mátrix szimmetrikus. Az áttekinthetőbb felírás kedvéért a felső háromszöget, ami tehát tökugyanaz, mint az alsó, el is szokták hagyni.
Számítsuk ki az előző fagyis példánk korreláció-mátrixát. Ehhez a három magyarázó változó és az egy eredményváltozó összes lehetséges korrelációját ki kell számolnunk, ami igencsak aggasztónak tűnik. Sőt, az is, éppen ezért erre olyan statisztikai programcsomagok vannak forgalomban, amik az egész mátrixot egy pillanat alatt előállítják.
Mi most mégis, csupán a hecc kedvéért kezdjük el kiszámolgatni a korrelációs mátrix elemeit.
A jelek szerint hat darab ilyen korrelációt kell kiszámolnunk.
Nézzük például mennyi .
A korreláció képlete
Tehát most
Hasonló izgalmakat jelent mondjuk kiszámolása is:
A többi értéket is ugyanígy kapjuk, a korrelációs mátrix pedig
A kapott korrelációs mátrix tehát tetszőlegesen kiválasztott két változó közti kapcsolat szorosságát méri. Ez az érték azonban nem a közvetlen kapcsolatot, hanem benne van a többi változó közvetett hatása is.
Vagyis például ami azt jelenti, hogy ilyen szoros a kapcsolat a kőolaj ára és az eladott gombócok száma között, de ebbe benne van a többi változó hatása is.
Ha tehát például szoros kapcsolat van a kőolaj ára és a hőmérséklet között, akkor a hőmérséklet hatása is érezteti magát az olajár-fagyieladás korrelációban. Megeshet tehát az, hogy az olajár valójában nem hat a fagyi eladásra, viszont szorosan összefügg a hőmérséklettel. Mivel pedig a hőmérséklet valóban hatással van a fagyi eladásra, ez a hatás az olajár-fagyieladás korrelációban is felbukkan.
Szükség lenne tehát a többi hatástól megtisztított tiszta korrelációkra is. Ezeket nevezzük parciális korrelációs együtthatóknak.
Az parciális korrelációs együttható azt adja meg, hogy milyen szoros kapcsolat van az y eredményváltozó és a j-edik magyarázó változó között, ha a többi magyarázó változó hatását kiszűrjük.
ahol
Elő kell állítani tehát a korrelációs mátrix inverzét. Ismét a hecc kedvéért kiszámoljuk ezt a mátrixot, de valójában vannak kiváló statisztikai programcsomagok, amik ezt mind kiszámolják.
Visszatérve az olajár-fagyieladás kérdésre:
Ami azt jelenti, hogy a többi változó hatásától megtisztított korreláció -0,0412 ellentétben a korábbi 0,022 értékkel.
Számítsuk ki a hömérséklet-fagyieladás parciális korrelációt is.
A korábbi 0,923-nál tehát valójában kicsivel gyengébb a hőmérséklet és az eladott fagyik száma közti kapcsolat.
Az lineáris regresszió illeszkedésének vizsgálatához meghatározzuk az úgynevezett reziduumokat. Ezek tulajdonképpen az illeszkedési hibák, amiket azokon a helyeken tapasztalunk, amelyek alapján a lineáris regressziót felírtuk.
A reziduumok tehát az különbségek.
Ezek a különbségek azonban most sem azonosak az hibataggal.
Az hibatag ugyanis maga is egy függvény, amibe a többi, általunk nem vizsgált magyarázó változó hatását zsúfoltuk bele, míg az reziduumok csupán abban a néhány pontban adják meg a hibát, amelyek alapján a regressziót felírtuk.
A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg, ami hajszálra megegyezik a kétváltozós esetben megismerttel.
Ha a regresszió tökéletesen illeszkedik, akkor az különbségek mindegyike nulla, így SSE=0. Ha az illeszkedés nem tökéletes, akkor SSE egy pozitív érték, ami az illeszkedés pontatlanságát méri, valahogy úgy, ahogyan a szórás méri az átlagtól való eltérést.
A szórásra még jobban emlékeztető mutatót kapunk, ha az SSE értékét elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét. Az így kapott állatfajta neve reziduális szórás:
A kétváltozós esethez hasonlóan itt is vizsgálhatjuk az
négyzetösszegeket is, melyekre itt is teljesül az SST=SSR+SSE összefüggés.
A kétváltozós esethez hasonlóan itt is a modell magyarázó erejét méri a determinációs együttható:
Jóval érdekesebb azonban az, amivel most vizsgálódásunkat folytatjuk. Ez nem más, mint a hipotézisvizsgálat alkalmazása a regressziószámításban, méghozzá annak eldöntéséhez, hogy az általunk választott magyarázó változók közül melyek azok, amelyek tényleg hatással vannak az eredményváltozóra. Ez jön most.
Itt jön egy izgalmas
Valószínűségszámítás epizód.
Valószínűségszámítás epizód.