Statisztika epizód tartalma:
Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.
A képsor tartalma
2. Paraméterek szeparált tesztelése
Elsőként a paraméterek tesztelését végezzük el a hipotézisvizsgálat segítségével. Vagyis azt fogjuk vizsgálni, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.
A lineáris regresszió egyenlete
A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést,
ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van.
A próbafüggvény, amit használunk a t-eloszlás lesz,
ahol = az A mátrix i-edik sor j-edik eleme
KÉTOLDALI KRITIKUS TARTOMÁNY
:
:
BAL OLDALI KRITIKUS ÉRTÉK:
JOBB OLDALI KRITIKUS ÉRTÉK:
A regresszió egyenlete
A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk a hőmérsékletért felelős lesz, aztán jön a levegőminőségért felelős végül a fronthatásról szóló .
: : a szignifikanciaszint legyen a szabadságfok továbbra is v=n-k-1=12-3-1=8 tehát a kritikus értékek
BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK:
Az elfogadási tartomány tehát
A próbafüggvény értékek az egyes paraméterekre:
A három paraméterből -nél és -nál a próbafüggvény az elfogadási tartományba esik, ami azt jelenti, hogy elfogadjuk a : nullhipotézist.
Ez annyit jelent, hogy 10%-os szignifikanciaszinten az 1-es és a 3-as magyarázó változók szerepeltetése a modellben fölösleges, az eredményváltozóra kifejtett hatásuk szignifikánsan nulla.
A halálozás tehát szignifikánsan csak a 2-es változótól, vagyis a levegőminőségtől függ – legalábbis a megfigyeléseink alapján. A másik két magyarázó változó szerepeltetése fölösleges.
3. Modell egészének tesztelése
A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót.
Ehhez a : nullhipotézist vizsgáljuk a : ellenében.
A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani.
Ha még emlékszünk a hipotézisvizsgálat különböző próbáira, az ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni.
A próbafüggvény
A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:
JOBB OLDALI KRITIKUS ÉRTÉK:
VARIANCIAANALÍZIS-TÁBLÁZAT
SZÓRÓDÁS
OKA NÉGYZETÖSSZEG SZABADSÁG-
FOK ÁTLAGOS
NÉGYZETÖSSZEG F
Regresszió
Hiba
Teljes
SST=SSR+SSE
Kiszámolunk kettőt.
VARIANCIAANALÍZIS-TÁBLÁZAT
SZÓRÓDÁS
OKA NÉGYZETÖSSZEG SZABADSÁG-
FOK ÁTLAGOS
NÉGYZETÖSSZEG F
Regresszió
SSR=229,67
k=3
Hiba
SSE=184
n-3-1=8
Teljes
SST=413,67
n-1=11
A szignifikanciaszint legyen , a két szabadságfok pedig és , így az
F-eloszlás eloszlástáblázatából a kritikus érték
A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a
: nullhipotézist teljesül, ami azt jelenti, hogy az egész modell rossz, az általunk választott magyarázó változók – legalábbis a megfigyeléseink alapján – nem magyarázzák kielégítően az eredményváltozót.
Annak oka, hogy miért is rossz a modell, többféle lehet. Gyakori probléma a magyarázó változók nem megfelelő kiválasztása, de magukban a megfigyelésekben is adódhatnak hibák. Mielőtt ezekre a problémákra és kiküszöbölésükre rátérnénk, nézzünk meg egy példát, ahol az eddigieket összefoglaljuk.