Barion Pixel A paraméterek intervallumbecslése és tesztelése | mateking
 

Adatelemzés 2 epizód tartalma:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.

A képsor tartalma
Standard lineáris modell kétváltozós eset A regressziószámítás egyik lényeges kérdése magának a regressziós modellnek az elemzése. Az elemzést a leginkább elterjedt modell, az úgynevezett standard lineáris modell esetében végezzük el. A standard lineáris modellnek a feltételei első ránézésre kissé bonyolultak, ezért mielőtt ezekre rátérnénk, nézzünk inkább egy mesét! Vizsgáljuk meg, milyen hatással van az egy főre jutó GDP arra, hogy a nők hány éves korukban kötik első házasságukat. A következő táblázat néhány általunk választott ország adatait tartalmazza. ország x GDP/fő (EUR) y Nők életkora házasságkötéskor Ausztria AT 28 978 26,6 Belgium BE 30 349 29,8 Csehország CZ 15 216 28,9 Franciaország FR 26 656 31,6 Görögország GR 17 941 26,9 Hollandia NL 28 669 26,9 Lengyelország PL 10 135 25,3 Magyarország HU 13 767 29,7 Németország DE 28 232 31 Svájc CH 31 987 29,4 A 10 megfigyelt országot választhattuk volna véletlenszerűen, most azonban ezek előre beállított értékek, vagyis direkt ezeket az országokat választottuk. Nos ez volna a standard lineáris modell első követelménye, vagyis az, hogy a magyarázó változó értékei nem valószínűségi változók. A második feltétel kétváltozós esetben – vagyis most – automatikusan teljesül. A lineáris regresszió és szükségünk van a és a paraméterekre. és Elsőként kiszámoljuk az átlagokat. és Ha y a magyarázó változó lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami Ez a harmadik követelmény a standard lineáris modellben. Ebbe az imént kapott értékeket írva A paraméterek jelentése: Ez most – mint általában – csak technikai paraméter. Ami azt jelenti, hogyha 1 EUR-val nagyobb az egy főre jutó GDP, az 0,0001 évvel tolja ki a nők első házasságkötésének dátumát. Ez tulajdonképpen 0,4 nap. Ha 100 EUR-val nagyobb az egy főre jutó GDP, az viszont már 40 napot jelent. Most térjünk rá a modellel kapcsolatos vizsgálatokra. 1. Becslések a standard lineáris modellben A regresszió paramétereinek illetve magának a regressziónak az intervallumbecslése hasonló a korábbi intervallumbecslésekhez. Ahhoz, hogy ennek lényegét megértsük, elég, belegondolnunk abba, hogy a regresszió alapján, ha például egy ország egy főre jutó GDP-je 30 000 EUR, akkor a regresszió alapján vagyis átlagosan 29,3 évesen mennek a nők férjhez. Könnyen elképzelhető azonban egy olyan ország, ahol az egy főre jutó GDP 30 000 EUR, ám a nők mondjuk csak 31 évesen mennek férjhez, vagyis a 29,3 nem azt jelenti, hogy márpedig minden országban így kell lennie. A tényleges érték tehát egy sávban helyezkedik el a regresszió körül, amit konfidencia sávnak nevezünk. Ennek a sávnak a meghatározásához először maguknak a paramétereknek az intervallumbecslését csináljuk meg, amihez szükségünk van standard hibára. Ezt a már korábbról ismert reziduális szórás segítségével fogjuk megkapni. Most azonban a torzítatlanság érdekében az úgynevezett korrigált reziduális szórásra van szükségünk, ami Itt n a megfigyelések száma, k pedig a magyarázó változók száma, ami most k=1. ország x y Ausztria AT 28 978 26,6 29,2 Belgium BE 30 349 29,8 29,3 Csehország CZ 15 216 28,9 27,8 Franciaország FR 26 656 31,6 28,9 Görögország GR 17 941 26,9 28,0 Hollandia NL 28 669 26,9 29,2 Lengyelország PL 10 135 25,3 27,3 Magyarország HU 13 767 29,7 27,7 Németország DE 28 232 31 29,1 Svájc CH 31 987 29,4 29,5 A standard lineáris modell két további feltétele az hibataggal kapcsolatos, és az intervallumbecsléshez kell. Ezekről a feltételekről azt érdemes tudni, hogy általában teljesülnek, vagy legalábbis hazudhatjuk róluk, hogy teljesülnek. Nézzük meg az paramétereinek becsléseit. A becslésnél t-eloszlást használunk, aminek szabadságfoka v=n-k-1, tehát jelenleg v=10-1-1=8, a konfidencia szint pedig általánosan . Az paraméterek becslései egyenként Ha például a konfidencia szint 90%-os, akkor így a szabadságfok pedig v=n-k-1=10-1-1=8 2. A paraméter tesztelése Az lineáris regresszió paraméterének tesztelését végezzük el a hipotézisvizsgálat segítségével. Tulajdonképpen azt fogjuk vizsgálni, hogy a magyarázó változó ténylegesen képes-e magyarázni y-t. A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést, ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis a magyarázó változó hatása az eredmény-változóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis a magyarázó változónak a regresszióban nem nulla hatása van. A próbafüggvény, amit használunk a t-eloszlás lesz, ahol KÉTOLDALI KRITIKUS TARTOMÁNY : : BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: : : a szignifikanciaszint legyen a szabadságfok továbbra is v=n-k-1=10-1-1=8 tehát a kritikus értékek BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: Az elfogadási tartomány tehát A próbafüggvény érték: A próbafüggvény értéke bőven az elfogadási tartományon kívül esik, így a nullhipotézist elvetjük, a : ellenhipotézist pedig elfogadjuk, vagyis a szerepe a regresszióban igenis jelentős, az egy főre jutó GDP valóban szerepet játszik abban, hogy a nők hány évesen mennek férjhez. 3. Modell egészének tesztelése A magyarázó változó tesztelése végezhető F-próbával is. Ennek igazán majd a többváltozós regresszió esetén lesz jelentősége. A nullhipotézis ezúttal is : , míg az ellenhipotézis : . A próbafüggvény A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre: JOBB OLDALI KRITIKUS ÉRTÉK: VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió Hiba Teljes SST=SSR+SSE Kiszámolunk kettőt. VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió SSR=5,49 k=1 Hiba SSE=33,31 n-k-1=8 Teljes SST=38,8 n-1=9 A szignifikanciaszint legyen , a két szabadságfok pedig és , így az F-eloszlás eloszlástáblázatából a kritikus érték A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a : nullhipotézist teljesül, ami azt jelenti, hogy regressziós modell rossz, magyarázó ereje nem meggyőző. Az két hipotézisvizsgálat eltérő eredményei úgy értendők, hogy a magyarázó változó hatása ugyan szignifikánsan nem nulla, de mégis az egész regressziós modell csak kis mértékben magyarázza, hogy a nők hány éves korukban mennek férjhez. Ezt jól szemlélteti a modell magyarázó erejét kifejező úgynevezett determinációs együttható is Ez mindössze 14%-os magyarázó erőt jelent. A továbbiakban rátérünk a többváltozós regressziós modell vizsgálatára.
 

A paraméterek intervallumbecslése és tesztelése

05
hang
Egy lépésre vagy attól, hogy a matek melléd álljon és ne eléd.
  • Zseniális bármilyen matek ismeret elsajátításához.

    Ákos, 19
  • Jó árban van és hihetetlenül világos a magyarázat és annyiszor lehet visszatérni az egyes lépésekre, ahányszor arra csak szükség van a megértéshez.

    Lili, 22
  • Konkrétan a hetedikes öcsém megtanult deriválni, ez elég bizonyíték, hogy az oldal érthetően magyaráz.

    Gábor, 18
  • Sokkal jobb, mint bármelyik egyetemi előadásom.

    Dani, 20
BelépekvagyRegisztrálok Back arrow Ugrás az
összeshez