Statisztika epizód tartalma:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.
A képsor tartalma
Standard lineáris modell A regressziószámítás egyik lényeges kérdése magának a regressziós modellnek az elemzése. Az elemzést a leginkább elterjedt modellel, az úgynevezett standard lineáris modellel kezdjük. A standard lineáris modellnek a feltételei első ránézésre kissé bonyolultak, ezért mielőtt ezekre rátérnénk, nézzünk inkább egy kellemes történetet! Egy városban a naponta elhalálozottak száma és különböző meteorológiai hatások közötti összefüggést szeretnénk földeríteni, ezért 12 napon vizsgáljuk a hőmérsékletet, a levegőminőséget, valamint, hogy érkezik-e front. A 12 nap adatait tartalmazza az X mátrix. Az első oszlop a szokásos egyesekből áll, aztán jön a hőmérséklet. A következő oszlop az átlagos levegőminőség (a megengedett határérték %-ában), az utolsó oszlop pedig egy dummy változó, ha van front, , ha nincs. Végül az vektor az adott napok halálozási adatait tartalmazza. A 12 megfigyelt napot választhattuk volna véletlenszerűen, például úgy, hogy 12 egymás utáni napot vizsgálunk. Ebben az esetben a magyarázó változók értékei valószínűségi változók, vagyis nem tőlünk függnek az értékeik. Most azonban ezek előre beállított értékek, vagyis direkt ezeket a napokat választottuk. Nos ez volna a standard lineáris modell első követelménye, vagyis az, hogy a magyarázó változó értékei nem valószínűségi változók. Most számítsuk ki a lineáris regresszió paramétereit: Elsőként kiszámítjuk az mátrixot, amire majd még később is nagy szükségünk lesz. Mátrixok inverzét nem különösebben kellemes dolog kiszámolni, ezért leg- okosabb, ha ezt a számítógépre bízzuk. Ahhoz, hogy ez az inverz mátrix létezzen teljesülnie kell annak a technikai követelménynek, hogy az eredeti X mátrix oszlopai, vagyis a magyarázó változók lineárisan független rendszert alkossanak. Nos akinek mond ez valamit, az örüljön neki, akinek nem, annak úgyis mindegy, a feladatok megoldásához nem fog kelleni. Ha tehát létezik ez a bizonyos mátrix, akkor a lineáris regresszió paraméterei szépen egymás után a vektorban állnak elő: Ez úgy értendő, hogy és Ha y a magyarázó változók lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami Ez a harmadik követelmény a standard lineáris modellben. Ebbe az imént kapott értékeket írva A paraméterek jelentése a szokásos: Ez most – mint általában – csak technikai paraméter. Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az átlagosan 0,0527-el csökkenti a napi halálozást. Ez a magyarázó változó a légszennyezettséget írta le, vagyis az derült ki, hogy 1%pontos növekedés 0,1559-el növeli a halálozások számát. Ez egy úgynevezett dummy változó volt, ami 1, ha van front és 0, ha nincs. A 3,6783 azt jelenti, hogy front esetén átlagosan ennyivel többen haláloznak el. A standard lineáris modell két további feltétele az hibataggal kapcsolatos. Ezekről a feltételekről azt érdemes tudni, hogy általában teljesülnek, vagy legalábbis hazudhatjuk róluk, hogy teljesülnek (jó közelítéssel teljesülnek). Most, hogy áttekintettük a standard lineáris modell öt követelményét, térjünk rá a modellel kapcsolatos vizsgálatokra. Legérdekesebb vizsgálataink a hipotézisvizsgálat eszközeit felhasználva azok lesznek, amikor megvizsgáljuk, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem. Vagyis például a hőmérséklet egy fokos változása csak 0,0527-el változtat a napi halálozási számon, így fölmerül a gyanú, hogy ezt a változót fölöslegesen vizsgáljuk, vagyis nincs számottevő hatása. Kezdetben ugyan logikusnak tűnt a hőmérséklet, mint magyarázó változó használata, hiszen az extrém meleg időben valóban megugrik a halálozás, de más időszakokban megeshet, hogy a hőmérséklet nincs hatással a halálozásra. A helyzet tisztázására használjuk majd a hipotézisvizsgálat eszközeit. Mielőtt azonban erre rátérnénk, előbb a becslésekkel kell foglalkoznunk. 1. Becslések a standard lineáris modellben A regresszió paramétereinek illetve magának a regressziónak az intervallumbecslése hasonló a korábbi intervallumbecslésekhez. Ahhoz, hogy ennek lényegét megértsük, elég, belegondolnunk abba, hogy a regresszió alapján, ha például 12 fokos az átlaghőmérséklet, 50%-os a légszennyezettség, nincs front, akkor éppen 40,64-en haláloznak el. Könnyen elképzelhető azonban egy olyan nap, amikor szintén ugyanilyen körülmények vannak, de sajnálatos módon 42 haláleset történik. Vagyis a 40,64 nem azt jelenti, hogy márpedig minden nap, amikor ugyanezek a körülmények vannak pontosan 40,64-en haláloznak el, hanem azt, hogy várhatóan ezen érték körül ingadozik majd a halálesetek száma. A tényleges érték tehát egy sávban helyezkedik el a regresszió körül, amit konfidencia sávnak nevezünk. Ennek a sávnak a meghatározásához először maguknak a paramétereknek az intervallumbecslését csináljuk meg, amihez szükségünk van standard hibára. Ezt a már korábbról ismert reziduális szórás segítségével fogjuk megkapni. Most azonban a torzítatlanság érdekében az úgynevezett korrigált reziduális szórásra van szükségünk, ami Itt a regresszió által szolgáltatott és a tényleges y értékek különbsége, vagyis Az i-edik paraméter becslésének standard hibája ahol = az A mátrix i-edik sor j-edik elemét jelenti. Nézzük meg az paramétereinek becsléseit. A becslésnél t-eloszlást használunk, aminek szabadságfoka v=n-k-1, tehát jelenleg v=12-3-1=8, a konfidencia szint pedig általánosan . Az paraméterek becslései egyenként Magának a regressziónak a becslése pedig A becslés tehát függ az X mátrixtól, vagyis a konfidencia sáv nem egyforma széles. Azon pontok környékén, amelyek alapján a regressziót felírtuk, a konfidencia sáv keskenyebb, itt kisebb a hiba, távolabbi pontok esetében viszont a hiba egyre nagyobb. Konkrét konfidenciaszinthez tartozó konkrét becsléseket most nem csinálunk, ezzel majd a feladatokban fogunk foglalkozni. Most pedig térjünk rá a regresszióval kapcsolatos hipotézisek vizsgálatára.
 

Többváltozós regresszió intervallumbecslése

08
hang
Egy lépésre vagy attól, hogy a matek melléd álljon és ne eléd.
  • Ez a legjobban áttekinthető, értelmezhető, használható és a legolcsóbb tanulási lehetőség.

    Eszter, 23
  • Értelmes, szórakoztató, minden pénzt megér.

    Tibor, 23
  • Jó árban van és hihetetlenül világos a magyarázat és annyiszor lehet visszatérni az egyes lépésekre, ahányszor arra csak szükség van a megértéshez.

    Lili, 22
  • Nagyon jó árba van, valamint jobb és érthetőbb, mint sok külön matek tanár.

    Márk, 22
BelépekvagyRegisztrálok Back arrow Ugrás az
összeshez