Barion Pixel Többváltozós korrelációs modell összefoglalása | mateking
 

Adatelemzés 1 epizód tartalma:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.

A képsor tartalma
Az regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától. Ehhez először elkészítjük a regresszió paramétereinek becslését, lineáris regresszió esetén tehát a , , stb. paraméterek kellenek. Amint a paraméterek megvannak, fölírjuk magának a regressziónak az egyenletét. A kérdés az, hogy vajon jól specifikáltuk-e modellünket, helyesen válogattuk-e meg a magyarázó változókat és azok valóban meggyőző erővel képesek-e magyarázni az eredményváltozót. Nos ezen kínzó kételyek eloszlatására használjuk a modell-elemzés különböző eszközeit. Megvizsgáljuk a reziduumokat, ezek alapján kiszámoljuk a reziduális szórást és az R determinációs együtthatót, ami az első információkat szolgáltatja a modell magyarázó erejéről. Ezek után a hipotézisvizsgálat eszközeivel tudunk tesztelni minden egyes magyarázó változót, hogy kiderüljön, melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem. Végül globális F-próbával az egész modellt is teszteljük. Amennyiben modellünk kiállta a próbákat, érdemes megvizsgálni a korrelációs mátrixot illetve a parciális korrelációs együtthatókat is. Nézzünk meg ehhez egy konkrét példát. Ha az ember többet eszik, mint amennyi energiát utána elhasznál, sajnálatos módon hízásnak indul. Ennek a kis kellemetlenségnek a számszerűsítésére egy kísérletet végeztek 12 azonos testtömegű résztvevővel. Az egy hónapig tartó kísérletben a plusz kilókat vizsgálták, ez az eredményváltozó, a magyarázó változók pedig a naponta bevitt energia, a napi intenzív mozgás és egy dummy változó, ami 0, ha az illető genetikailag hízásra nem hajlamos és 1, ha igen. A kísérlet adatait tartalmazza az X mátrix, az első oszlop a szokásos egyesek, utána a bevitt napi energiamennyiség, aztán a napi mozgás, végül a hízásra való hajlam. Az vektor az egy hónap alatt bekövetkező testtömeg változást tartalmazza. Először kiszámítjuk a lineáris regresszió paramétereit: Ehhez szükségünk van az mátrixra. Mátrixok inverzét nem különösebben kellemes dolog kiszámolni, ezért legokosabb, ha ezt a számítógépre bízzuk. paraméterei szépen egymás után a vektorban állnak elő: Ez úgy értendő, hogy és A lineáris regresszió alakú, amibe az imént kapott paramétereket helyettesítve A paraméterek jelentése a szokásos: Ez most – mint általában – csak technikai paraméter. Az 1-es magyarázó változó a napi energia bevitel volt, tehát ez azt jelenti, hogy ha egy kalóriával nagyobb a napi energia bevitel, az a hónap végén 0,0036 kg-al növeli a testtömeget. Ez a magyarázó változó a napi mozgást írta le, vagyis az derült ki, hogy naponta egy perccel több mozgás a hónap végén 0,0725 kg-al kevesebbet jelent. Ez egy úgynevezett dummy változó volt, ami 1, ha az illető hízásra hajlamos, és 0, ha nem. Pusztán a hízásra való hajlam egy hónap alatt 0,8044 kg többletet eredményez. Ez az együtthatók parciális értelmezése, ami azt jelenti, hogy egy magyarázó változó hogyan hat az eredményváltozó alakulására, ha az összes többi magyarázó változót változatlanul hagyjuk. Most térjünk rá a modell elemzésére. Elsőként kiszámoljuk a modell által szolgáltatott értékeket. Ebből pedig a reziduumokat és SSE-t. A különböző négyzetösszegek között az alábbi összefüggés van: SST=SSE+SSR Nekünk SSE már megvan, de még valamelyiket ki kell számolni. Számoljuk ki mondjuk SST-t. Ekkor a determinációs együttható Ami azt jelenti, hogy a modell magyarázó ereje 68,5%-os, ami nem rossz. A reziduumokból kiszámoljuk a reziduális szórást: Most térjünk rá a becslésekre. Először a regresszió paramétereinek aztán magának a regressziónak az intervallumbecslését készítjük el. A becslésnél t-eloszlást használunk, aminek szabadságfoka v=n-k-1, tehát jelenleg v=12-3-1=8, a konfidencia szint pedig általánosan . Az paraméterek becslései egyenként Magának a regressziónak a becslése pedig A becslés tehát függ az X mátrixtól, vagyis a konfidencia sáv nem egyforma széles. Azon pontok környékén, amelyek alapján a regressziót felírtuk, a konfidencia sáv keskenyebb, itt kisebb a hiba, távolabbi pontok esetében viszont a hiba egyre nagyobb. Konkrét konfidenciaszinthez tartozó konkrét becsléseket most nem csinálunk, ezzel majd a feladatokban fogunk foglalkozni. Most pedig térjünk rá a regresszióval kapcsolatos hipotézisek vizsgálatára. 2. Paraméterek szeparált tesztelése Elsőként a paraméterek tesztelését végezzük el a hipotézisvizsgálat segítségével. Vagyis azt fogjuk vizsgálni, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem. A lineáris regresszió egyenlete A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést, ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van. A próbafüggvény, amit használunk a t-eloszlás lesz, ahol = az A mátrix i-edik sor j-edik eleme KÉTOLDALI KRITIKUS TARTOMÁNY : : BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: A regresszió egyenlete A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk a hőmérsékletért felelős lesz, aztán jön a levegőminőségért felelős végül a fronthatásról szóló . : : a szignifikanciaszint legyen a szabadságfok továbbra is v=n-k-1=12-3-1=8 tehát a kritikus értékek BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK: Az elfogadási tartomány tehát A próbafüggvény értékek az egyes paraméterekre: A három paraméterből a próbafüggvény egyiknél sem esik az elfogadási tartományba, vagyis mindhárom esetben elvetjük a : nullhipotézist. Ez annyit jelent, hogy 10%-os szignifikanciaszinten egyik magyarázó változó szerepe sem szignifikánsan nulla, az y eredményváltozó magyarázásához szükség van rájuk. 3. Modell egészének tesztelése A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót. Ehhez a : nullhipotézist vizsgáljuk a : ellenében. A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani. Ha még emlékszünk a hipotézisvizsgálat különböző próbáira, az ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni. A próbafüggvény A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre: JOBB OLDALI KRITIKUS ÉRTÉK: VARIANCIAANALÍZIS-TÁBLÁZAT SZÓRÓDÁS OKA NÉGYZETÖSSZEG SZABADSÁG- FOK ÁTLAGOS NÉGYZETÖSSZEG F Regresszió Hiba Teljes Korábban már kiszámoltuk, hogy SSE=3,85 és SST=12,25 így SSR=12,25-3,85=8,4 A szignifikanciaszint legyen , a két szabadságfok pedig és , így az F-eloszlás eloszlástáblázatából a kritikus érték A próbafüggvény-érték tehát az kritikus tartományba esik, vagyis a : nullhipotézist elvetjük, ami azt jelenti, hogy az egész modellt globálisan vizsgálva is arra jutottunk, hogy minden magyarázó változóra szükség van, a modell jó. Végül, ha már ilyen jó a modell, számoljuk ki a változók közti kapcsolat szorosságát leíró korrelációs mátrixot. Itt az és az magyarázó változó közti korrelációt írja le, tehát például az és az közti korrelációt jelenti. pedig az magyarázó változó és az y eredményváltozó közti kapcsolatot jelenti. Mivel a korreláció-mátrix szimmetrikus. Az áttekinthetőbb felírás kedvéért a felső háromszöget, ami tehát tökugyanaz, mint az alsó, el is szokták hagyni. A korrelációs mátrixhoz a három magyarázó változó és az egy eredményváltozó összes lehetséges korrelációját ki kell számolnunk. Ezt általában számítógépes programok számolják, mi csupán a hecc kedvéért kezdjük el kiszámolgatni a korrelációs mátrix elemeit. A jelek szerint hat darab ilyen korrelációt kell kiszámolnunk. Nézzük például mennyi . A korreláció képlete Tehát most Hasonló izgalmakat jelent a többi értéket kiszámolása is. Így kapjuk, a korrelációs mátrixot A kapott korrelációs mátrix tehát tetszőlegesen kiválasztott két változó közti kapcsolat szorosságát méri. Vagyis például ami azt jelenti, hogy ilyen szoros a kapcsolat a bevitt energia és az egy hónap után mutatkozó többletkilók között. Ez azonban nem a tiszta kapcsolatot írja le, hanem benne van a többi magyarázó változó esetleges zavaró hatása is. Ha tisztán a kalóriák és a testtömeg növekedése közötti kapcsolatra van szükségünk, akkor ki kell számolni a parciális korrelációs együtthatókat is. Az parciális korrelációs együttható azt adja meg, hogy milyen szoros kapcsolat van az y eredményváltozó és a j-edik magyarázó változó között, ha a többi magyarázó változó hatását kiszűrjük. ahol Elő kell állítani tehát a korrelációs mátrix inverzét. Visszatérve hízás-kalória kérdésre: Ami azt jelenti, hogy a többi változó hatásától megtisztított korreláció 0,5536 helyett jóval nagyobb, 0,826. Még szembeötlőbb az eredeti korrelációs mátrix értéke, ami pozitív korrelációt mutat a testmozgás és a hízás között. Ez nyilvánvalóan nem lehet. Ha kiszámoljuk a többi hatástól megtisztított parciális korrelációt: Ami már hihető, vagyis a tényleges kapcsolat a hízás és a testmozgás közt negatív: több mozgás=kevesebb hízás. Ezzel a példánkkal lényegében áttekintettük a regressziószámítást, már csak néhány apróság maradt.
 

Többváltozós korrelációs modell összefoglalása

10
hang
Egy lépésre vagy attól, hogy a matek melléd álljon és ne eléd.
  • Zseniális bármilyen matek ismeret elsajátításához.

    Ákos, 19
  • A mateking miatt sikerült az érettségi és az összes egyetemi matekos tárgyam.

    Míra, 21
  • Jó árban van és hihetetlenül világos a magyarázat és annyiszor lehet visszatérni az egyes lépésekre, ahányszor arra csak szükség van a megértéshez.

    Lili, 22
  • Értelmes, szórakoztató, minden pénzt megér.

    Tibor, 23
BelépekvagyRegisztrálok Back arrow Ugrás az
összeshez