Multikollinearitás, autokorreláció | mateking
 

Valószínűségszámítás epizód tartalma:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.

A képsor tartalma
Multikollinearitás, autokorreláció, heteroszkedaszticitás A lineáris regressziónak néhány kellemetlen tulajdonságát kell már csak megnéznünk. Ezek egytől egyig olyan bosszantó problémák, amik magát a regressziót és az abból való következtetéseket elrontják. Az első ilyen kellemetlenség a multikollinearitás, ami röviden összefoglalva azt jelenti, hogy két vagy több magyarázó változó között túl szoros korrelációs kapcsolat van, és ez zavarja a becslést. A legtöbb lineáris regressziónál nem teljesül, hogy a magyarázó változók korrelálatlanok. Kis mértékű korreláció kis mértékben zavarja a regressziót, a túl erős korreláció viszont az egész modellt használhatatlanná teheti. Egy másik kellemetlen probléma a jellemzően idősoroknál fellépő autokorreláció. Ez a regresszió maradéktagjának a saját későbbi értékeivel való korrelációját jelenti, vagyis egyfajta szabályszerűséget a maradékváltozóban. Ideális esetben maradéktagnak véletlenszerűnek kell lennie, bármiféle szabályszerűségért a magyarázó változók felelnek a regresszióban. A felsorolt problémák bemutatására nézzünk meg egy különösen szerencsétlenül megalkotott regressziót. Vizsgáljuk meg, hogyan függ egy tóparti strand forgalma két magyarázó változótól, a napi átlaghőmérséklettől és a víz napi hőmérsékletétől. A regressziót 12 nap adatai alapján készítjük el, aminek fele csütörtök másik fele vasárnap. Az első vizsgált nap csütörtök, a második ugyanazon hét vasárnapja, aztán a következő megint csütörtök, utána megint vasárnap és így tovább. A modellben a multikollinearitás és az autokorreláció is megtalálható. A multikollinearitás azért jelentkezik, mert a két magyarázó változó egymással szorosan összefügg. Külön-külön a víz hőmérséklete is hatással van a strand forgalmára, meg a napi átlaghőmérséklet is, de mivel ezek egymással igen szorosan összefüggnek, mindkettő szerepeltetése a regressziós modellt használhatatlanná teszi. Az autokorreláció is jelen lesz a modellben, mert bármilyen idő van, vasárnaponként mindig többen vannak a strandon, mint csütörtökön. Mivel pedig nem szerepeltetünk olyan változót, ami azért felel, hogy hétvége van-e vagy sem, ez a maradéktagban fog megjelenni. Felváltva vizsgálunk csütörtököket és vasárnapokat, tehát a maradéktag felváltva lesz kicsi és nagy, ami erős autokorrelációt jelent. Végül szintén a maradéktaggal kapcsolatos probléma az úgynevezett heteroszkedasz-ticitás, ami azt jelenti, hogy a maradékváltozó varianciája nem állandó, hanem függ az x értékektől. A heteroszkedaszticitás zavarja a regresszióval kapcsolatos becsléseket, így jobban szeretjük, ha a maradéktag állandó varianciájú vagyis homoszkedasztikus. Ennek vizsgálatával most nem foglalkozunk, inkább lássuk a modellt! A 12 nap adatait tartalmazza az X mátrix, az első oszlop a szokásos egyesek, utána a napi középhőmérséklet és a víz hőmérséklete. Az vektor strand napi forgalmát tartalmazza. A lineáris regresszió paramétereit a képlet alapján számoljuk, amit ezúttal már nem részletezünk, paraméterei szépen egymás után a vektorban állnak elő: Ez úgy értendő, hogy A lineáris regresszió alakú, amibe az imént kapott paramétereket helyettesítve A paraméterek parciális értelmezésénél érhető tetten a multikollinearitás káros hatása. Ez most – mint általában – csak technikai paraméter. Azt jelenti, hogy minden egy fokos hőmérsékletemelkedés 118,2 emberrel növeli a strand forgalmát. Ez pedig azt jelenti, hogy a tó vizének minden egy fokos hőmérséklet-emelkedése 26,2 emberrel csökkenti a forgalmat. Ez az utóbbi megállapítás meglehetősen gyanús, a tó vizének melegedésével ugyanis inkább több lesz a vendég, nem pedig kevesebb. Feltéve, hogy nem 50 fokos a víz. Külön-külön mindkét magyarázó változó jól magyarázná a strandolók számát. Ha melegebb van, akkor többen, ha hidegebb kevesebben strandolnak. Ha melegebb a víz, többen, ha hidegebb kevesebben strandolnak. Így viszont, hogy mindkét magyarázó változót egyszerre szerepeltettük a modellben, a köztük lévő szoros kapcsolat egymás magyarázó erejét kioltja. Mivel mindkettő ugyanazt magyarázza, nevezetesen, hogy jó időben többen strandolnak, a két magyarázó változó együttes jelenléte a regressziót elrontja, ezt nevezzük multikollinearitásnak. A multikollinearitás mérésére az úgynevezett VIF (variance inflator factor) variancia növelő faktor van forgalomban. A képletben szereplő a j-edik magyarázó változó és az összes többi magyarázó változó közti determinációs együttható. Kiszámolni úgy tudjuk, hogy egy olyan regressziós modellt készítünk, amiben játssza az eredményváltozó szerepét, ami a többi magyarázó változótól függ. A VIF mutatót úgy értelmezzük, hogy amikor minimális értékét az 1-et veszi föl, akkor nincs multikollinearitás, míg egyre nagyobb értékei az egyre nagyobb multikollinearitást jelentik. Ha 1 és 2 közé esik, akkor gyenge, ha 2 és 5 közé, akkor erős, ha 5-nél nagyobb, akkor nagyon erős a multikollinearitás. Számoljuk ki például értékét, vagyis nézzük meg, a 2-es magyarázó változó, a vízhőmérséklet esetében mennyire erős a multikollinearitás. Ehhez elkészítjük azt a regressziós modellt, amiben a vízhőmérséklet az eredmény-változó, a többi pedig az őt magyarázó változó. Mivel most összesen két magyarázó volt, ez a bizonyos többi nem más, mint az 1-es változó, a napi középhőmérséklet. A regresszió alakú, a paramétereket kiszámolása a szokásos. és Mivel már rengeteg ilyet számoltunk, ezt most ne részletezzük, és . Az a regressziós modell, ahol a víz hőmérséklete játssza az eredményváltozó szerepét: A modell determinációs együtthatója ez lesz az a bizonyos . A multikollinearitás tehát erős, a két magyarázó változó együttes szerepeltetése a regresszió szempontjából káros. Mivel mindkét magyarázó változó ugyanazt mondja, vagyis, hogy jó időben többen strandolnak, a kettő közül az egyiket mellőzve sokkal jobb regressziós modellt kapunk. Tartsuk meg az 1-es számú magyarázó változót, a napi középhőmérsékletet. Modellünk ekkor egyetlen magyarázó változót tartalmaz, a regresszió egyenlete Itt az értékek a strand forgalmának becsült értékei, vagyis, hogy miképpen alakul a forgalom a napi középhőmérséklet, mint magyarázó változó függvényében. Nézzük meg, hogy a regresszió által szolgáltatott vajon mennyire térnek el a tényleges y-októl. A maradéktagban felváltva követik egymást a negatív és pozitív értékek, vagyis igen erős szabályszerűséget mutat. Ennek oka elég egyértelmű, éspedig az, hogy felváltva vizsgáltunk csütörtököket és vasárnapokat. Mivel csütörtökön kevesebben érnek rá strandolni, ilyenkor mindig kisebb vendégszámok lesznek függetlenül az időjárástól. A magyarázó változónk csak az időjárással foglalkozik, ezért ezt a nem időjárásból adódó ingadozást a maradéktag kénytelen leírni. Ideális esetben a maradéktag csak a véletlentől függhet, nem tartalmazhat semmilyen törvényszerűséget. Ha mégis ezt teszi, azt autokorrelációnak nevezzük. A jelek szerint tehát igen erős autokorrelációval van dolgunk. Az autokorreláció tesztelésére a Durbin-Wattson-tesztet fogjuk használni. A teszt lényegében egy hipotézisvizsgálat, aminek részletezésére most nem térünk ki, mindössze a használatát nézzük meg. Maga a próbafüggvény A szignifikanciaszint , a próba elvégzése pedig az alábbi módon történik: és értékeket kikeressük a táblázatból, n=a megfigyelések száma, k=a magyarázó változók száma végül megnézzük a próbafüggvény melyik tartományba esik. Lássuk mit ad ez a teszt a jelenlegi helyzetben. A szignifikanciaszint legyen 5%-os. A megfigyelések száma n=12, a magyarázó változók száma k=1, a Durbin-Watson táblázatból kikeressük a és értékeket. Lássuk hova esik a d-próba értéke!
Egy lépésre vagy attól, hogy a matek melléd álljon és ne eléd.
  • Sokkal jobb, mint bármelyik egyetemi előadásom.

    Dani, 20
  • Felsőbb éves egyetemisták ajánlották, "kötelező" címszóval.
    Ricsi, 19
  • Konkrétan a hetedikes öcsém megtanult deriválni, ez elég bizonyíték, hogy az oldal érthetően magyaráz.

    Gábor, 18
  • Jó árban van és hihetetlenül világos a magyarázat és annyiszor lehet visszatérni az egyes lépésekre, ahányszor arra csak szükség van a megértéshez.

    Lili, 22
BelépekvagyRegisztrálok Back arrow Ugrás az
összeshez