Többváltozós lineáris regresszió | mateking
 

Adatelemzés 2 epizód tartalma:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.

A képsor tartalma
Többváltozós lineáris regresszió A többváltozós regressziós modelleket olyankor alkalmazzuk, amikor az eredményváltozó alakulását több magyarázó változó tükrében vizsgáljuk. Például egy fagyiárus napi forgalma függ attól, hogy hány fok van az adott napon, a 30 fokos kánikula határozottan jobban kedvez az eladásnak, mint a -10 fokos hideg. Ezen kívül azonban számít az is, hogy az embereknek mennyi elfagyizni való pénzük van, mint ahogy mondjuk az is, hogy éppen hétvége van-e vagy sem. A többváltozós lineáris regresszió egyenlete Az y eredményváltozó itt k darab magyarázó változótól és a hibatagtól függ. Az hibatagot elhagyva kapjuk az eredményváltozó becsült képletét: A , , stb. paramétereket, ahogyan a kétváltozós esetben, itt is a legkisebb négyzetek módszerével kapjuk meg, de mindenki megkönnyebbülésére ezt most nem részletezzük. Mivel itt több magyarázó változó is van, a helyzet jóval bonyolultabb lesz. A magyarázó változók értékeit egy mátrixba rendezzük, ahol az első oszlop csupa 1-es, minden további oszlop pedig egy-egy magyarázó változó értékeit tartalmazza. A fagyiárus esetében három magyarázó változót vizsgálunk, az első arról szól, hogy hány fok van, a másodi arról, hogy mennyi pénze van az embereknek, a harmadik pedig arról, hogy hétvége van-e vagy sem. A csupa 1-es oszlop után jöjjön az, hogy hány fok volt az adott napon. A 12 érték 12 különböző nap adatait tartalmazza. A következő oszlop a gazdasági helyzetet írja le, ami szintén hatással van a forgalomra. Ezt azonban jóval bonyolultabb egyetlen számmal jellemezni, mint a hőmérsékletet. A gazdasági helyzet egyik mérője lehet például a kőolaj világpiaci ára. Romló gazdasági helyzetben ugyanis a kőolaj ára általában csökken, míg javulás esetén nő. Azokat a magyarázó változókat, amik tartalmilag csak közvetve befolyásolják az eredményváltozót, proxy változónak nevezzük. Esetünkben a kőolaj ára ilyen proxy változó. Pusztán azért mert drágább az olaj, nyilván nem fogunk több fagyit venni, de ha a drágább olaj együtt jár a jobb gazdasági mutatókkal, akkor már igen. A negyedik oszlop arról szól, hogy hétvége van-e vagy sem. Hétvégén ugyanis általában több, hétköznap kevesebb fagyit vesznek az emberek. Az ilyen típusú magyarázó változókat dummy változónak nevezzük. A dummy változó két értéket vehet föl, leginkább úgy szokás alkalmazni, hogy 0-át vagy 1-et. Esetünkben az, hogy hétvége van-e, egy dummy változó. Legyen , ha hétvége van és ha nem. Végül az eredményváltozó ugyanezen napokon mért értékeit az vektor tartalmazza. Ez ugyebár az eladott gombócok száma. A , , paramétereket az X mátrix és az vektor alapján, a következő, nem éppen kellemes képlet alapján számoljuk ki: A képletben szereplő műveletek akkor elvégezhetőek, ha az mátrixnak létezik inverze, amihez az kell – ha valaki kicsit járatos a lineáris algebrában – hogy az X mátrix oszlopvektorai lineárisan független rendszert alkossanak. Ez lényegében azt jelenti, hogy a magyarázó változók között ne legyen függvényszerű kapcsolat. A képlet végén lévő vektorral való szorzáshoz pedig az kell, hogy az összefüggés teljesüljön, vagyis legalább annyi megfigyelésünk legyen, amennyi a becsülni kívánt paraméterek száma. Ezek azonban csak a technikai feltételek. A gyakorlatban arra kell törekedni, hogy a megfigyelések száma legalább háromszorosa legyen a becsülni kívánt paraméterek számának. Esetünkben a paraméterek száma négy, tehát a 12 megfigyelésünk éppen hogy elég. Az X mátrix általános alakja k darab magyarázó változó értékeit tartalmazza, a megfigyelések száma n. Az vektor az n darab megfigyelés során tapasztalt eredményváltozó értékeket tartalmazza. A lineáris regresszió paraméterei szépen egymás után a vektorban lesznek. Nézzük meg a konkrét számításokat a fagylalt-biznisz esetében. Ezeket csak a szemléltetés kedvéért mutatjuk be, valójában senkinek nem kell majd ilyeneket kiszámolnia. Ezekre és az ehhez hasonló számolásokra ugyanis különféle statisztikai programcsomagok vannak forgalomban. így Aminek az inverze A lineáris regresszió paraméterei szépen egymás után a vektorban lesznek. Ez úgy értendő, hogy és A lineáris regresszió egyenlete amibe az imént kapott értékeket írva a egyenlet adódik az eladott fagyik számára. A lineáris regresszió képletében a paraméter a tengelymetszet, a többi paraméter pedig azt jelenti, hogy az i-edik magyarázó változó egy egységgel történő változása, mennyivel változtatja az értéket, ha a többi magyarázó változót rögzítjük. Lássuk mi mondható a fagylalt-biznisz esetében! Ez most – mint általában – csak technikai paraméter. Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az önmagában 12,57 gombóccal növeli a napi eladást. Ez a magyarázó változó a gazdasági helyzetet írta le, méghozzá a kőolaj árával. Adataink alapján az derült ki, hogy 1 dolláros olajár növekedés 0,32 gombóccal csökkenti az eladást. Ez egy úgynevezett dummy változó volt, ami 1, ha hétvége van és 0, ha nincs. A 18,34 tehát azt jelenti, hogy pusztán attól, hogy hétvége van, 18,34 gombóccal több fagyi adható el. A paraméterek értelmezése után érdemes megnézni itt is az elaszticitást, ami azt fejezi ki, hogy az magyarázó változó 1%-os változása hány %-os változást okoz az eredményváltozóban, ha a többi magyarázó változót rögzítjük. Az elaszticitás számszerű értéke egy konkrét esetben a következő: Ha például 20 fok van, 100 dollár egy hordó olaj és hétvége van, akkor 1%-os hőmérsékletváltozás hány %-al növeli az eladást? Vagyis 1%-os hőmérséklet-emelkedés 0,37%-al növeli az eladást. A továbbiakban a kapott lineáris regresszió elemzéséről lesz szó. Elsőként, ahogyan a kétváltozós esetben tettük, most is megnézzük a reziduumokat és a korrelációt, majd az elaszticitást. Ezt követően azonban jóval érdekesebb dolgokat csinálunk. A hipotézisvizsgálat eszközeit felhasználva megvizsgáljuk, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem. A fagyis történetben például a kőolaj árának 1 dolláros változása csak 0,32 gombócnyi hatással van a fagyi-eladásra, így fölmerül a gyanú, hogy ezt a változót fölöslegesen vizsgáljuk. Kezdetben ugyan logikusnak tűnt a gazdasági helyzet, mint magyarázó változó használata, de a konkrét eredmények ezt kérdésessé teszik. Ennek tisztázására használjuk majd a hipotézisvizsgálat eszközeit.
 

Többváltozós lineáris regresszió

06
hang
Egy lépésre vagy attól, hogy a matek melléd álljon és ne eléd.
  • Olyan weboldal, ami még egy vak lovat is megtanítana integrálni.

    Petra, 26
  • Jó árban van és hihetetlenül világos a magyarázat és annyiszor lehet visszatérni az egyes lépésekre, ahányszor arra csak szükség van a megértéshez.

    Lili, 22
  • Ez a legjobban áttekinthető, értelmezhető, használható és a legolcsóbb tanulási lehetőség.

    Eszter, 23
  • Nem találsz külön tanárt? Ne is keress! Irány a mateking!!!!

    Bori, 19
BelépekvagyRegisztrálok Back arrow Ugrás az
összeshez