Barion Pixel Lineáris regresszió | mateking
 

Valószínűségszámítás epizód tartalma:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.

A képsor tartalma
Ez az öt pont itt a grafikonon egészen biztosan nem köthető össze egyetlen egyenes vonallal… Olyan lineáris függvény tehát nem lesz, amelyik minden ponton átmegy. De olyan még lehet, amelyik minden ponthoz a lehető legközelebb megy. Itt a grafikonon a mamutfenyők törzskerületét jelöljük x-el… Az életkort pedig y-nal. És a függvény is mindegyik x-hez hozzárendel valamilyen y-t. Ezek általában eltérnek a valódi y-októl. Annak érdekében, hogy a valódi y-okkal ne keverjük őket össze, kis háztetőket rakunk ezekre az y-okra és becsült y-nak nevezzük őket. Az eltéréseket pedig -nal fogjuk jelölni. A cél az, hogy ez az eltérés a lehető legkisebb legyen. De van itt még egy dolog. Ezek az eltérések néha pozitív számok… Néha pedig negatívak. Minket azonban most csak a távolság érdekel, vagyis az, hogy a kis piros vonalkák milyen hosszúak. Egy trükköt fogunk használni és mindegyik eltérést négyzetre emeljük. az előjelek most nem érdekelnek. Úgy tudunk megszabadulni az előjelektől, hogy ezeket négyzetre emeljük. A cél az, hogy ez a négyzetösszeg legyen minimális. Ezt a módszert legkisebb négyzetek módszerének nevezzük, és akit az elméleti részletek untatnak, nyugodtan ugorjon át ide. És így a függvény a lehető legpontosabban írja le a mamutfenyők életkorát. A függvényünk minden x-hez hozzárendel egy y-t. De ez nem pont annyi, mint a valódi y. Ezt becsült y-nak nevezzük és a jele y kalap. A regresszió elnevezés az angol regression to the mean szókapcsolatból, ered, aminek jelentése visszatérés az átlaghoz és Francis Galton-tól származik, aki apák és fiaik testmagasságát vizsgálva jutott arra a megállapításra, hogy a magasabb apáknak magasabb fiai születnek, vagyis a fiúk visszatérnek az apáik átlagához. Az regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától. Miként függ például a repülőterek forgalma az olajár alakulásától, az 1000 főre jutó gépkocsik száma az egy főre jutó GDP-től vagy a várható élettartam a jövedelmi viszonyoktól. Ezekben a példákban az eredményváltozóhoz mindössze egyetlen magyarázó változó tartozik, ami a regressziószámítás legegyszerűbb módja a kétváltozós eset. Az élet azonban sajnos jóval bonyolultabb. A repülőterek forgalma az olaj árán kívül függ az adott évben végrehajtott terrorcselekmények számától, a szélsőséges időjárási események számától, a világgazdaság állapotától és még sok más tényezőtől, vagyis a magyarázó változók száma általában több, az ilyen eseteket pedig többváltozós regressziónak nevezzük. Vizsgálódásunkat az egyszerűbben átlátható kétváltozós esettel kezdjük. Itt csak egy magyarázó változót veszünk figyelembe, ez azonban nem azt jelenti, hogy ne volnának mellette más magyarázó változók is. Mindössze arról van szó, hogy azokat most nem vizsgáljuk, hatásukat a regresszió hibájának könyveljük el. A kétváltozós lineáris regresszió sémája a következő: Itt a magyarázó változó, pedig az eredményváltozó, ami jó közelítéssel az -nek lineáris függvényeként áll elő de mivel x nem képes y-t 100%-ban megmagyarázni, van egy hibatag. Ebbe a hibatagba van belezsúfolva a többi magyarázó változó, amikkel az egyváltozós esetben nem foglalkozunk. Nézzük meg például, hogy Európa néhány országában az egy főre jutó GDP hogyan befolyásolja a gépkocsival rendelkező lakosok számát. ország x GDP/fő (EUR) y Gépkocsik száma (db/1000 fő) Ausztria AT 28 978 496 Belgium BE 30 349 447 Csehország CZ 15 216 362 Franciaország FR 26 656 465 Görögország GR 17 941 245 Hollandia NL 28 669 388 Lengyelország PL 10 135 259 Magyarország HU 13 767 235 Németország DE 28 232 517 Svájc CH 31 987 486 Esetünkben tehát a GDP lesz a magyarázó változó, a gépkocsik száma pedig az eredményváltozó. Fontos azonban észrevenni, hogy ezeket a szerepeket mi osztjuk ki, egy általunk feltételezett összefüggés alapján. Ha például a jövedelem és az egészséges táplálkozás közötti kapcsolatot vizsgáljuk, elvileg lehetne a jövedelem az eredményváltozó, és a táplálkozási szokások a magyarázó változó, vagyis minél egészségesebben eszünk, annál több pénzünk van. Csak valahogy a józan ész azt diktálja, hogy ez inkább fordítva van és nem attól lesz több pénzünk, hogy egészségesen eszünk, hanem attól eszünk egészségesen, hogy több a pénzünk. Vannak aztán olyan esetek, amikor nem is olyan egyszerű eldönteni, hogy melyiket tekintsük eredményváltozónak és melyiket magyarázónak. Egy teória szerint például aki minden nap egy deci bort megiszik, az jobb egészségre számíthat, mint aki egyáltalán nem iszik, vagy aki túl sokat iszik. Később aztán kiderült, megeshet, hogy ez éppen fordítva van. Az eleve egészségesen élő emberek azok, akik napi egy deci bort isznak, míg az egészségtelenül élők vagy vedelnek, vagy nem isznak. Sokszor tehát egyáltalán nem egyértelmű, hogy mit tekintsünk magyarázó és mit eredményváltozónak, és nemegyszer vezetett már komoly tudományos felfedezéshez a szerepek felcserélése. Visszatérve példánkhoz, ábrázoljuk egy koordinátarendszerben az országokat, ahol az x tengelyen az egy főre jutó GDP-t, míg az y-on az 1000 főre jutó gépkocsik számát mérjük. Az ábrán jól látszik, hogy az országok nagyjából egy egyenes mentén helyezkednek el, ezért lineáris regressziót alkalmazunk. A kétváltozós lineáris regresszió egyenlete: Az hibatagot elhagyva kapjuk a regressziós egyenes egyenletét: Az y fölé tett háztetőre emlékeztető jel itt azt jelenti, hogy becsült érték. Ezt úgy kell elképzelni, hogy ha x=13 767 ami éppenséggel Magyarország, akkor a hozzá tartozó tényleges y érték y=235. Mivel azonban a hibatagot elhagytuk, a regressziós egyenes nem megy át ezen a ponton, hanem fölötte megy, a becsült érték tehát picivel nagyobb a ténylegesnél. CZ esetében ez éppen fordítva van, ott a becsült y kisebb, mint a tényleges. A tényleges y értékektől az eltérés és mivel így ez az eltérés Célunk egy olyan egyenes előállítása, ami a lehető legjobban illeszkedik a koordinátarendszerben szereplő pontokhoz, vagyis a lehető legközelebb halad el mellettük, ami azt jelenti, hogy ezeknek az eltéréseknek kell minimálisnak lenni. Az elv, amivel ez az egyenes előállítható, az úgynevezett legkisebb négyzetek módszere. Fontos figyelmeztetés! Az alábbiakban a nyugalom megzavarására alkalmas szavak fognak elhangzani, úgymint deriválás, szélsőérték, meg ilyenek. Akiben ezek rosszérzést keltenek, ugorja át őket. Technikai okokból nem magukat az eltéréseket vizsgáljuk, hanem a négyzetüket. Az eltérések négyzetösszegének kell tehát minimálisnak lennie. A szóban forgó négyzetösszeg tehát A módszer lényege, hogy b1 és b0 Most pedig ami tulajdonképpen egy kétváltozós függvény, változói és . Ha deriváljuk ezen változók szerint, majd a deriváltakat egyenlővé tesszük nullával, megkapjuk a függvény lehetséges szélsőértékét. A helyzet az, hogy itt valóban van is szélsőérték, ráadásul éppen az ami nekünk kell, vagyis minimum. A nullával egyenlővé tett parciális deriváltak alapján ezeket az úgynevezett normálegyenleteket kapjuk: Végül még egy cseles lépés következik. Az egész koordinátarendszert eltoljuk -al és -al. Ekkor a regressziós egyenes meredeksége ugyanaz marad, csak a tengelymetszet változik meg és lesz belőle. A normálegyenletek ekkor és jelöléseket használva: Mivel pedig és ezért Az első egyenlet teljesen haszontalan, a másodikból viszont Ezek után úgy jön ki, hogy az egyenletben helyére y átlagát, x helyére pedig x átlagát helyettesítjük. Ha valakinek jobban tetszik, megjegyezhető a képlet is. Térjünk most vissza az eredeti példánkhoz és nézzük meg ott a regressziós egyenest. Az x szerinti átlag Az y szerinti átlag: Most jöhetnek az úgynevezett eltérés-négyzetösszegek: Végül itt jön még egy izgalmas dolog. A regressziós egyenes együtthatói ekkor: és az egyenletbe x és y átlagait helyettesítve és ebből jön ki . A regressziós egyenes tehát A regressziós egyenes egyenletében szereplő becsült regressziós együtthatók közül az egyenes meredeksége, ami azt adja meg, hogy az x magyarázó változó egy egységnyi növekedése hány egységgel változtatja meg az y eredményváltozó értékét. A érték kevésbé jelentős, ez azt adja meg, hogy a magyarázó változó nulla értékéhez milyen y érték tartozik. Esetünkben azt jelenti, hogy egy eurós GDP növekedés 0,012-vel növeli az 1000 főre jutó gépkocsik számát, míg most csak technikai paraméter, valós jelentése nincs – elvileg ennyi gépkocsi jut 1000 főre egy olyan országban, ahol nulla az egy főre jutó GDP. A paraméterek értelmezése után érdemes megnézni egy másfajta jellemzést, az úgynevezett elaszticitást. Az elaszticitás azt fejezi ki, hogy az x magyarázó változó 1%-os változása hány %-os változást okoz az eredményváltozóban. Ha például az egy főre jutó GDP x=30 000, akkor 1%-os GDP változás lássuk hány %-os változást okoz az autók számában: tehát 0,76%.
BelépekvagyRegisztrálok Back arrow Ugrás az
összeshez