Regressziószámítás

A témakör tartalma


MI AZ A REGRESSZIÓ?

REGRESSZIÓSZÁMÍTÁS

A regresszió elnevezés az angol regression to the mean szókapcsolatból, ered, aminek jelentése visszatérés az átlaghoz és Francis Galton-tól származik, aki apák és fiaik testmagasságát vizsgálva jutott arra a megállapításra, hogy a magasabb apáknak magasabb fiai születnek, vagyis a fiúk visszatérnek az apáik átlagához.

Az regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától.

Miként függ például a repülőterek forgalma az olajár alakulásától, az 1000 főre jutó gépkocsik száma az egy főre jutó GDP-től vagy a várható élettartam a jövedelmi viszonyoktól.

Ezekben a példákban az eredményváltozóhoz mindössze egyetlen magyarázó változó tartozik, ami a regressziószámítás legegyszerűbb módja a kétváltozós eset.  

Az élet azonban sajnos jóval bonyolultabb. A repülőterek forgalma az olaj árán kívül függ az adott évben végrehajtott terrorcselekmények számától, a szélsőséges időjárási események számától, a világgazdaság állapotától és még sok más tényezőtől, vagyis a magyarázó változók száma általában több, az ilyen eseteket pedig többváltozós regressziónak nevezzük.

Vizsgálódásunkat az egyszerűbben átlátható kétváltozós esettel kezdjük. Itt csak egy magyarázó változót veszünk figyelembe, ez azonban nem azt jelenti, hogy ne volnának mellette más magyarázó változók is. Mindössze arról van szó, hogy azokat most nem vizsgáljuk, hatásukat a regresszió hibájának könyveljük el.

A kétváltozós lineáris regresszió sémája a következő:

Itt  a magyarázó változó,  pedig az eredményváltozó, ami jó közelítéssel az -nek lineáris függvényeként áll elő de mivel x nem képes y-t 100%-ban megmagyarázni, van egy  hibatag. Ebbe a hibatagba van belezsúfolva a többi magyarázó változó, amikkel az egyváltozós esetben nem foglalkozunk.

Nézzük meg például, hogy Európa néhány országában az egy főre jutó GDP hogyan befolyásolja a gépkocsival rendelkező lakosok számát.

ország

x

GDP/fő

(EUR)

y

Gépkocsik száma

(db/1000 fő)

Ausztria               AT 

28 978

496

Belgium               BE

30 349

447

Csehország          CZ

15 216

362

Franciaország       FR

26 656

465

Görögország         GR

17 941

245

Hollandia              NL

28 669

388

Lengyelország       PL

10 135

259

Magyarország       HU

13 767

235

Németország        DE

28 232

517

Svájc                   CH

31 987

486

Esetünkben tehát a GDP lesz a magyarázó változó, a gépkocsik száma pedig az eredményváltozó. Fontos azonban észrevenni, hogy ezeket a szerepeket mi osztjuk ki, egy általunk feltételezett összefüggés alapján.

Ha például a jövedelem és az egészséges táplálkozás közötti kapcsolatot vizsgáljuk, elvileg lehetne a jövedelem az eredményváltozó, és a táplálkozási szokások a magyarázó változó, vagyis minél egészségesebben eszünk, annál több pénzünk van. Csak valahogy a józan ész azt diktálja, hogy ez inkább fordítva van és nem attól lesz több pénzünk, hogy egészségesen eszünk, hanem attól eszünk egészségesen, hogy több a pénzünk.

Vannak aztán olyan esetek, amikor nem is olyan egyszerű eldönteni, hogy melyiket tekintsük eredményváltozónak és melyiket magyarázónak.

Egy teória szerint például aki minden nap egy deci bort megiszik, az jobb egészségre számíthat, mint aki egyáltalán nem iszik, vagy aki túl sokat iszik. Később aztán kiderült, megeshet, hogy ez éppen fordítva van. Az eleve egészségesen élő emberek azok, akik napi egy deci bort isznak, míg az egészségtelenül élők vagy vedelnek, vagy nem isznak.

Sokszor tehát egyáltalán nem egyértelmű, hogy mit tekintsünk magyarázó és mit eredményváltozónak, és nemegyszer vezetett már komoly tudományos felfedezéshez a szerepek felcserélése.

Visszatérve példánkhoz, ábrázoljuk egy koordinátarendszerben az országokat, ahol az x tengelyen az egy főre jutó GDP-t, míg az y-on az 1000 főre jutó gépkocsik számát mérjük. Az ábrán jól látszik, hogy az országok nagyjából egy egyenes mentén helyezkednek el, ezért lineáris regressziót alkalmazunk.

A kétváltozós lineáris regresszió egyenlete:

Az  hibatagot elhagyva kapjuk a regressziós egyenes egyenletét:

Az y fölé tett háztetőre emlékeztető jel itt azt jelenti, hogy becsült érték. Ezt úgy kell elképzelni, hogy ha x=13 767 ami éppenséggel Magyarország, akkor a hozzá tartozó tényleges y érték y=235. Mivel azonban a hibatagot elhagytuk, a regressziós egyenes nem megy át ezen a ponton, hanem fölötte megy, a becsült érték tehát picivel nagyobb a ténylegesnél. CZ esetében ez éppen fordítva van, ott a becsült y kisebb, mint a tényleges.

A tényleges y értékektől az eltérés  és mivel  így ez az eltérés

Célunk egy olyan egyenes előállítása, ami a lehető legjobban illeszkedik a koordinátarendszerben szereplő pontokhoz, vagyis a lehető legközelebb halad el mellettük, ami azt jelenti, hogy ezeknek az eltéréseknek kell minimálisnak lenni. Az elv, amivel ez az egyenes előállítható, az úgynevezett legkisebb négyzetek módszere.

Fontos figyelmeztetés! Az alábbiakban a nyugalom megzavarására alkalmas szavak fognak elhangzani, úgymint deriválás, szélsőérték, meg ilyenek. Akiben ezek rosszérzést keltenek, ugorja át őket.

Technikai okokból nem magukat az eltéréseket vizsgáljuk, hanem a négyzetüket.

Az eltérések négyzetösszegének kell tehát minimálisnak lennie.

A szóban forgó négyzetösszeg tehát

ami tulajdonképpen egy kétváltozós függvény, változói  és .

Ha deriváljuk ezen változók szerint, majd a deriváltakat egyenlővé tesszük nullával, megkapjuk a függvény lehetséges szélsőértékét. A helyzet az, hogy itt valóban van is szélsőérték, ráadásul éppen az ami nekünk kell, vagyis minimum. A nullával egyenlővé tett parciális deriváltak alapján ezeket az úgynevezett normálegyenleteket kapjuk:

Végül még egy cseles lépés következik.

Az egész koordinátarendszert eltoljuk -al és  -al. Ekkor a regressziós egyenes  meredeksége ugyanaz marad, csak a  tengelymetszet változik meg és  lesz belőle.

A normálegyenletek ekkor  és  jelöléseket használva:

Mivel pedig   és  ezért

Az első egyenlet teljesen haszontalan, a másodikból viszont

Ezek után  úgy jön ki, hogy az  egyenletben  helyére y átlagát, x helyére pedig x átlagát helyettesítjük. Ha valakinek jobban tetszik, megjegyezhető a  képlet is.

Térjünk most vissza az eredeti példánkhoz és nézzük meg ott a regressziós egyenest.

Az x szerinti átlag

Az y szerinti átlag:

Most jöhetnek az úgynevezett eltérés-négyzetösszegek:

Végül itt jön még egy izgalmas dolog.

A regressziós egyenes együtthatói ekkor:

és az

egyenletbe  x és y átlagait helyettesítve

és ebből jön ki .

A regressziós egyenes tehát

A regressziós egyenes

egyenletében szereplő becsült regressziós együtthatók közül  az egyenes meredeksége, ami azt adja meg, hogy az x magyarázó változó egy egységnyi növekedése hány egységgel változtatja meg az y eredményváltozó értékét. A  érték kevésbé jelentős, ez azt adja meg, hogy a magyarázó változó nulla értékéhez milyen y érték tartozik.

Esetünkben  azt jelenti, hogy egy eurós GDP növekedés 0,012-vel növeli az 1000 főre jutó gépkocsik számát, míg  most csak technikai paraméter, valós jelentése nincs – elvileg ennyi gépkocsi jut 1000 főre egy olyan országban, ahol nulla az egy főre jutó GDP.

A paraméterek értelmezése után érdemes megnézni egy másfajta jellemzést, az úgynevezett elaszticitást. Az elaszticitás azt fejezi ki, hogy az x magyarázó változó 1%-os változása hány %-os változást okoz az eredményváltozóban.

Ha például az egy főre jutó GDP x=30 000, akkor 1%-os GDP változás lássuk hány %-os változást okoz az autók számában:

 tehát 0,76%.

SSE, reziduális szórás, korreláció

Az  lineáris regresszió illeszkedésének vizsgálatához meghatározzuk az úgynevezett reziduumokat. Ezek tulajdonképpen az illeszkedési hibák, amiket azoknál a pontoknál tapasztalunk, amelyek alapján a lineáris regressziót felírtuk.

A reziduumok tehát az  különbségek.

Ezek a különbségek azonban nem azonosak az  hibataggal. Az  hibatag ugyanis maga is egy függvény, amibe a többi, általunk most nem vizsgált magyarázó változó hatását zsúfoltuk bele, míg az  reziduumok csupán abban a néhány pontban adják meg a hibát, amelyek alapján a regressziót felírtuk.

Még egyszerűbben fogalmazva az

lineáris regresszióban  a teljes megfigyelési tartományon érvényes hibatag, míg az

csak a megfigyelt pontokban teljesül.

A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg.

Ha a regresszió tökéletesen illeszkedik, akkor az  különbségek mindegyike nulla, így SSE=0. Ha az illeszkedés nem tökéletes, akkor SSE egy pozitív érték, ami az illeszkedés pontatlanságát méri, valahogy úgy, ahogyan a szórás méri az átlagtól való eltérést.

A szórásra még jobban emlékeztető mutatót kapunk, ha az SSE értékét elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét. Az így kapott állatfajta neve reziduális szórás:

Az illeszkedés egy másik mérőszáma a lineáris korrelációs együttható.

A lineáris korrelációs együttható azt méri, hogy x és y között milyen szoros lineáris kapcsolat van. Értéke mindig .

Ha  akkor x és y között függvényszerű lineáris kapcsolat van.

Ha  majdnem 1 vagy a -1, akkor x és y között majdnem lineáris kapcsolat van, vagyis koordinátarendszerben ábrázolva a kapott pontok lényegében egy egyenes mentén helyezkednek el.

Ha  közel van a nullához, akkor a pontok jobban szóródnak az egyenes körül, mellesleg ezt a szóródást méri a reziduális szórás.

Ha akkor x és y között nincs lineáris kapcsolat. Ettől azonban másfajta kapcsolat még lehet.

Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete,  annak kiderítésére, hogy az x értékek hány százalékban magyarázzák meg az y-ra adódó értékeket.

Vagyis az  értéke azt adja meg, hogy az x magyarázó változó hány százalékban magyarázza meg az y eredményváltozót, másként fogalmazva azt, hogy mekkora a lineáris regressziós modell magyarázó ereje.

Szintén ezt a magyarázóerőt méri az úgynevezett determinációs együttható, melynek jele . Ez a kétváltozós lineáris modell esetében megegyezik -el.

Itt SSE a már ismert eltérés-négyzetösszeg, míg SSR az úgynevezett regressziós, vagy magyarázó négyzetösszeg, SST pedig a teljes négyzetösszeg, a köztük lévő kapcsolat pedig

Ez a négyzetösszeg-felbontás – ha még emlékszünk rá – éppen úgy működik, mint a két ismérv közti vegyes kapcsolat vizsgálatánál az SST=SSB+SSK összefüggés.

A következőkben nézzünk meg egy tanulságos példát!

Hatványkitevős és exponenciális regresszió

Vannak olyan esetek, amikor a magyarázó változó és az eredményváltozó között nem lineáris a kapcsolat. Ilyenkor legtöbbször hatványkitevős vagy exponenciális regressziót használunk. Nézzünk meg egy konkrét példát, ahol összehasonlítjuk a szóba jöhető regressziós modelleket.

Egy statisztika vizsgára tanulók saját tapasztalatain alapuló felmérése szerint a tanulással töltött órák száma és az elért pontszám között az alábbi összefüggéseket sikerült kimutatni.

Tanulással

töltött órák

Pontszám

(max 100)

3

5

4

6

5

8

6

9

9

16

10

20

12

24

16

56

20

81

24

96

Az összehasonlítás kedvéért nézzük meg mindhárom regressziós modellt, a lineáris a hatványkitevős és az exponenciális modellt.

A lineáris regressziót már ismerjük, erre a lineáris modellre fogjuk a másik kettőt visszavezetni egy trükk segítségével. Megeshet, hogy néhányan rosszakat fognak tőle álmodni, da sajna a trükk az lesz, hogy vesszük a regressziós egyenletek logaritmusát. Mindegy milyen alapú logaritmust veszünk, legyen mondjuk 10-es alapú, vagyis lg.

Az így kapott egyenletek hajszálra megegyeznek az eredeti lineáris modell egyenletével, csak bizonyos betűk elé odakerült, hogy lg. A paraméterek kiszámításának képletei tehát szintén ugyanazok maradnak, csak ott is oda kell írni, hogy lg.

Az eredeti táblázatunkat kiegészítjük  és  oszlopokkal.

Tanulással

töltött órák

Pontszám

(max 100)

minden értéknek vesszük a logaritmusát

ezeket átlagolva kapjuk, hogy

3

5

0,4771

0,6989

4

6

0,6020

0,7781

5

8

0,6989

0,9031

6

9

0,7781

0,9542

9

16

0,9542

1,2041

10

20

1,000

1,3010

12

24

1,0791

1,3802

16

56

1,2041

1,7482

20

81

1,3010

1,9085

24

96

1,3802

1,9823

A lineáris regressziónál minden ugyanúgy megy, mint eddig:

A regresszió egyenlete:

A  csak technikai paraméter, pedig azt jelenti, hogy minden egyes órányi tanulás 4,586 ponttal növeli a vizsga pontszámát.

Nézzük mi a helyzet a hatványkitevős regressziónál.

A regresszió egyenlete

amibe a kapott paramétereket írva

Itt csak a  paraméternek van érdemi jelentése, ráadásul kicsit szokatlan. Hatványkitevős regressziónál  ugyanis az elaszticitás. Esetünkben tehát az elaszticitás 1,514, ami annyit jelent, hogy x 1%-os növekedése 1,514%-al növeli y-t. Másként 1%-al több tanulás 1,514%-al növeli a vizsgán elért pontszámot.

Végül az exponenciális regresszió:

A regresszió egyenlete

amibe a kapott paramétereket írva

A paraméterek jelentése a következő.  csak technikai paraméter,  pedig azt jelenti, hogy minden egyes órányi tanulás 1,16-szorosára növeli a vizsga pontszámát.

Nézzük meg, a három regresszió közül melyik illeszkedik a legjobban. Elsőként a reziduumokat számoljuk ki.

Tanulással

töltött órák

Pontszám

(max 100)

lineáris

hatvány

exp.

3

5

-4,129

3,456

5,822

4

6

0,457

5,343

6,754

5

8

5,043

7,490

7,834

6

9

9,629

9,871

9,087

9

16

23,387

18,237

14,185

10

20

27,973

21,391

16,455

12

24

37,145

28,192

22,141

16

56

55,489

43,579

40,090

20

81

73,833

61,094

72,588

24

96

92,177

80,516

131,432

A jelek szerint a lineáris modell SSE-je a legkisebb, tehát ebben az esetben ez a modell illeszkedik legjobban.

Standard lineáris modell kétváltozós eset

A regressziószámítás egyik lényeges kérdése magának a regressziós modellnek az elemzése. Az elemzést a leginkább elterjedt modell, az úgynevezett standard lineáris modell esetében végezzük el.

A standard lineáris modellnek a feltételei első ránézésre kissé bonyolultak, ezért mielőtt ezekre rátérnénk, nézzünk inkább egy mesét!

Vizsgáljuk meg, milyen hatással van az egy főre jutó GDP arra, hogy a nők hány éves korukban kötik első házasságukat. A következő táblázat néhány általunk választott ország adatait tartalmazza.

ország

x

GDP/fő

(EUR)

y

Nők életkora

házasságkötéskor

Ausztria               AT 

28 978

26,6

Belgium               BE

30 349

29,8

Csehország          CZ

15 216

28,9

Franciaország       FR

26 656

31,6

Görögország         GR

17 941

26,9

Hollandia              NL

28 669

26,9

Lengyelország       PL

10 135

25,3

Magyarország       HU

13 767

29,7

Németország        DE

28 232

31

Svájc                   CH

31 987

29,4

A 10 megfigyelt országot választhattuk volna véletlenszerűen, most azonban ezek előre beállított értékek, vagyis direkt ezeket az országokat választottuk.

Nos ez volna a standard lineáris modell első követelménye, vagyis az, hogy a magyarázó változó értékei nem valószínűségi változók.

A második feltétel kétváltozós esetben – vagyis most – automatikusan teljesül.

STANDARD LINEÁRIS MODELL FELTÉTELEI:

I.    A magyarázó változók nem valószínűségi változók.

II.   A magyarázó változók lineárisan független

      rendszert alkotnak.

III. Az eredményváltozó közel lineáris függvénye a

      magyarázó változóknak.

IV.  Az  hibatag feltételes eloszlása normális, várható    

      értéke nulla.

V.   Az  hibatag különböző x-ekhez tartozó értékei 

      korrelálatlanok.

A lineáris regresszió

és szükségünk van a  és a  

paraméterekre.

  és

Elsőként kiszámoljuk az átlagokat.

és

Ha y a magyarázó változó lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami

Ez a harmadik követelmény a standard lineáris modellben.

Ebbe az imént kapott értékeket írva

A paraméterek jelentése:

     Ez most – mint általában – csak technikai paraméter.

  Ami azt jelenti, hogyha  1 EUR-val nagyobb az egy főre jutó GDP, az 0,0001 évvel tolja ki a nők első házasságkötésének dátumát. Ez tulajdonképpen 0,4 nap. Ha 100 EUR-val nagyobb az egy főre jutó GDP, az viszont már 40 napot jelent.

Most térjünk rá a modellel kapcsolatos vizsgálatokra.

1. Becslések a standard lineáris modellben

A regresszió paramétereinek illetve magának a regressziónak az intervallumbecslése hasonló a korábbi intervallumbecslésekhez. Ahhoz, hogy ennek lényegét megértsük, elég, belegondolnunk abba, hogy a regresszió alapján, ha például egy ország egy főre jutó GDP-je 30 000 EUR, akkor a  regresszió alapján

vagyis átlagosan 29,3 évesen mennek a nők férjhez.

Könnyen elképzelhető azonban egy olyan ország, ahol az egy főre jutó GDP 30 000 EUR, ám a nők mondjuk csak 31 évesen mennek férjhez, vagyis a 29,3 nem azt jelenti, hogy márpedig minden országban így kell lennie. A tényleges érték tehát egy sávban helyezkedik el a regresszió körül, amit konfidencia sávnak nevezünk.

Ennek a sávnak a meghatározásához először maguknak a paramétereknek az intervallumbecslését csináljuk meg, amihez szükségünk van standard hibára. Ezt a már korábbról ismert reziduális szórás segítségével fogjuk megkapni.

Most azonban a torzítatlanság érdekében az úgynevezett korrigált reziduális szórásra van szükségünk, ami

Itt n a megfigyelések száma, k pedig a magyarázó változók száma, ami most k=1.

ország

x

y

Ausztria               AT 

28 978

26,6

29,2

Belgium               BE

30 349

29,8

29,3

Csehország          CZ

15 216

28,9

27,8

Franciaország       FR

26 656

31,6

28,9

Görögország         GR

17 941

26,9

28,0

Hollandia              NL

28 669

26,9

29,2

Lengyelország       PL

10 135

25,3

27,3

Magyarország       HU

13 767

29,7

27,7

Németország        DE

28 232

31

29,1

Svájc                   CH

31 987

29,4

29,5

A standard lineáris modell két további feltétele az  hibataggal kapcsolatos, és az intervallumbecsléshez kell. Ezekről a feltételekről azt érdemes tudni, hogy általában teljesülnek, vagy legalábbis hazudhatjuk róluk, hogy teljesülnek.

Paraméterek becslése

Regresszió becslése

n=megfigyelések száma

k=paraméterek száma

Nézzük meg az

paramétereinek becsléseit.

A becslésnél t-eloszlást használunk, aminek szabadságfoka

v=n-k-1, tehát jelenleg v=10-1-1=8, a konfidencia szint

pedig általánosan .

Az paraméterek becslései egyenként

Ha például a konfidencia szint 90%-os, akkor  így  a szabadságfok pedig v=n-k-1=10-1-1=8

2. A paraméter tesztelése

Az  lineáris regresszió  paraméterének tesztelését végezzük el a

hipotézisvizsgálat segítségével. Tulajdonképpen azt fogjuk vizsgálni, hogy a magyarázó változó ténylegesen képes-e magyarázni y-t.

A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a :  feltevést,

ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a  paraméter szignifikánsan nulla, vagyis a magyarázó változó hatása az eredmény-változóra nulla. Az ellenhipotézis ezzel szemben az, hogy  vagyis a magyarázó változónak a regresszióban nem nulla hatása van.

A próbafüggvény, amit használunk a t-eloszlás lesz,

   ahol     

KÉTOLDALI KRITIKUS TARTOMÁNY

:

:

BAL OLDA LI KRITIKUS ÉRTÉK:

JOBB OLDALI KRITIKUS ÉRTÉK:

:   :  a szignifikanciaszint legyen  a szabadságfok továbbra is v=n-k-1=10-1-1=8 tehát a kritikus értékek

BAL OLDALI KRITIKUS ÉRTÉK:                       JOBB OLDALI KRITIKUS ÉRTÉK:

Az elfogadási tartomány tehát

A próbafüggvény érték:

A próbafüggvény értéke bőven az elfogadási tartományon kívül esik, így a nullhipotézist elvetjük, a :  ellenhipotézist pedig elfogadjuk, vagyis a  szerepe a regresszióban igenis jelentős, az egy főre jutó GDP valóban szerepet játszik abban, hogy a nők hány évesen mennek férjhez.

3. Modell egészének tesztelése

A magyarázó változó tesztelése végezhető F-próbával is. Ennek igazán majd a többváltozós regresszió esetén lesz jelentősége.

A nullhipotézis ezúttal is : , míg az ellenhipotézis : .

A próbafüggvény

A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:

JOBB OLDALI KRITIKUS ÉRTÉK:

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

Hiba

Teljes

             SST=SSR+SSE

Kiszámolunk kettőt.

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

SSR=5,49

k=1

Hiba

SSE=33,31

n-k-1=8

Teljes

SST=38,8

n-1=9

A szignifikanciaszint legyen , a két szabadságfok pedig  és , így az F-eloszlás eloszlástáblázatából a kritikus érték

A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a :  nullhipotézist teljesül, ami azt jelenti, hogy regressziós modell rossz, magyarázó ereje nem meggyőző.

Az két hipotézisvizsgálat eltérő eredményei úgy értendők, hogy a magyarázó változó hatása ugyan szignifikánsan nem nulla, de mégis az egész regressziós modell csak kis mértékben magyarázza, hogy a nők hány éves korukban mennek férjhez.

Ezt jól szemlélteti a modell magyarázó erejét kifejező úgynevezett determinációs együttható is

Ez mindössze 14%-os magyarázó erőt jelent.

A továbbiakban rátérünk a többváltozós regressziós modell vizsgálatára.


REZIDUÁLIS SZÓRÁS

A HATVÁNY- KITEVŐS ÉS AZ EXPONENCIÁLIS MODELL

A PARAMÉTEREK INTERVALLUM-BECSLÉSE ÉS TESZTELÉSE

TÖBBVÁLTOZÓS LINEÁRIS REGRESSZIÓ

Többváltozós lineáris regresszió

A többváltozós regressziós modelleket olyankor alkalmazzuk, amikor az eredményváltozó alakulását több magyarázó változó tükrében vizsgáljuk.

Például egy fagyiárus napi forgalma függ attól, hogy hány fok van az adott napon,  a 30 fokos kánikula határozottan jobban kedvez az eladásnak, mint a -10 fokos hideg. Ezen kívül azonban számít az is, hogy az embereknek mennyi elfagyizni való pénzük van, mint ahogy mondjuk az is, hogy éppen hétvége van-e vagy sem.

A többváltozós lineáris regresszió egyenlete

Az y eredményváltozó itt k darab magyarázó változótól és a hibatagtól függ.

Az  hibatagot elhagyva kapjuk az eredményváltozó becsült képletét:

A , , stb. paramétereket, ahogyan a kétváltozós esetben, itt is a legkisebb négyzetek módszerével kapjuk meg, de mindenki megkönnyebbülésére ezt most nem részletezzük.

Mivel itt több magyarázó változó is van, a helyzet jóval bonyolultabb lesz. A magyarázó változók értékeit egy mátrixba rendezzük, ahol az első oszlop csupa 1-es, minden további oszlop pedig egy-egy magyarázó változó értékeit tartalmazza.

A fagyiárus esetében három magyarázó változót vizsgálunk, az első arról szól, hogy hány fok van, a másodi arról, hogy mennyi pénze van az embereknek, a harmadik pedig arról, hogy hétvége van-e vagy sem.

A csupa 1-es oszlop után jöjjön az, hogy hány fok volt az adott napon. A 12 érték 12 különböző nap adatait tartalmazza.

A következő oszlop a gazdasági helyzetet írja le, ami szintén hatással van a forgalomra.

Ezt azonban jóval bonyolultabb egyetlen számmal jellemezni, mint a hőmérsékletet. A gazdasági helyzet egyik mérője lehet például a kőolaj világpiaci ára. Romló gazdasági helyzetben ugyanis a kőolaj ára általában csökken, míg javulás esetén nő.

Azokat a magyarázó változókat, amik tartalmilag csak közvetve befolyásolják az eredményváltozót, proxy változónak nevezzük. Esetünkben a kőolaj ára ilyen proxy változó. Pusztán azért mert drágább az olaj, nyilván nem fogunk több fagyit venni, de ha a drágább olaj együtt jár a jobb gazdasági mutatókkal, akkor már igen.

A negyedik oszlop arról szól, hogy hétvége van-e vagy sem. Hétvégén ugyanis általában több, hétköznap kevesebb fagyit vesznek az emberek. Az ilyen típusú magyarázó változókat dummy változónak nevezzük. A dummy változó két értéket vehet föl, leginkább úgy szokás alkalmazni, hogy 0-át vagy 1-et. Esetünkben az, hogy hétvége van-e, egy dummy változó. Legyen , ha hétvége van és  ha nem.

Végül az eredményváltozó ugyanezen napokon mért értékeit az  vektor tartalmazza. Ez ugyebár az eladott gombócok száma.

A , , paramétereket az X mátrix és az  vektor alapján, a következő, nem éppen kellemes képlet alapján számoljuk ki:

A képletben szereplő műveletek akkor elvégezhetőek, ha az  mátrixnak létezik inverze, amihez az kell – ha valaki kicsit járatos a lineáris algebrában – hogy az X mátrix oszlopvektorai lineárisan független rendszert alkossanak. Ez lényegében azt jelenti, hogy a magyarázó változók között ne legyen függvényszerű kapcsolat.

A képlet végén lévő  vektorral való szorzáshoz pedig az kell, hogy az  összefüggés teljesüljön, vagyis legalább annyi megfigyelésünk legyen, amennyi a becsülni kívánt paraméterek száma.

Ezek azonban csak a technikai feltételek. A gyakorlatban arra kell törekedni, hogy a megfigyelések száma legalább háromszorosa legyen a becsülni kívánt paraméterek számának. Esetünkben a paraméterek száma négy, tehát a 12 megfigyelésünk éppen hogy elég.

Az X mátrix általános alakja k darab magyarázó változó értékeit tartalmazza, a megfigyelések száma n.

Az  vektor az n darab megfigyelés során tapasztalt eredményváltozó értékeket tartalmazza.

A lineáris regresszió  paraméterei szépen egymás után a vektorban lesznek.

Nézzük meg a konkrét számításokat a fagylalt-biznisz esetében. Ezeket csak a szemléltetés kedvéért mutatjuk be, valójában senkinek nem kell majd ilyeneket kiszámolnia. Ezekre és az ehhez hasonló számolásokra ugyanis különféle statisztikai programcsomagok vannak forgalomban.

  így

Aminek az inverze

A lineáris regresszió  paraméterei szépen egymás után a vektorban lesznek.

Ez úgy értendő, hogy      és

A lineáris regresszió egyenlete

amibe az imént kapott értékeket írva a

egyenlet adódik az eladott fagyik számára.

A lineáris regresszió

képletében a  paraméter a tengelymetszet, a többi  paraméter pedig azt jelenti, hogy az i-edik magyarázó változó egy egységgel történő változása, mennyivel változtatja az értéket, ha a többi magyarázó változót rögzítjük.

Lássuk mi mondható a fagylalt-biznisz esetében!

 Ez most – mint általában – csak technikai paraméter.

   Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az önmagában 12,57 gombóccal növeli a napi eladást.

  Ez a magyarázó változó a gazdasági helyzetet írta le, méghozzá a kőolaj árával. Adataink alapján az derült ki, hogy 1 dolláros olajár növekedés 0,32 gombóccal csökkenti az eladást.

  Ez egy úgynevezett dummy változó volt, ami 1, ha hétvége van és 0, ha nincs. A 18,34 tehát azt jelenti, hogy pusztán attól, hogy hétvége van, 18,34 gombóccal több fagyi adható el.

A paraméterek értelmezése után érdemes megnézni itt is az elaszticitást, ami azt fejezi ki, hogy az  magyarázó változó 1%-os változása hány %-os változást okoz az eredményváltozóban, ha a többi magyarázó változót rögzítjük.

Az elaszticitás számszerű értéke egy konkrét esetben a következő:

Ha például 20 fok van, 100 dollár egy hordó olaj és hétvége van, akkor 1%-os hőmérsékletváltozás hány %-al növeli az eladást?

Vagyis 1%-os hőmérséklet-emelkedés 0,37%-al növeli az eladást.

A továbbiakban a kapott lineáris regresszió elemzéséről lesz szó. Elsőként, ahogyan a kétváltozós esetben tettük, most is megnézzük a reziduumokat és a korrelációt, majd az elaszticitást.

Ezt követően azonban jóval érdekesebb dolgokat csinálunk. A hipotézisvizsgálat eszközeit felhasználva megvizsgáljuk, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.

A fagyis történetben például a kőolaj árának 1 dolláros változása csak 0,32 gombócnyi hatással van a fagyi-eladásra, így fölmerül a gyanú, hogy ezt a változót fölöslegesen vizsgáljuk. Kezdetben ugyan logikusnak tűnt a gazdasági helyzet, mint magyarázó változó használata, de a konkrét eredmények ezt kérdésessé teszik. Ennek tisztázására használjuk majd a hipotézisvizsgálat eszközeit.

Korreláció a többváltozós lineáris modellben

A kétváltozós esethez hasonlóan a korreláció itt is a változók közti kapcsolat szorosságát írja le, csakhogy itt egy fokkal rosszabb a helyzet, ugyanis most bármely két változó korrelációját vizsgálhatjuk. Ezt tartalmazza a korreláció-mátrix.

Itt  az  és az  magyarázó változó közti korrelációt írja le, tehát például  az  és az  közti korrelációt jelenti.

pedig az  magyarázó változó és az y eredményváltozó közti kapcsolatot jelenti.

Mivel  a korreláció-mátrix szimmetrikus. Az áttekinthetőbb felírás kedvéért a felső háromszöget, ami tehát tökugyanaz, mint az alsó, el is szokták hagyni.

Számítsuk ki az előző fagyis példánk korreláció-mátrixát. Ehhez a három magyarázó változó és az egy eredményváltozó összes lehetséges korrelációját ki kell számolnunk, ami igencsak aggasztónak tűnik. Sőt, az is, éppen ezért erre olyan statisztikai programcsomagok vannak forgalomban, amik az egész mátrixot egy pillanat alatt előállítják.

Mi most mégis, csupán a hecc kedvéért kezdjük el kiszámolgatni a korrelációs mátrix elemeit.

A jelek szerint hat darab ilyen korrelációt kell kiszámolnunk.

Nézzük például mennyi .

A korreláció képlete

Tehát most

Hasonló izgalmakat jelent mondjuk  kiszámolása is:

A többi értéket is ugyanígy kapjuk, a korrelációs mátrix pedig

A kapott korrelációs mátrix tehát tetszőlegesen kiválasztott két változó közti kapcsolat szorosságát méri. Ez az érték azonban nem a közvetlen kapcsolatot, hanem benne van a többi változó közvetett hatása is.

Vagyis például  ami azt jelenti, hogy ilyen szoros a kapcsolat a kőolaj ára és az eladott gombócok száma között, de ebbe benne van a többi változó hatása is.

Ha tehát például szoros kapcsolat van a kőolaj ára és a hőmérséklet között, akkor a hőmérséklet hatása is érezteti magát az olajár-fagyieladás korrelációban. Megeshet tehát az, hogy az olajár valójában nem hat a fagyi eladásra, viszont szorosan összefügg a hőmérséklettel. Mivel pedig a hőmérséklet valóban hatással van a fagyi eladásra, ez a hatás az olajár-fagyieladás korrelációban is felbukkan.

Szükség lenne tehát a többi hatástól megtisztított tiszta korrelációkra is. Ezeket nevezzük parciális korrelációs együtthatóknak.

Az  parciális korrelációs együttható azt adja meg, hogy milyen szoros kapcsolat van az y eredményváltozó és a j-edik magyarázó változó között, ha a többi magyarázó változó hatását kiszűrjük.

    ahol   

Elő kell állítani tehát a korrelációs mátrix inverzét. Ismét a hecc kedvéért kiszámoljuk ezt a mátrixot, de valójában vannak kiváló statisztikai programcsomagok, amik ezt mind kiszámolják.

Visszatérve az olajár-fagyieladás kérdésre:

Ami azt jelenti, hogy a többi változó hatásától megtisztított korreláció -0,0412 ellentétben a korábbi 0,022 értékkel.

Számítsuk ki a hömérséklet-fagyieladás parciális korrelációt is.

A korábbi 0,923-nál tehát valójában kicsivel gyengébb a hőmérséklet és az eladott fagyik száma közti kapcsolat.

Az  lineáris regresszió illeszkedésének vizsgálatához meghatározzuk az úgynevezett reziduumokat. Ezek tulajdonképpen az illeszkedési hibák, amiket azokon a helyeken tapasztalunk, amelyek alapján a lineáris regressziót felírtuk.

A reziduumok tehát az  különbségek.

Ezek a különbségek azonban most sem azonosak az  hibataggal.

Az  hibatag ugyanis maga is egy függvény, amibe a többi, általunk nem vizsgált magyarázó változó hatását zsúfoltuk bele, míg az  reziduumok csupán abban a néhány pontban adják meg a hibát, amelyek alapján a regressziót felírtuk.

A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg, ami hajszálra megegyezik a kétváltozós esetben megismerttel.

Ha a regresszió tökéletesen illeszkedik, akkor az  különbségek mindegyike nulla, így SSE=0. Ha az illeszkedés nem tökéletes, akkor SSE egy pozitív érték, ami az illeszkedés pontatlanságát méri, valahogy úgy, ahogyan a szórás méri az átlagtól való eltérést.

A szórásra még jobban emlékeztető mutatót kapunk, ha az SSE értékét elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét. Az így kapott állatfajta neve reziduális szórás:

A kétváltozós esethez hasonlóan itt is vizsgálhatjuk az

négyzetösszegeket is, melyekre itt is teljesül az SST=SSR+SSE összefüggés.

A kétváltozós esethez hasonlóan itt is a modell magyarázó erejét méri a determinációs együttható:

Jóval érdekesebb azonban az, amivel most vizsgálódásunkat folytatjuk. Ez nem más, mint a hipotézisvizsgálat alkalmazása a regressziószámításban, méghozzá annak eldöntéséhez, hogy az általunk választott magyarázó változók közül melyek azok, amelyek tényleg hatással vannak az eredményváltozóra. Ez jön most.

Standard lineáris modell

A regressziószámítás egyik lényeges kérdése magának a regressziós modellnek az elemzése. Az elemzést a leginkább elterjedt modellel, az úgynevezett standard lineáris modellel kezdjük. A standard lineáris modellnek a feltételei első ránézésre kissé bonyolultak, ezért mielőtt ezekre rátérnénk, nézzünk inkább egy kellemes történetet!

Egy városban a naponta elhalálozottak száma és különböző meteorológiai hatások közötti összefüggést szeretnénk földeríteni, ezért 12 napon vizsgáljuk a hőmérsékletet, a levegőminőséget, valamint, hogy érkezik-e front.

A 12 nap adatait tartalmazza az X mátrix.

Az első oszlop a szokásos egyesekből áll, aztán jön a hőmérséklet.

A következő oszlop az átlagos levegőminőség (a megengedett határérték %-ában),

az utolsó oszlop pedig egy dummy változó,  ha van front,  , ha nincs.

Végül az  vektor az adott napok halálozási adatait tartalmazza.

A 12 megfigyelt napot választhattuk volna véletlenszerűen, például úgy, hogy 12 egymás utáni napot vizsgálunk. Ebben az esetben a magyarázó változók értékei valószínűségi változók, vagyis nem tőlünk függnek az értékeik. Most azonban ezek előre beállított értékek, vagyis direkt ezeket a napokat választottuk.

Nos ez volna a standard lineáris modell első követelménye, vagyis az, hogy a magyarázó változó értékei nem valószínűségi változók.

STANDARD LINEÁRIS MODELL FELTÉTELEI:

I.    A magyarázó változók nem valószínűségi változók.

II.   A magyarázó változók lineárisan független

      rendszert alkotnak.

III. Az eredményváltozó közel lineáris függvénye a

      magyarázó változóknak.

IV.  Az  hibatag feltételes eloszlása normális, várható    

      értéke nulla.

V.   Az  hibatag különböző x-ekhez tartozó értékei 

      korrelálatlanok.

Most számítsuk ki a lineáris

regresszió paramétereit:

Elsőként kiszámítjuk az  

mátrixot, amire majd még később

is nagy szükségünk lesz.

Mátrixok inverzét nem különösebben

kellemes dolog kiszámolni, ezért leg-

okosabb, ha ezt a számítógépre bízzuk.

Ahhoz, hogy ez az inverz mátrix létezzen teljesülnie kell annak a technikai követelménynek, hogy az eredeti X mátrix oszlopai, vagyis a magyarázó változók lineárisan független rendszert alkossanak. Nos akinek mond ez valamit, az örüljön neki, akinek nem, annak úgyis mindegy, a feladatok megoldásához nem fog kelleni.

Ha tehát létezik ez a bizonyos  mátrix, akkor a lineáris regresszió

 paraméterei szépen egymás után a vektorban állnak elő:

Ez úgy értendő, hogy      és

Ha y a magyarázó változók lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami

Ez a harmadik követelmény a standard lineáris modellben.

Ebbe az imént kapott értékeket írva

A paraméterek jelentése a szokásos:

 Ez most – mint általában – csak technikai paraméter.

 Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az átlagosan 0,0527-el csökkenti a napi halálozást.

  Ez a magyarázó változó a légszennyezettséget írta le, vagyis az derült ki, hogy 1%pontos növekedés 0,1559-el növeli a halálozások számát.

  Ez egy úgynevezett dummy változó volt, ami 1, ha van front és 0, ha nincs. A 3,6783 azt jelenti, hogy front esetén átlagosan ennyivel többen haláloznak el.

A standard lineáris modell két további feltétele az  hibataggal kapcsolatos. Ezekről a feltételekről azt érdemes tudni, hogy általában teljesülnek, vagy legalábbis hazudhatjuk róluk, hogy teljesülnek (jó közelítéssel teljesülnek).

Most, hogy áttekintettük a standard lineáris modell öt követelményét, térjünk rá a modellel kapcsolatos vizsgálatokra.

Legérdekesebb vizsgálataink a hipotézisvizsgálat eszközeit felhasználva azok lesznek, amikor megvizsgáljuk, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.

Vagyis például a hőmérséklet egy fokos változása csak 0,0527-el változtat a napi halálozási számon, így fölmerül a gyanú, hogy ezt a változót fölöslegesen vizsgáljuk, vagyis nincs számottevő hatása. Kezdetben ugyan logikusnak tűnt a hőmérséklet, mint magyarázó változó használata, hiszen az extrém meleg időben valóban megugrik a halálozás, de más időszakokban megeshet, hogy a hőmérséklet nincs hatással a halálozásra. A helyzet tisztázására használjuk majd a hipotézisvizsgálat eszközeit. Mielőtt azonban erre rátérnénk, előbb a becslésekkel kell foglalkoznunk.

1. Becslések a standard lineáris modellben

A regresszió paramétereinek illetve magának a regressziónak az intervallumbecslése hasonló a korábbi intervallumbecslésekhez. Ahhoz, hogy ennek lényegét megértsük, elég, belegondolnunk abba, hogy a regresszió alapján, ha például

12 fokos az átlaghőmérséklet,            

50%-os a légszennyezettség,              

nincs front,                                        

akkor éppen 40,64-en haláloznak el.    

Könnyen elképzelhető azonban egy olyan nap, amikor szintén ugyanilyen körülmények vannak, de sajnálatos módon 42 haláleset történik. Vagyis a 40,64 nem azt jelenti, hogy márpedig minden nap, amikor ugyanezek a körülmények vannak pontosan 40,64-en haláloznak el, hanem azt, hogy várhatóan ezen érték körül ingadozik majd a halálesetek száma. A tényleges érték tehát egy sávban helyezkedik el a regresszió körül, amit konfidencia sávnak nevezünk.

Ennek a sávnak a meghatározásához először maguknak a paramétereknek az intervallumbecslését csináljuk meg, amihez szükségünk van standard hibára. Ezt a már korábbról ismert reziduális szórás segítségével fogjuk megkapni.

Most azonban a torzítatlanság érdekében az úgynevezett korrigált reziduális szórásra van szükségünk, ami

Itt  a regresszió által szolgáltatott és a tényleges y értékek különbsége, vagyis

Az i-edik paraméter becslésének standard hibája

ahol = az A mátrix i-edik sor j-edik elemét jelenti.

Nézzük meg az

Paraméterek becslése

Regresszió becslése

n=megfigyelések száma

k=paraméterek száma

paramétereinek becsléseit.

A becslésnél t-eloszlást használunk, aminek szabadságfoka

v=n-k-1, tehát jelenleg v=12-3-1=8, a konfidencia szint

pedig általánosan .

Az paraméterek becslései egyenként

Magának a regressziónak a becslése pedig

A becslés tehát függ az X mátrixtól, vagyis a konfidencia sáv nem egyforma széles. Azon pontok környékén, amelyek alapján a regressziót felírtuk, a konfidencia sáv keskenyebb, itt kisebb a hiba, távolabbi pontok esetében viszont a hiba egyre nagyobb.

Konkrét konfidenciaszinthez tartozó konkrét becsléseket most nem csinálunk, ezzel majd a feladatokban fogunk foglalkozni. Most pedig térjünk rá a regresszióval kapcsolatos hipotézisek vizsgálatára.

2. Paraméterek szeparált tesztelése

Elsőként a paraméterek tesztelését végezzük el a hipotézisvizsgálat segítségével. Vagyis azt fogjuk vizsgálni, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.

A lineáris regresszió egyenlete

A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a :  feltevést,

ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a  paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy  vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van.

A próbafüggvény, amit használunk a t-eloszlás lesz,

   ahol      = az A mátrix i-edik sor j-edik eleme

KÉTOLDALI KRITIKUS TARTOMÁNY

:

:

BAL OLDA LI KRITIKUS ÉRTÉK:

JOBB OLDALI KRITIKUS ÉRTÉK:

A regresszió egyenlete  

A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk a hőmérsékletért felelős  lesz, aztán jön a levegőminőségért felelős  végül a fronthatásról szóló .

:   :  a szignifikanciaszint legyen  a szabadságfok továbbra is v=n-k-1=12-3-1=8 tehát a kritikus értékek

BAL OLDALI KRITIKUS ÉRTÉK:                       JOBB OLDALI KRITIKUS ÉRTÉK:

Az elfogadási tartomány tehát

A próbafüggvény értékek az egyes paraméterekre:

A három paraméterből -nél és -nál a próbafüggvény az elfogadási tartományba esik, ami azt jelenti, hogy elfogadjuk a :  nullhipotézist.

Ez annyit jelent, hogy 10%-os szignifikanciaszinten az 1-es és a 3-as magyarázó változók szerepeltetése a modellben fölösleges, az eredményváltozóra kifejtett hatásuk szignifikánsan nulla.

A halálozás tehát szignifikánsan csak a 2-es változótól, vagyis a levegőminőségtől függ – legalábbis a megfigyeléseink alapján. A másik két magyarázó változó szerepeltetése fölösleges.

3. Modell egészének tesztelése

A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót.

Ehhez a :  nullhipotézist vizsgáljuk a :  ellenében.

A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani.

Ha még emlékszünk a hipotézisvizsgálat különböző próbáira, az ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni.

A próbafüggvény

A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:

JOBB OLDALI KRITIKUS ÉRTÉK:

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

Hiba

Teljes

             SST=SSR+SSE

Kiszámolunk kettőt.

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

SSR=229,67

k=3

Hiba

SSE=184

n-3-1=8

Teljes

SST=413,67

n-1=11

A szignifikanciaszint legyen , a két szabadságfok pedig  és , így az

F-eloszlás eloszlástáblázatából a kritikus érték

A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a

:  nullhipotézist teljesül, ami azt jelenti, hogy az egész modell rossz, az általunk választott magyarázó változók – legalábbis a megfigyeléseink alapján – nem magyarázzák kielégítően az eredményváltozót.

Annak oka, hogy miért is rossz a modell, többféle lehet. Gyakori probléma a magyarázó változók nem megfelelő kiválasztása, de magukban a megfigyelésekben is adódhatnak hibák. Mielőtt ezekre a problémákra és kiküszöbölésükre rátérnénk, nézzünk meg egy példát, ahol az eddigieket összefoglaljuk.

Az regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától.

Ehhez először elkészítjük a regresszió paramétereinek becslését, lineáris regresszió

esetén  tehát a , , stb. paraméterek kellenek.

Amint a paraméterek megvannak, fölírjuk magának a regressziónak az egyenletét. A kérdés az, hogy vajon jól specifikáltuk-e modellünket, helyesen válogattuk-e meg a magyarázó változókat és azok valóban meggyőző erővel képesek-e magyarázni az eredményváltozót.

Nos ezen kínzó kételyek eloszlatására használjuk a modell-elemzés különböző eszközeit.

Megvizsgáljuk a reziduumokat, ezek alapján kiszámoljuk a reziduális szórást és az R determinációs együtthatót, ami az első információkat szolgáltatja a modell magyarázó erejéről.

Ezek után a hipotézisvizsgálat eszközeivel tudunk tesztelni minden egyes magyarázó változót, hogy kiderüljön, melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.

Végül globális F-próbával az egész modellt is teszteljük.

Amennyiben modellünk kiállta a próbákat, érdemes megvizsgálni a korrelációs mátrixot illetve a parciális korrelációs együtthatókat is.

Nézzünk meg ehhez egy konkrét példát.

Ha az ember többet eszik, mint amennyi energiát utána elhasznál, sajnálatos módon hízásnak indul. Ennek a kis kellemetlenségnek a számszerűsítésére egy kísérletet végeztek 12 azonos testtömegű résztvevővel. Az egy hónapig tartó kísérletben a plusz kilókat vizsgálták, ez az eredményváltozó, a magyarázó változók pedig a naponta bevitt energia, a napi intenzív mozgás és egy dummy változó, ami 0, ha az illető genetikailag hízásra nem hajlamos és 1, ha igen.

A kísérlet adatait tartalmazza az X mátrix, az első oszlop a szokásos egyesek,

utána a bevitt napi energiamennyiség, aztán a napi mozgás, végül a hízásra való hajlam.

Az  vektor az egy hónap alatt bekövetkező testtömeg változást tartalmazza.

Először kiszámítjuk a lineáris regresszió paramétereit:

Ehhez szükségünk van  az  mátrixra.

Mátrixok inverzét nem különösebben kellemes dolog kiszámolni, ezért legokosabb, ha ezt a számítógépre bízzuk.

 paraméterei szépen egymás után a vektorban állnak elő:

Ez úgy értendő, hogy      és

A lineáris regresszió

alakú, amibe az imént kapott paramétereket helyettesítve

A paraméterek jelentése a szokásos:

 Ez most – mint általában – csak technikai paraméter.

   Az 1-es magyarázó változó a napi energia bevitel volt, tehát ez azt jelenti, hogy ha egy kalóriával nagyobb a napi energia bevitel, az a hónap végén 0,0036 kg-al növeli a testtömeget.

 Ez a magyarázó változó a napi mozgást írta le, vagyis az derült ki, hogy naponta egy perccel több mozgás a hónap végén 0,0725 kg-al kevesebbet jelent.

  Ez egy úgynevezett dummy változó volt, ami 1, ha az illető hízásra hajlamos, és 0, ha nem. Pusztán a hízásra való hajlam egy hónap alatt 0,8044 kg többletet eredményez.

Ez az együtthatók parciális értelmezése, ami azt jelenti, hogy egy magyarázó változó hogyan hat az eredményváltozó alakulására, ha az összes többi magyarázó változót változatlanul hagyjuk.

Most térjünk rá a modell elemzésére. Elsőként kiszámoljuk a modell által szolgáltatott

értékeket.

Ebből pedig a reziduumokat és SSE-t.

A különböző négyzetösszegek között az alábbi összefüggés van:

 SST=SSE+SSR

Nekünk SSE már megvan, de még valamelyiket ki kell számolni.

Számoljuk ki mondjuk SST-t.

Ekkor a determinációs együttható

Ami azt jelenti, hogy a modell magyarázó ereje 68,5%-os, ami nem rossz.

A reziduumokból kiszámoljuk a reziduális szórást:

Most térjünk rá a becslésekre. Először a regresszió paramétereinek aztán magának a regressziónak az intervallumbecslését készítjük el.

Paraméterek becslése

Regresszió becslése

n=megfigyelések száma

k=paraméterek száma

A becslésnél t-eloszlást használunk, aminek szabadságfoka

v=n-k-1, tehát jelenleg v=12-3-1=8, a konfidencia szint

pedig általánosan .

Az paraméterek becslései egyenként

Magának a regressziónak a becslése pedig

A becslés tehát függ az X mátrixtól, vagyis a konfidencia sáv nem egyforma széles. Azon pontok környékén, amelyek alapján a regressziót felírtuk, a konfidencia sáv keskenyebb, itt kisebb a hiba, távolabbi pontok esetében viszont a hiba egyre nagyobb.

Konkrét konfidenciaszinthez tartozó konkrét becsléseket most nem csinálunk, ezzel majd a feladatokban fogunk foglalkozni. Most pedig térjünk rá a regresszióval kapcsolatos hipotézisek vizsgálatára.

2. Paraméterek szeparált tesztelése

Elsőként a paraméterek tesztelését végezzük el a hipotézisvizsgálat segítségével. Vagyis azt fogjuk vizsgálni, hogy a magyarázó változók közül melyek azok, amik tényleg magyaráznak és melyek, amikről csak azt hittük, hogy fontosak, de valójában nem.

A lineáris regresszió egyenlete

A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a :  feltevést,

ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a  paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy  vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van.

A próbafüggvény, amit használunk a t-eloszlás lesz,

   ahol      = az A mátrix i-edik sor j-edik eleme

KÉTOLDALI KRITIKUS TARTOMÁNY

:

:

BAL OLDA LI KRITIKUS ÉRTÉK:

JOBB OLDALI KRITIKUS ÉRTÉK:

A regresszió egyenlete  

A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk a hőmérsékletért felelős  lesz, aztán jön a levegőminőségért felelős  végül a fronthatásról szóló .

:   :  a szignifikanciaszint legyen  a szabadságfok továbbra is v=n-k-1=12-3-1=8 tehát a kritikus értékek

BAL OLDALI KRITIKUS ÉRTÉK:                       JOBB OLDALI KRITIKUS ÉRTÉK:

Az elfogadási tartomány tehát

A próbafüggvény értékek az egyes paraméterekre:

A három paraméterből a próbafüggvény egyiknél sem esik az elfogadási tartományba, vagyis mindhárom esetben elvetjük a :  nullhipotézist.

Ez annyit jelent, hogy 10%-os szignifikanciaszinten egyik magyarázó változó szerepe sem szignifikánsan nulla, az y eredményváltozó magyarázásához szükség van rájuk.

3. Modell egészének tesztelése

A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót.

Ehhez a :  nullhipotézist vizsgáljuk a :  ellenében.

A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani.

Ha még emlékszünk a hipotézisvizsgálat különböző próbáira, az ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni.

A próbafüggvény

A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:

JOBB OLDALI KRITIKUS ÉRTÉK:

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

Hiba

Teljes

Korábban már kiszámoltuk, hogy SSE=3,85 és SST=12,25 így SSR=12,25-3,85=8,4

A szignifikanciaszint legyen , a két szabadságfok pedig  és , így az

F-eloszlás eloszlástáblázatából a kritikus érték

A próbafüggvény-érték tehát az kritikus tartományba esik, vagyis a

:  nullhipotézist elvetjük, ami azt jelenti, hogy az egész modellt globálisan vizsgálva is arra jutottunk, hogy minden magyarázó változóra szükség van, a modell jó.

Végül, ha már ilyen jó a modell, számoljuk ki a változók közti kapcsolat szorosságát leíró korrelációs mátrixot.

Itt  az  és az  magyarázó változó közti korrelációt írja le, tehát például  az  és az  közti korrelációt jelenti.

pedig az  magyarázó változó és az y eredményváltozó közti kapcsolatot jelenti.

Mivel  a korreláció-mátrix szimmetrikus. Az áttekinthetőbb felírás kedvéért a felső háromszöget, ami tehát tökugyanaz, mint az alsó, el is szokták hagyni.

A korrelációs mátrixhoz a három magyarázó változó és az egy eredményváltozó összes lehetséges korrelációját ki kell számolnunk. Ezt általában számítógépes programok számolják, mi csupán a hecc kedvéért kezdjük el kiszámolgatni a korrelációs mátrix elemeit.

A jelek szerint hat darab ilyen korrelációt kell kiszámolnunk.

Nézzük például mennyi .

A korreláció képlete

Tehát most

Hasonló izgalmakat jelent a többi értéket kiszámolása is. Így kapjuk, a korrelációs mátrixot

A kapott korrelációs mátrix tehát tetszőlegesen kiválasztott két változó közti kapcsolat szorosságát méri.

Vagyis például  ami azt jelenti, hogy ilyen szoros a kapcsolat a bevitt energia és az egy hónap után mutatkozó többletkilók között.

Ez azonban nem a tiszta kapcsolatot írja le, hanem benne van a többi magyarázó változó esetleges zavaró hatása is.

Ha tisztán a kalóriák és a testtömeg növekedése közötti kapcsolatra van szükségünk, akkor ki kell számolni a parciális korrelációs együtthatókat is.

Az  parciális korrelációs együttható azt adja meg, hogy milyen szoros kapcsolat van az y eredményváltozó és a j-edik magyarázó változó között, ha a többi magyarázó változó hatását kiszűrjük.

    ahol   

Elő kell állítani tehát a korrelációs mátrix inverzét.

Visszatérve hízás-kalória kérdésre:

Ami azt jelenti, hogy a többi változó hatásától megtisztított korreláció 0,5536 helyett jóval nagyobb, 0,826.

Még szembeötlőbb az eredeti korrelációs mátrix értéke, ami pozitív korrelációt mutat a testmozgás és a hízás között. Ez nyilvánvalóan nem lehet.

Ha kiszámoljuk a többi hatástól megtisztított parciális korrelációt:

Ami már hihető, vagyis a tényleges kapcsolat a hízás és a testmozgás közt negatív:

több mozgás=kevesebb hízás.

Ezzel a példánkkal lényegében áttekintettük a regressziószámítást, már csak néhány apróság maradt.


KORRELÁCIÓS MÁTRIX, PARCIÁLIS KORRELÁCIÓ

STANDARD LINEÁRIS MODELL

TÖBBVÁLTOZÓS KORRELÁCIÓS MODELL ÖSSZEFOGLALÁSA

MULTIKOLLINEARITÁS, AUTOKORRELÁCIÓ

Multikollinearitás, autokorreláció, heteroszkedaszticitás

A lineáris regressziónak néhány kellemetlen tulajdonságát kell már csak megnéznünk. Ezek egytől egyig olyan bosszantó problémák, amik magát a regressziót és az abból való következtetéseket elrontják.

Az első ilyen kellemetlenség a multikollinearitás, ami röviden összefoglalva azt jelenti, hogy két vagy több magyarázó változó között túl szoros korrelációs kapcsolat van, és ez zavarja a becslést.

A legtöbb lineáris regressziónál nem teljesül, hogy a magyarázó változók korrelálatlanok. Kis mértékű korreláció kis mértékben zavarja a regressziót, a túl erős korreláció viszont az egész modellt használhatatlanná teheti.

Egy másik kellemetlen probléma a jellemzően idősoroknál fellépő autokorreláció. Ez a regresszió maradéktagjának a saját későbbi értékeivel való korrelációját jelenti, vagyis egyfajta szabályszerűséget a maradékváltozóban. Ideális esetben maradéktagnak véletlenszerűnek kell lennie, bármiféle szabályszerűségért a magyarázó változók felelnek a regresszióban.

A felsorolt problémák bemutatására nézzünk meg egy különösen szerencsétlenül megalkotott regressziót. Vizsgáljuk meg, hogyan függ egy tóparti strand forgalma két magyarázó változótól, a napi átlaghőmérséklettől és a víz napi hőmérsékletétől. A regressziót 12 nap adatai alapján készítjük el, aminek fele csütörtök másik fele vasárnap. Az első vizsgált nap csütörtök, a második ugyanazon hét vasárnapja, aztán a következő megint csütörtök, utána megint vasárnap és így tovább.

A modellben a multikollinearitás és az autokorreláció is megtalálható.

A multikollinearitás azért jelentkezik, mert a két magyarázó változó egymással szorosan összefügg. Külön-külön a víz hőmérséklete is hatással van a strand forgalmára, meg a napi átlaghőmérséklet is, de mivel ezek egymással igen szorosan összefüggnek, mindkettő szerepeltetése a regressziós modellt használhatatlanná teszi.

Az autokorreláció is jelen lesz a modellben, mert bármilyen idő van, vasárnaponként mindig többen vannak a strandon, mint csütörtökön. Mivel pedig nem szerepeltetünk olyan változót, ami azért felel, hogy hétvége van-e vagy sem, ez a maradéktagban fog megjelenni. Felváltva vizsgálunk csütörtököket és vasárnapokat, tehát a maradéktag felváltva lesz kicsi és nagy, ami erős autokorrelációt jelent.

Végül szintén a maradéktaggal kapcsolatos probléma az úgynevezett heteroszkedasz-ticitás, ami azt jelenti, hogy a maradékváltozó varianciája nem állandó, hanem függ az x értékektől. A heteroszkedaszticitás zavarja a regresszióval kapcsolatos becsléseket, így jobban szeretjük, ha a maradéktag állandó varianciájú vagyis homoszkedasztikus. Ennek vizsgálatával most nem foglalkozunk, inkább lássuk a modellt!

A 12 nap adatait tartalmazza az X mátrix, az első oszlop a szokásos egyesek,

utána a napi középhőmérséklet és a víz hőmérséklete.

Az  vektor strand napi forgalmát tartalmazza.

A lineáris regresszió paramétereit a

képlet alapján számoljuk, amit ezúttal már nem részletezünk,  paraméterei szépen egymás után a vektorban állnak elő:

Ez úgy értendő, hogy      

A lineáris regresszió

alakú, amibe az imént kapott paramétereket helyettesítve

A paraméterek parciális értelmezésénél érhető tetten a multikollinearitás káros hatása.

  Ez most – mint általában – csak technikai paraméter.

    Azt jelenti, hogy minden egy fokos hőmérsékletemelkedés 118,2 emberrel növeli a strand forgalmát.

   Ez pedig azt jelenti, hogy a tó vizének minden egy fokos hőmérséklet-emelkedése 26,2 emberrel csökkenti a forgalmat.

Ez az utóbbi megállapítás meglehetősen gyanús, a tó vizének melegedésével ugyanis inkább több lesz a vendég, nem pedig kevesebb. Feltéve, hogy nem 50 fokos a víz.

Külön-külön mindkét magyarázó változó jól magyarázná a strandolók számát.

Ha melegebb van, akkor többen, ha hidegebb kevesebben strandolnak.

Ha melegebb a víz, többen, ha hidegebb kevesebben strandolnak.

Így viszont, hogy mindkét magyarázó változót egyszerre szerepeltettük a modellben, a köztük lévő szoros kapcsolat egymás magyarázó erejét kioltja. Mivel mindkettő ugyanazt magyarázza, nevezetesen, hogy jó időben többen strandolnak, a két magyarázó változó együttes jelenléte a regressziót elrontja, ezt nevezzük multikollinearitásnak.

A multikollinearitás mérésére az úgynevezett VIF (variance inflator factor) variancia növelő faktor van forgalomban.

A képletben szereplő  a j-edik magyarázó változó és az összes többi magyarázó változó közti determinációs együttható.

Kiszámolni úgy tudjuk, hogy egy olyan regressziós modellt készítünk, amiben  játssza az eredményváltozó szerepét, ami a többi magyarázó változótól függ.

A VIF mutatót úgy értelmezzük, hogy amikor minimális értékét az 1-et veszi föl, akkor nincs multikollinearitás, míg egyre nagyobb értékei az egyre nagyobb multikollinearitást jelentik. Ha 1 és 2 közé esik, akkor gyenge, ha 2 és 5 közé, akkor erős, ha 5-nél nagyobb, akkor nagyon erős a multikollinearitás.

Számoljuk ki például  értékét, vagyis nézzük meg, a 2-es magyarázó változó, a vízhőmérséklet esetében mennyire erős a multikollinearitás.

Ehhez elkészítjük azt a regressziós modellt, amiben a vízhőmérséklet az eredmény-változó, a többi pedig az őt magyarázó változó. Mivel most összesen két magyarázó volt, ez a bizonyos többi nem más, mint az 1-es változó, a napi középhőmérséklet.

A regresszió  alakú, a paramétereket kiszámolása a szokásos.

  és  

Mivel már rengeteg ilyet számoltunk, ezt most ne részletezzük,  és .

Az a regressziós modell, ahol a víz hőmérséklete játssza az eredményváltozó szerepét:

A modell determinációs együtthatója  ez lesz az a bizonyos .

A multikollinearitás tehát erős, a két magyarázó változó együttes szerepeltetése a regresszió szempontjából káros. Mivel mindkét magyarázó változó ugyanazt mondja, vagyis, hogy jó időben többen strandolnak, a kettő közül az egyiket mellőzve sokkal jobb regressziós modellt kapunk.

Tartsuk meg az 1-es számú magyarázó változót, a napi középhőmérsékletet. Modellünk ekkor egyetlen magyarázó változót tartalmaz, a regresszió egyenlete

Itt az  értékek a strand forgalmának becsült értékei, vagyis, hogy miképpen alakul a forgalom a napi középhőmérséklet, mint magyarázó változó függvényében.

Nézzük meg, hogy a regresszió által szolgáltatott vajon mennyire térnek el

a tényleges y-októl.

A maradéktagban felváltva követik egymást a negatív és pozitív értékek, vagyis igen erős szabályszerűséget mutat. Ennek oka elég egyértelmű, éspedig az, hogy felváltva vizsgáltunk csütörtököket és vasárnapokat. Mivel csütörtökön kevesebben érnek rá strandolni, ilyenkor mindig kisebb vendégszámok lesznek függetlenül az időjárástól.

A magyarázó változónk csak az időjárással foglalkozik, ezért ezt a nem időjárásból adódó ingadozást a maradéktag kénytelen leírni.

Ideális esetben a maradéktag csak a véletlentől függhet, nem tartalmazhat semmilyen törvényszerűséget. Ha mégis ezt teszi, azt autokorrelációnak nevezzük. A jelek szerint tehát igen erős autokorrelációval van dolgunk.

Az autokorreláció tesztelésére a Durbin-Wattson-tesztet fogjuk használni. A teszt lényegében egy hipotézisvizsgálat, aminek részletezésére most nem térünk ki, mindössze a használatát nézzük meg.

Maga a próbafüggvény

A szignifikanciaszint , a próba elvégzése pedig az alábbi módon történik:

 és  értékeket kikeressük a táblázatból,

n=a megfigyelések száma,

k=a magyarázó változók száma

végül megnézzük a próbafüggvény melyik tartományba esik.

pozitív

autokorreláció

?

nincs autokorreláció

?

negatív

autokorreláció

0                                              2                   4-      4-                       4

Lássuk mit ad ez a teszt a jelenlegi helyzetben. A szignifikanciaszint legyen 5%-os. A megfigyelések száma n=12, a magyarázó változók száma k=1, a Durbin-Watson táblázatból kikeressük a  és  értékeket.

pozitív

autokorreláció

?

nincs autokorreláció

?

negatív

autokorreláció

0                 =0,8    =1,05               2           4- =2,95  4- =3,2                   4

Lássuk hova esik a d-próba értéke!

Ez éppen a senki földjére esik, vagyis nem jelenthetjük ki sem azt, hogy nincs, sem pedig azt, hogy van autokorreláció. Mivel azonban nagyon közel esik a kritikus értékhez, feltételezhetjük a negatív autokorreláció jelenlétét.

9.1. Néhány ország középfokú iskolai képzésének egy diákra jutó oktatási ráfordítása illetve az éves egy főre jutó GDP adatai láthatók az alábbi táblázatban. Adjuk meg a lineáris regressziós modellt, a reziduális szórást, határozzuk meg a modell magyarázó erejét.

ország

x

GDP/fő

(EUR)

y

Oktatási ráfordítás

(Középfokú képzés diák/EUR)

Ausztria               AT 

28 978

76 900

Belgium               BE

30 349

61 000

Csehország          CZ

15 216

33 800

Franciaország       FR

26 656

57 600

Görögország         GR

17 941

59 200

Hollandia              NL

28 669

61 500

Lengyelország       PL

10 135

30 700

Magyarország       HU

13 767

33 000

Németország        DE

28 232

65 300

Svájc                   CH

31 987

60 400

A lineáris regresszió

    ahol     és  

Elsőként kiszámoljuk az átlagokat.

Aztán a négyzetes eltéréseket.

A lineáris regressziós modell együtthatói

  és 

A regressziós egyenes tehát

Itt azt jelenti, hogy egy eurós növekedés az egy főre jutó éves GDP-ben

A korrelációs együttható

1,7 eurós növekedést eredményez az egy főre jutó oktatási ráfordításban (nem egy évben, hanem a teljes tanulmánya során).

 most csupán technikai paraméter, elméletileg azt jelenti, hogy ha az egy főre jutó GDP nulla, akkor 14 512 eurót költenek hallgatónként oktatásra, de ez valahogy  Etiópiában vagy Szomáliában ahol az egy főre jutóm GDP lényegében valóban nulla, nem így van.

Ennek jelentése az, hogy az x magyarázó változó és az y eredményváltozó között elég erős pozitív lineáris kapcsolat van. A korrelációs együttható négyzete pedig  ami azt jelenti, hogy a modell magyarázó ereje egész magas, 75%-os. Az x magyarázó változó 75%-ban felel az y eredményváltozó alakulásáért.

Számoljuk ki a lineáris regresszió hibáját, a reziduális szórást. Ehhez az SSE eltérés-négyzetösszegre van szükségünk.

ország

x

GDP/fő

(EUR)

Oktatási ráfordítás

(Középfokú képzés diák/EUR)

tényleges

becsült

Ausztria               AT 

28 978

76 900

63 774,6

Belgium               BE

30 349

61 000

66 105,3

Csehország          CZ

15 216

33 800

40 379,2

Franciaország       FR

26 656

57 600

59 827,2

Görögország         GR

17 941

59 200

45 011,7

Hollandia              NL

28 669

61 500

63 249,3

Lengyelország       PL

10 135

30 700

31 741,5

Magyarország       HU

13 767

33 000

37 915,9

Németország        DE

28 232

65 300

62 506,4

Svájc                   CH

31 987

60 400

68 889,9

A reziduális szórás pedig

A teljes négyzetösszeg

AZ SST=SSR+SSE összefüggés alapján pedig

9.2. Egy strand forgalmának alakulása a napi középhőmérséklettől függően 12 megfigyelt nap alapján az alábbi volt:

nap

napi közép-

hőmérséklet

(°C)

forgalom

(fő)

1.

22

765

2.

23

1572

3.

18

510

4.

25

1967

5.

22

1142

6.

16

576

7.

24

986

8.

20

1216

9.

24

1267

10.

26

1686

11.

19

981

12.

20

1412

Adjuk meg a lineáris regresszió egyenletét, adjuk meg a korrelációs és a determinációs együtthatót és döntsük el, hogy a lineáris vagy a hatványkitevős regresszió illeszkedik-e jobban, ha ismeretes, hogy

A lineáris regresszió

    ahol     és  

Elsőként kiszámoljuk az átlagokat.

A lineáris regressziós modell együtthatói

  és 

A regressziós egyenes tehát

A korrelációs együttható

Ennek jelentése az, hogy az x magyarázó változó és

az y eredményváltozó között elég erős

pozitív lineáris kapcsolat van.

Számoljuk ki a lineáris regresszió hibáját, a reziduális szórást. Ehhez az SSE eltérés-négyzetösszegre van szükségünk.

nap

napi közép-

hőmérséklet

(°C)

forgalom

(fő)

lineáris

1.

22

765

1218,16

2.

23

1572

1326,11

3.

18

510

786,36

4.

25

1967

1542,01

5.

22

1142

1218,16

6.

16

576

570,46

7.

24

986

1434,06

8.

20

1216

1002,26

9.

24

1267

1434,06

10.

26

1686

1649,96

11.

19

981

894,31

12.

20

1412

1002,26

A reziduális szórás pedig

A teljes négyzetösszeg

A determinációs hányados

Ahhoz, hogy eldönthessük melyik modell illeszkedik jobban,

nézzük meg az SSE-t a hatványkitevős modellre is.

9.3. Az alábbi táblázat néhány ország egy főre jutó GDP-jét és a nők életkorát tartalmazza első házasságkötésük idején. Készítsünk lineáris regressziót, ahol a magyarázó változó az egy főre jutó GDP. Értelmezzük a modell paramétereit, készítsünk varianciaanalízis táblázatot, adjuk meg a modell magyarázó erejét!

ország

GDP/fő

(EUR)

Nők életkora

házasságkötéskor

Ausztria               AT 

28 978

26,6

Belgium               BE

30 349

29,8

Csehország          CZ

15 216

28,9

Franciaország       FR

26 656

31,6

Görögország         GR

17 941

26,9

Hollandia              NL

28 669

26,9

Lengyelország       PL

10 135

25,3

Magyarország       HU

13 767

29,7

Németország        DE

28 232

31

Svájc                   CH

31 987

29,4

A lineáris regresszió

és szükségünk van a  és a  paraméterekre.

  és

Elsőként kiszámoljuk az átlagokat.

és

Ha y a magyarázó változó lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami

Ez a harmadik követelmény a standard lineáris modellben.

Ebbe az imént kapott értékeket írva

A paraméterek jelentése:

     Ez most – mint általában – csak technikai paraméter.

  Ami azt jelenti, hogyha  1 EUR-val nagyobb az egy főre jutó GDP, az 0,0001 évvel tolja ki a nők első házasságkötésének dátumát. Ez tulajdonképpen 0,4 nap. Ha 100 EUR-val nagyobb az egy főre jutó GDP, az viszont már 40 napot jelent.

A modell vizsgálata varianciaanalízis segítségével a következő:

A nullhipotézis : , míg az ellenhipotézis : .

A próbafüggvény

A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:

JOBB OLDALI KRITIKUS ÉRTÉK:

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

Hiba

Teljes

             SST=SSR+SSE

Kiszámolunk kettőt.

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

SSR=5,49

k=1

Hiba

SSE=33,31

n-k-1=8

Teljes

SST=38,8

n-1=9

A szignifikanciaszint legyen , a két szabadságfok pedig  és , így az F-eloszlás eloszlástáblázatából a kritikus érték

A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a :  nullhipotézist teljesül, ami azt jelenti, hogy regressziós modell rossz, magyarázó ereje nem meggyőző.

Az két hipotézisvizsgálat eltérő eredményei úgy értendők, hogy a magyarázó változó hatása ugyan szignifikánsan nem nulla, de mégis az egész regressziós modell csak kis mértékben magyarázza, hogy a nők hány éves korukban mennek férjhez.

Ezt jól szemlélteti a modell magyarázó erejét kifejező úgynevezett determinációs együttható is

Ez mindössze 14%-os magyarázó erőt jelent.

9.4. Néhány ország adatai alapján vizsgáljuk meg az átlagos iskolázottsági szint és a születéskor várható élettartam közti kapcsolatot. Adjunk meg a lineáris és az exponenciális regressziós modellt, amiben magyarázó változó az átlagos iskolázottsági szint. Melyik modell illeszkedik jobban?

Átlagos

iskolázottsági szint

(év)

Születéskor

várható élettartam

(év)

1.

12,6

81,1

2.

12,4

78,5

3.

11,6

75,4

4.

10,4

74

5.

4,4

65,4

átlag

10,3

74,9

Íme a menü:

LINEÁRIS MODELL

HATVÁNYKITEVŐS MODELL

EXPONENCIÁLIS MODELL

Nekünk most a lineáris és az exponenciális regresszióra van szükségünk.

Az hozzávalók  aztán  no és persze

Számoljuk ki ezeket.

A lineáris regressziós modell együtthatói

  és 

A regressziós egyenes

Minden egyes iskolában töltött év átlagosan 1,7 évvel növeli a várható élettartamot. Ha az iskolában töltött évek száma nulla, a várható élettartam 57,4 év.

Az exponenciális regressziós modell együtthatói

   és   

   és   

   és   

A regresszió

Minden egyes iskolában töltött év átlagosan 1,023-szeresével növeli a várható élettartamot. Ha az iskolában töltött évek száma nulla, a várható élettartam 58,48 év.

Nézzük meg, melyik modell illeszkedik jobban!

Átlagos

iskolázottsági szint

(év)

Születéskor

várható élettartam

(év)

lineáris

regresszió

exponenciális

regresszió

1.

12,6

81,1

78,82

77,24

2.

12,4

78,5

78,48

76,89

3.

11,6

75,4

77,12

75,51

4.

10,4

74

75,08

73,47

5.

4,4

65,4

64,88

64,10

átlag

10,3

74,9

lineáris regresszió:

exponenciális regresszió:

A lineáris regresszió tehát lényegesen jobban illeszkedik.

9.5. Egy cégnél 30 alkalmazottat vizsgáltak meg, hogy miként magyarázza az életkor, illetve az, hogy az illető férfi-e vagy nő (férfi=0, nő=1) a fizetés nagyságát. A kapott regressziós modell a havi fizetés nagyságát ezer forintban adja meg, ahol  jelenti az életkort és  jelenti azt, hogy az illető férfi-e vagy nő.

Adjuk meg a modell paramétereinek jelentését. Szignifikánsnak tekinthető-e modell alapján az életkor, illetve a nem, az alkalmazott fizetése szempontjából 10%-os szignifikanciaszinten? Teszteljük a teljes modellt 10%-os szignifikanciaszint mellett.

A paraméterek parciális értelmezése:

      Ez most is – mint általában – csak technikai paraméter.

     Minden egyes év elteltével átlagosan 7,6 ezerrel nagyobb lesz az

                  alkalmazottak fizetése.

 Az a tény, hogy valaki nő, átlagosan 16,7 ezerrel csökkenti a fizetés

                  nagyságát.

Lássuk a paraméterek tesztelését! A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a :  feltevést,

ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a  paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy  vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van.

A próbafüggvény, amit használunk a t-eloszlás lesz,

KÉTOLDALI KRITIKUS TARTOMÁNY

:

:

BAL OLDA LI KRITIKUS ÉRTÉK:

JOBB OLDALI KRITIKUS ÉRTÉK:

A regresszió egyenlete  

A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk az életkor lesz, aztán jön  vagyis, hogy az illető férfi-e vagy nő.

:   :  a szignifikanciaszint  a szabadságfok v=n-k-1=30-2-1=27 tehát a kritikus értékek

BAL OLDALI KRITIKUS ÉRTÉK:                       JOBB OLDALI KRITIKUS ÉRTÉK:

Az elfogadási tartomány tehát

A próbafüggvény értékek az egyes paraméterekre:

A két paraméterből a próbafüggvény a másodiknál esik az elfogadási tartományba, így annál elfogadjuk a :  nullhipotézist.

Ez annyit jelent, hogy 10%-os szignifikanciaszinten a regressziós modellben csak az életkor szerepe szignifikánsan nem nulla.

Térjünk rá a modell egészének tesztelésére. A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót.

Ehhez a :  nullhipotézist vizsgáljuk a :  ellenében.

A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani.

Ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni.

A próbafüggvény

A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:

JOBB OLDALI KRITIKUS ÉRTÉK:

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

Hiba

Teljes

A szignifikanciaszint   , a két szabadságfok pedig  és , így az

F-eloszlás eloszlástáblázatából a kritikus érték

      ezekből  

A próbafüggvény-érték az elfogadási tartományba esik, vagyis a

:  nullhipotézist elfogadjuk, ami azt jelenti, hogy szignifikánsan minden magyarázó változó hatása nulla, az egész modellt globálisan vizsgálva az rossz.

9.6. Egy strand forgalmának modellezésére két magyarázó változót használunk, a napi középhőmérsékletet ( ) illetve azt, hogy hétvége van-e vagy sem ( =0 ha nincs hétvége és =1 ha igen). Egy 12 megfigyelés alapján készített modellről az alábbiakat tudjuk:

Adjuk meg a lineáris regressziós modell paramétereinek jelentését. Szignifikánsnak tekinthető-e modell alapján a napi középhőmérséklet a strand forgalmának szempontjából 10%-os szignifikanciaszinten? Adjuk meg a forgalom és a hőmérséklet kapcsolatát leíró parciális korrelációs együttható értékét. Adjuk meg a többszörös determinációs hányados értékét.

Lássuk mi mondható a paraméterekről.

     Ez most – mint általában – csak technikai paraméter.

    Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az önmagában 12,6 gombóccal növeli átlagosan a forgalmat.

     Ez egy úgynevezett dummy változó volt, ami 1, ha hétvége van és 0, ha nincs. A 18 tehát azt jelenti, hogy pusztán attól, hogy hétvége van, 18 emberrel több vendég van.

Lássuk a  paraméter tesztelését!

A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a :  feltevést,

ellenhipotézisnek pedig azt, hogy : .

A nullhipotézis azt állítja, hogy a modellben a  paraméter szignifikánsan nulla, vagyis felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy  vagyis a magyarázó változónak a regresszióban nem nulla hatása van.

A próbafüggvény, amit használunk a t-eloszlás lesz,

KÉTOLDALI KRITIKUS TARTOMÁNY

:

:

BAL OLDA LI KRITIKUS ÉRTÉK:

JOBB OLDALI KRITIKUS ÉRTÉK:

A szignifikanciaszint  a szabadságfok v=n-k-1=12-2-1=9 tehát a kritikus értékek

BAL OLDALI KRITIKUS ÉRTÉK:                       JOBB OLDALI KRITIKUS ÉRTÉK:

Az elfogadási tartomány tehát

A próbafüggvény értékek az egyes paraméterekre:

A próbafüggvény a kritikus tartományba esik, vagyis elvetjük a :  nullhipotézist.

Ez annyit jelent, hogy 10%-os szignifikanciaszinten a regressziós modellben a hőmérsékletnek szignifikáns szerepe van.

Térjünk rá a korreláció vizsgálatára. A korreláció mátrix szimmetrikus, tehát a felső üres rész ugyanaz, mint az alsó, vagyis  vagy tehát ha például valaki egy képletben nem -t hanem -et lát, akkor semmi ok az aggodalomra, ezek ugyanazok.

A hőmérséklet és a forgalom közötti korrelációs együttható értéke  ebben azonban benne van a másik magyarázó változó hatása is. Ettől a hatástól megtisztítva lesz belőle parciális korrelációs együttható, amit azokban az esetekben, amikor a magyarázó változók száma kettő, így is számolhatunk:

A tényleges kapcsolat a hőmérséklet és a forgalom között tehát valamivel gyengébb, mint az  alapján feltételezett.

Végül lássuk a determinációs hányadost, ami a modell magyarázó erejét adja meg.

Ha a magyarázó változók száma kettő,


FELADAT 9. 1.

FELADAT 9. 2.

FELADAT 9. 3.

FELADAT 9. 4.

FELADAT 9. 5.

FELADAT 9. 6.