Statisztika 2 epizód tartalma:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.

A képsor tartalma

Multikollinearitás, autokorreláció, heteroszkedaszticitás

A lineáris regressziónak néhány kellemetlen tulajdonságát kell már csak megnéznünk. Ezek egytől egyig olyan bosszantó problémák, amik magát a regressziót és az abból való következtetéseket elrontják.

Az első ilyen kellemetlenség a multikollinearitás, ami röviden összefoglalva azt jelenti, hogy két vagy több magyarázó változó között túl szoros korrelációs kapcsolat van, és ez zavarja a becslést.

A legtöbb lineáris regressziónál nem teljesül, hogy a magyarázó változók korrelálatlanok. Kis mértékű korreláció kis mértékben zavarja a regressziót, a túl erős korreláció viszont az egész modellt használhatatlanná teheti.

Egy másik kellemetlen probléma a jellemzően idősoroknál fellépő autokorreláció. Ez a regresszió maradéktagjának a saját későbbi értékeivel való korrelációját jelenti, vagyis egyfajta szabályszerűséget a maradékváltozóban. Ideális esetben maradéktagnak véletlenszerűnek kell lennie, bármiféle szabályszerűségért a magyarázó változók felelnek a regresszióban.

A felsorolt problémák bemutatására nézzünk meg egy különösen szerencsétlenül megalkotott regressziót. Vizsgáljuk meg, hogyan függ egy tóparti strand forgalma két magyarázó változótól, a napi átlaghőmérséklettől és a víz napi hőmérsékletétől. A regressziót 12 nap adatai alapján készítjük el, aminek fele csütörtök másik fele vasárnap. Az első vizsgált nap csütörtök, a második ugyanazon hét vasárnapja, aztán a következő megint csütörtök, utána megint vasárnap és így tovább.

A modellben a multikollinearitás és az autokorreláció is megtalálható.

A multikollinearitás azért jelentkezik, mert a két magyarázó változó egymással szorosan összefügg. Külön-külön a víz hőmérséklete is hatással van a strand forgalmára, meg a napi átlaghőmérséklet is, de mivel ezek egymással igen szorosan összefüggnek, mindkettő szerepeltetése a regressziós modellt használhatatlanná teszi.

Az autokorreláció is jelen lesz a modellben, mert bármilyen idő van, vasárnaponként mindig többen vannak a strandon, mint csütörtökön. Mivel pedig nem szerepeltetünk olyan változót, ami azért felel, hogy hétvége van-e vagy sem, ez a maradéktagban fog megjelenni. Felváltva vizsgálunk csütörtököket és vasárnapokat, tehát a maradéktag felváltva lesz kicsi és nagy, ami erős autokorrelációt jelent.

Végül szintén a maradéktaggal kapcsolatos probléma az úgynevezett heteroszkedasz-ticitás, ami azt jelenti, hogy a maradékváltozó varianciája nem állandó, hanem függ az x értékektől. A heteroszkedaszticitás zavarja a regresszióval kapcsolatos becsléseket, így jobban szeretjük, ha a maradéktag állandó varianciájú vagyis homoszkedasztikus. Ennek vizsgálatával most nem foglalkozunk, inkább lássuk a modellt!

A 12 nap adatait tartalmazza az X mátrix, az első oszlop a szokásos egyesek,

utána a napi középhőmérséklet és a víz hőmérséklete.

Az vektor strand napi forgalmát tartalmazza.

A lineáris regresszió paramétereit a

képlet alapján számoljuk, amit ezúttal már nem részletezünk, paraméterei szépen egymás után a vektorban állnak elő:

Ez úgy értendő, hogy

A lineáris regresszió

alakú, amibe az imént kapott paramétereket helyettesítve

A paraméterek parciális értelmezésénél érhető tetten a multikollinearitás káros hatása.

Ez most – mint általában – csak technikai paraméter.

Azt jelenti, hogy minden egy fokos hőmérsékletemelkedés 118,2 emberrel növeli a strand forgalmát.

Ez pedig azt jelenti, hogy a tó vizének minden egy fokos hőmérséklet-emelkedése 26,2 emberrel csökkenti a forgalmat.

Ez az utóbbi megállapítás meglehetősen gyanús, a tó vizének melegedésével ugyanis inkább több lesz a vendég, nem pedig kevesebb. Feltéve, hogy nem 50 fokos a víz.

Külön-külön mindkét magyarázó változó jól magyarázná a strandolók számát.

Ha melegebb van, akkor többen, ha hidegebb kevesebben strandolnak.

Ha melegebb a víz, többen, ha hidegebb kevesebben strandolnak.

Így viszont, hogy mindkét magyarázó változót egyszerre szerepeltettük a modellben, a köztük lévő szoros kapcsolat egymás magyarázó erejét kioltja. Mivel mindkettő ugyanazt magyarázza, nevezetesen, hogy jó időben többen strandolnak, a két magyarázó változó együttes jelenléte a regressziót elrontja, ezt nevezzük multikollinearitásnak.

A multikollinearitás mérésére az úgynevezett VIF (variance inflator factor) variancia növelő faktor van forgalomban.

A képletben szereplő a j-edik magyarázó változó és az összes többi magyarázó változó közti determinációs együttható.

Kiszámolni úgy tudjuk, hogy egy olyan regressziós modellt készítünk, amiben játssza az eredményváltozó szerepét, ami a többi magyarázó változótól függ.

A VIF mutatót úgy értelmezzük, hogy amikor minimális értékét az 1-et veszi föl, akkor nincs multikollinearitás, míg egyre nagyobb értékei az egyre nagyobb multikollinearitást jelentik. Ha 1 és 2 közé esik, akkor gyenge, ha 2 és 5 közé, akkor erős, ha 5-nél nagyobb, akkor nagyon erős a multikollinearitás.

Számoljuk ki például értékét, vagyis nézzük meg, a 2-es magyarázó változó, a vízhőmérséklet esetében mennyire erős a multikollinearitás.

Ehhez elkészítjük azt a regressziós modellt, amiben a vízhőmérséklet az eredmény-változó, a többi pedig az őt magyarázó változó. Mivel most összesen két magyarázó volt, ez a bizonyos többi nem más, mint az 1-es változó, a napi középhőmérséklet.

A regresszió alakú, a paramétereket kiszámolása a szokásos.

és

Mivel már rengeteg ilyet számoltunk, ezt most ne részletezzük, és .

Az a regressziós modell, ahol a víz hőmérséklete játssza az eredményváltozó szerepét:

A modell determinációs együtthatója ez lesz az a bizonyos .

A multikollinearitás tehát erős, a két magyarázó változó együttes szerepeltetése a regresszió szempontjából káros. Mivel mindkét magyarázó változó ugyanazt mondja, vagyis, hogy jó időben többen strandolnak, a kettő közül az egyiket mellőzve sokkal jobb regressziós modellt kapunk.

Tartsuk meg az 1-es számú magyarázó változót, a napi középhőmérsékletet. Modellünk ekkor egyetlen magyarázó változót tartalmaz, a regresszió egyenlete

Itt az értékek a strand forgalmának becsült értékei, vagyis, hogy miképpen alakul a forgalom a napi középhőmérséklet, mint magyarázó változó függvényében.

Nézzük meg, hogy a regresszió által szolgáltatott vajon mennyire térnek el

a tényleges y-októl.

A maradéktagban felváltva követik egymást a negatív és pozitív értékek, vagyis igen erős szabályszerűséget mutat. Ennek oka elég egyértelmű, éspedig az, hogy felváltva vizsgáltunk csütörtököket és vasárnapokat. Mivel csütörtökön kevesebben érnek rá strandolni, ilyenkor mindig kisebb vendégszámok lesznek függetlenül az időjárástól.

A magyarázó változónk csak az időjárással foglalkozik, ezért ezt a nem időjárásból adódó ingadozást a maradéktag kénytelen leírni.

Ideális esetben a maradéktag csak a véletlentől függhet, nem tartalmazhat semmilyen törvényszerűséget. Ha mégis ezt teszi, azt autokorrelációnak nevezzük. A jelek szerint tehát igen erős autokorrelációval van dolgunk.

Az autokorreláció tesztelésére a Durbin-Wattson-tesztet fogjuk használni. A teszt lényegében egy hipotézisvizsgálat, aminek részletezésére most nem térünk ki, mindössze a használatát nézzük meg.

Maga a próbafüggvény

A szignifikanciaszint , a próba elvégzése pedig az alábbi módon történik:

és értékeket kikeressük a táblázatból,

n=a megfigyelések száma,

k=a magyarázó változók száma

végül megnézzük a próbafüggvény melyik tartományba esik.

pozitív

autokorreláció

?

nincs autokorreláció

?

negatív

autokorreláció

0 2 4- 4- 4

Lássuk mit ad ez a teszt a jelenlegi helyzetben. A szignifikanciaszint legyen 5%-os. A megfigyelések száma n=12, a magyarázó változók száma k=1, a Durbin-Watson táblázatból kikeressük a és értékeket.

pozitív

autokorreláció

?

nincs autokorreláció

?

negatív

autokorreláció

0 =0,8 =1,05 2 4- =2,95 4- =3,2 4

Lássuk hova esik a d-próba értéke!

Ez éppen a senki földjére esik, vagyis nem jelenthetjük ki sem azt, hogy nincs, sem pedig azt, hogy van autokorreláció. Mivel azonban nagyon közel esik a kritikus értékhez, feltételezhetjük a negatív autokorreláció jelenlétét.

9.1. Néhány ország középfokú iskolai képzésének egy diákra jutó oktatási ráfordítása illetve az éves egy főre jutó GDP adatai láthatók az alábbi táblázatban. Adjuk meg a lineáris regressziós modellt, a reziduális szórást, határozzuk meg a modell magyarázó erejét.

ország

x

GDP/fő

(EUR)

y

Oktatási ráfordítás

(Középfokú képzés diák/EUR)

Ausztria AT

28 978

76 900

Belgium BE

30 349

61 000

Csehország CZ

15 216

33 800

Franciaország FR

26 656

57 600

Görögország GR

17 941

59 200

Hollandia NL

28 669

61 500

Lengyelország PL

10 135

30 700

Magyarország HU

13 767

33 000

Németország DE

28 232

65 300

Svájc CH

31 987

60 400

A lineáris regresszió

ahol és

Elsőként kiszámoljuk az átlagokat.

Aztán a négyzetes eltéréseket.

A lineáris regressziós modell együtthatói

és

A regressziós egyenes tehát

Itt azt jelenti, hogy egy eurós növekedés az egy főre jutó éves GDP-ben

A korrelációs együttható

1,7 eurós növekedést eredményez az egy főre jutó oktatási ráfordításban (nem egy évben, hanem a teljes tanulmánya során).

most csupán technikai paraméter, elméletileg azt jelenti, hogy ha az egy főre jutó GDP nulla, akkor 14 512 eurót költenek hallgatónként oktatásra, de ez valahogy Etiópiában vagy Szomáliában ahol az egy főre jutóm GDP lényegében valóban nulla, nem így van.

Ennek jelentése az, hogy az x magyarázó változó és az y eredményváltozó között elég erős pozitív lineáris kapcsolat van. A korrelációs együttható négyzete pedig ami azt jelenti, hogy a modell magyarázó ereje egész magas, 75%-os. Az x magyarázó változó 75%-ban felel az y eredményváltozó alakulásáért.

Számoljuk ki a lineáris regresszió hibáját, a reziduális szórást. Ehhez az SSE eltérés-négyzetösszegre van szükségünk.

ország

x

GDP/fő

(EUR)

Oktatási ráfordítás

(Középfokú képzés diák/EUR)

tényleges

becsült

Ausztria AT

28 978

76 900

63 774,6

Belgium BE

30 349

61 000

66 105,3

Csehország CZ

15 216

33 800

40 379,2

Franciaország FR

26 656

57 600

59 827,2

Görögország GR

17 941

59 200

45 011,7

Hollandia NL

28 669

61 500

63 249,3

Lengyelország PL

10 135

30 700

31 741,5

Magyarország HU

13 767

33 000

37 915,9

Németország DE

28 232

65 300

62 506,4

Svájc CH

31 987

60 400

68 889,9

A reziduális szórás pedig

A teljes négyzetösszeg

AZ SST=SSR+SSE összefüggés alapján pedig

9.2. Egy strand forgalmának alakulása a napi középhőmérséklettől függően 12 megfigyelt nap alapján az alábbi volt:

nap

napi közép-

hőmérséklet

(°C)

forgalom

(fő)

1.

22

765

2.

23

1572

3.

18

510

4.

25

1967

5.

22

1142

6.

16

576

7.

24

986

8.

20

1216

9.

24

1267

10.

26

1686

11.

19

981

12.

20

1412

Adjuk meg a lineáris regresszió egyenletét, adjuk meg a korrelációs és a determinációs együtthatót és döntsük el, hogy a lineáris vagy a hatványkitevős regresszió illeszkedik-e jobban, ha ismeretes, hogy

A lineáris regresszió

ahol és

Elsőként kiszámoljuk az átlagokat.

A lineáris regressziós modell együtthatói

és

A regressziós egyenes tehát

A korrelációs együttható

Ennek jelentése az, hogy az x magyarázó változó és

az y eredményváltozó között elég erős

pozitív lineáris kapcsolat van.

Számoljuk ki a lineáris regresszió hibáját, a reziduális szórást. Ehhez az SSE eltérés-négyzetösszegre van szükségünk.

nap

napi közép-

hőmérséklet

(°C)

forgalom

(fő)

lineáris

1.

22

765

1218,16

2.

23

1572

1326,11

3.

18

510

786,36

4.

25

1967

1542,01

5.

22

1142

1218,16

6.

16

576

570,46

7.

24

986

1434,06

8.

20

1216

1002,26

9.

24

1267

1434,06

10.

26

1686

1649,96

11.

19

981

894,31

12.

20

1412

1002,26

A reziduális szórás pedig

A teljes négyzetösszeg

A determinációs hányados

Ahhoz, hogy eldönthessük melyik modell illeszkedik jobban,

nézzük meg az SSE-t a hatványkitevős modellre is.

9.3. Az alábbi táblázat néhány ország egy főre jutó GDP-jét és a nők életkorát tartalmazza első házasságkötésük idején. Készítsünk lineáris regressziót, ahol a magyarázó változó az egy főre jutó GDP. Értelmezzük a modell paramétereit, készítsünk varianciaanalízis táblázatot, adjuk meg a modell magyarázó erejét!

ország

GDP/fő

(EUR)

Nők életkora

házasságkötéskor

Ausztria AT

28 978

26,6

Belgium BE

30 349

29,8

Csehország CZ

15 216

28,9

Franciaország FR

26 656

31,6

Görögország GR

17 941

26,9

Hollandia NL

28 669

26,9

Lengyelország PL

10 135

25,3

Magyarország HU

13 767

29,7

Németország DE

28 232

31

Svájc CH

31 987

29,4

A lineáris regresszió

és szükségünk van a és a paraméterekre.

és

Elsőként kiszámoljuk az átlagokat.

és

Ha y a magyarázó változó lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami

Ez a harmadik követelmény a standard lineáris modellben.

Ebbe az imént kapott értékeket írva

A paraméterek jelentése:

Ez most – mint általában – csak technikai paraméter.

Ami azt jelenti, hogyha 1 EUR-val nagyobb az egy főre jutó GDP, az 0,0001 évvel tolja ki a nők első házasságkötésének dátumát. Ez tulajdonképpen 0,4 nap. Ha 100 EUR-val nagyobb az egy főre jutó GDP, az viszont már 40 napot jelent.

A modell vizsgálata varianciaanalízis segítségével a következő:

A nullhipotézis : , míg az ellenhipotézis : .

A próbafüggvény

A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:

JOBB OLDALI KRITIKUS ÉRTÉK:

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

Hiba

Teljes

SST=SSR+SSE

Kiszámolunk kettőt.

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

SSR=5,49

k=1

Hiba

SSE=33,31

n-k-1=8

Teljes

SST=38,8

n-1=9

A szignifikanciaszint legyen , a két szabadságfok pedig és , így az F-eloszlás eloszlástáblázatából a kritikus érték

A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a : nullhipotézist teljesül, ami azt jelenti, hogy regressziós modell rossz, magyarázó ereje nem meggyőző.

Az két hipotézisvizsgálat eltérő eredményei úgy értendők, hogy a magyarázó változó hatása ugyan szignifikánsan nem nulla, de mégis az egész regressziós modell csak kis mértékben magyarázza, hogy a nők hány éves korukban mennek férjhez.

Ezt jól szemlélteti a modell magyarázó erejét kifejező úgynevezett determinációs együttható is

Ez mindössze 14%-os magyarázó erőt jelent.

9.4. Néhány ország adatai alapján vizsgáljuk meg az átlagos iskolázottsági szint és a születéskor várható élettartam közti kapcsolatot. Adjunk meg a lineáris és az exponenciális regressziós modellt, amiben magyarázó változó az átlagos iskolázottsági szint. Melyik modell illeszkedik jobban?

Átlagos

iskolázottsági szint

(év)

Születéskor

várható élettartam

(év)

1.

12,6

81,1

2.

12,4

78,5

3.

11,6

75,4

4.

10,4

74

5.

4,4

65,4

átlag

10,3

74,9

Íme a menü:

LINEÁRIS MODELL

HATVÁNYKITEVŐS MODELL

EXPONENCIÁLIS MODELL

Nekünk most a lineáris és az exponenciális regresszióra van szükségünk.

Az hozzávalók aztán no és persze

Számoljuk ki ezeket.

A lineáris regressziós modell együtthatói

és

A regressziós egyenes

Minden egyes iskolában töltött év átlagosan 1,7 évvel növeli a várható élettartamot. Ha az iskolában töltött évek száma nulla, a várható élettartam 57,4 év.

Az exponenciális regressziós modell együtthatói

és

és

és

A regresszió

Minden egyes iskolában töltött év átlagosan 1,023-szeresével növeli a várható élettartamot. Ha az iskolában töltött évek száma nulla, a várható élettartam 58,48 év.

Nézzük meg, melyik modell illeszkedik jobban!

Átlagos

iskolázottsági szint

(év)

Születéskor

várható élettartam

(év)

lineáris

regresszió

exponenciális

regresszió

1.

12,6

81,1

78,82

77,24

2.

12,4

78,5

78,48

76,89

3.

11,6

75,4

77,12

75,51

4.

10,4

74

75,08

73,47

5.

4,4

65,4

64,88

64,10

átlag

10,3

74,9

lineáris regresszió:

exponenciális regresszió:

A lineáris regresszió tehát lényegesen jobban illeszkedik.

9.5. Egy cégnél 30 alkalmazottat vizsgáltak meg, hogy miként magyarázza az életkor, illetve az, hogy az illető férfi-e vagy nő (férfi=0, nő=1) a fizetés nagyságát. A kapott regressziós modell a havi fizetés nagyságát ezer forintban adja meg, ahol jelenti az életkort és jelenti azt, hogy az illető férfi-e vagy nő.

Adjuk meg a modell paramétereinek jelentését. Szignifikánsnak tekinthető-e modell alapján az életkor, illetve a nem, az alkalmazott fizetése szempontjából 10%-os szignifikanciaszinten? Teszteljük a teljes modellt 10%-os szignifikanciaszint mellett.

A paraméterek parciális értelmezése:

Ez most is – mint általában – csak technikai paraméter.

Minden egyes év elteltével átlagosan 7,6 ezerrel nagyobb lesz az

alkalmazottak fizetése.

Az a tény, hogy valaki nő, átlagosan 16,7 ezerrel csökkenti a fizetés

nagyságát.

Lássuk a paraméterek tesztelését! A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést,

ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis az i-edik magyarázó változó felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis az i-edik magyarázó változónak a regresszióban nem nulla hatása van.

A próbafüggvény, amit használunk a t-eloszlás lesz,

KÉTOLDALI KRITIKUS TARTOMÁNY

:

:

BAL OLDA LI KRITIKUS ÉRTÉK:

JOBB OLDALI KRITIKUS ÉRTÉK:

A regresszió egyenlete

A konstanst nem szokták tesztelni, így az első paraméter, amit megvizsgálunk az életkor lesz, aztán jön vagyis, hogy az illető férfi-e vagy nő.

: : a szignifikanciaszint a szabadságfok v=n-k-1=30-2-1=27 tehát a kritikus értékek

BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK:

Az elfogadási tartomány tehát

A próbafüggvény értékek az egyes paraméterekre:

A két paraméterből a próbafüggvény a másodiknál esik az elfogadási tartományba, így annál elfogadjuk a : nullhipotézist.

Ez annyit jelent, hogy 10%-os szignifikanciaszinten a regressziós modellben csak az életkor szerepe szignifikánsan nem nulla.

Térjünk rá a modell egészének tesztelésére. A magyarázó változók külön-külön tesztelése után most arra a kérdésre válaszolunk, hogy így összességükben képesek-e magyarázni az eredményváltozót.

Ehhez a : nullhipotézist vizsgáljuk a : ellenében.

A nullhipotézis azt jelenti, hogy az egész modell rossz, az ellenhipotézis pedig azt, hogy van legalább egy magyarázó változó, amit érdemes megtartani.

Ilyen esetekre az úgynevezett varianciaanalízis nevű eljárás van forgalomban és F-próbát használunk. Itt az egész modell tesztelésénél ezt globális F-próba néven szokás emlegetni.

A próbafüggvény

A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:

JOBB OLDALI KRITIKUS ÉRTÉK:

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

Hiba

Teljes

A szignifikanciaszint , a két szabadságfok pedig és , így az

F-eloszlás eloszlástáblázatából a kritikus érték

ezekből

A próbafüggvény-érték az elfogadási tartományba esik, vagyis a

: nullhipotézist elfogadjuk, ami azt jelenti, hogy szignifikánsan minden magyarázó változó hatása nulla, az egész modellt globálisan vizsgálva az rossz.

9.6. Egy strand forgalmának modellezésére két magyarázó változót használunk, a napi középhőmérsékletet ( ) illetve azt, hogy hétvége van-e vagy sem ( =0 ha nincs hétvége és =1 ha igen). Egy 12 megfigyelés alapján készített modellről az alábbiakat tudjuk:

Adjuk meg a lineáris regressziós modell paramétereinek jelentését. Szignifikánsnak tekinthető-e modell alapján a napi középhőmérséklet a strand forgalmának szempontjából 10%-os szignifikanciaszinten? Adjuk meg a forgalom és a hőmérséklet kapcsolatát leíró parciális korrelációs együttható értékét. Adjuk meg a többszörös determinációs hányados értékét.

Lássuk mi mondható a paraméterekről.

Ez most – mint általában – csak technikai paraméter.

Az 1-es magyarázó változó a hőmérséklet volt, tehát ez azt jelenti, hogy ha egy fokkal emelkedik a hőmérséklet az önmagában 12,6 gombóccal növeli átlagosan a forgalmat.

Ez egy úgynevezett dummy változó volt, ami 1, ha hétvége van és 0, ha nincs. A 18 tehát azt jelenti, hogy pusztán attól, hogy hétvége van, 18 emberrel több vendég van.

Lássuk a paraméter tesztelését!

A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést,

ellenhipotézisnek pedig azt, hogy : .

A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis felesleges, annak hatása az eredményváltozóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis a magyarázó változónak a regresszióban nem nulla hatása van.

A próbafüggvény, amit használunk a t-eloszlás lesz,

KÉTOLDALI KRITIKUS TARTOMÁNY

:

:

BAL OLDA LI KRITIKUS ÉRTÉK:

JOBB OLDALI KRITIKUS ÉRTÉK:

A szignifikanciaszint a szabadságfok v=n-k-1=12-2-1=9 tehát a kritikus értékek

BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK:

Az elfogadási tartomány tehát

A próbafüggvény értékek az egyes paraméterekre:

A próbafüggvény a kritikus tartományba esik, vagyis elvetjük a : nullhipotézist.

Ez annyit jelent, hogy 10%-os szignifikanciaszinten a regressziós modellben a hőmérsékletnek szignifikáns szerepe van.

Térjünk rá a korreláció vizsgálatára. A korreláció mátrix szimmetrikus, tehát a felső üres rész ugyanaz, mint az alsó, vagyis vagy tehát ha például valaki egy képletben nem -t hanem -et lát, akkor semmi ok az aggodalomra, ezek ugyanazok.

A hőmérséklet és a forgalom közötti korrelációs együttható értéke ebben azonban benne van a másik magyarázó változó hatása is. Ettől a hatástól megtisztítva lesz belőle parciális korrelációs együttható, amit azokban az esetekben, amikor a magyarázó változók száma kettő, így is számolhatunk:

A tényleges kapcsolat a hőmérséklet és a forgalom között tehát valamivel gyengébb, mint az alapján feltételezett.

Végül lássuk a determinációs hányadost, ami a modell magyarázó erejét adja meg.

Ha a magyarázó változók száma kettő,

 

MULTIKOLLINEARITÁS, AUTOKORRELÁCIÓ

09
Hopsz, úgy tűnik nem vagy belépve, pedig itt olyan érdekes dolgokat találsz, mint például:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.

Itt jön egy fantasztikus
Statisztika 2 epizód.

Hozzászólások

Még nincs hozzászólás. Legyél Te az első!