Statisztika 2 epizód tartalma:

Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.

A képsor tartalma

REGRESSZIÓSZÁMÍTÁS

A regresszió elnevezés az angol regression to the mean szókapcsolatból, ered, aminek jelentése visszatérés az átlaghoz és Francis Galton-tól származik, aki apák és fiaik testmagasságát vizsgálva jutott arra a megállapításra, hogy a magasabb apáknak magasabb fiai születnek, vagyis a fiúk visszatérnek az apáik átlagához.

Az regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától.

Miként függ például a repülőterek forgalma az olajár alakulásától, az 1000 főre jutó gépkocsik száma az egy főre jutó GDP-től vagy a várható élettartam a jövedelmi viszonyoktól.

Ezekben a példákban az eredményváltozóhoz mindössze egyetlen magyarázó változó tartozik, ami a regressziószámítás legegyszerűbb módja a kétváltozós eset.

Az élet azonban sajnos jóval bonyolultabb. A repülőterek forgalma az olaj árán kívül függ az adott évben végrehajtott terrorcselekmények számától, a szélsőséges időjárási események számától, a világgazdaság állapotától és még sok más tényezőtől, vagyis a magyarázó változók száma általában több, az ilyen eseteket pedig többváltozós regressziónak nevezzük.

Vizsgálódásunkat az egyszerűbben átlátható kétváltozós esettel kezdjük. Itt csak egy magyarázó változót veszünk figyelembe, ez azonban nem azt jelenti, hogy ne volnának mellette más magyarázó változók is. Mindössze arról van szó, hogy azokat most nem vizsgáljuk, hatásukat a regresszió hibájának könyveljük el.

A kétváltozós lineáris regresszió sémája a következő:

Itt a magyarázó változó, pedig az eredményváltozó, ami jó közelítéssel az -nek lineáris függvényeként áll elő de mivel x nem képes y-t 100%-ban megmagyarázni, van egy hibatag. Ebbe a hibatagba van belezsúfolva a többi magyarázó változó, amikkel az egyváltozós esetben nem foglalkozunk.

Nézzük meg például, hogy Európa néhány országában az egy főre jutó GDP hogyan befolyásolja a gépkocsival rendelkező lakosok számát.

ország

x

GDP/fő

(EUR)

y

Gépkocsik száma

(db/1000 fő)

Ausztria AT

28 978

496

Belgium BE

30 349

447

Csehország CZ

15 216

362

Franciaország FR

26 656

465

Görögország GR

17 941

245

Hollandia NL

28 669

388

Lengyelország PL

10 135

259

Magyarország HU

13 767

235

Németország DE

28 232

517

Svájc CH

31 987

486

Esetünkben tehát a GDP lesz a magyarázó változó, a gépkocsik száma pedig az eredményváltozó. Fontos azonban észrevenni, hogy ezeket a szerepeket mi osztjuk ki, egy általunk feltételezett összefüggés alapján.

Ha például a jövedelem és az egészséges táplálkozás közötti kapcsolatot vizsgáljuk, elvileg lehetne a jövedelem az eredményváltozó, és a táplálkozási szokások a magyarázó változó, vagyis minél egészségesebben eszünk, annál több pénzünk van. Csak valahogy a józan ész azt diktálja, hogy ez inkább fordítva van és nem attól lesz több pénzünk, hogy egészségesen eszünk, hanem attól eszünk egészségesen, hogy több a pénzünk.

Vannak aztán olyan esetek, amikor nem is olyan egyszerű eldönteni, hogy melyiket tekintsük eredményváltozónak és melyiket magyarázónak.

Egy teória szerint például aki minden nap egy deci bort megiszik, az jobb egészségre számíthat, mint aki egyáltalán nem iszik, vagy aki túl sokat iszik. Később aztán kiderült, megeshet, hogy ez éppen fordítva van. Az eleve egészségesen élő emberek azok, akik napi egy deci bort isznak, míg az egészségtelenül élők vagy vedelnek, vagy nem isznak.

Sokszor tehát egyáltalán nem egyértelmű, hogy mit tekintsünk magyarázó és mit eredményváltozónak, és nemegyszer vezetett már komoly tudományos felfedezéshez a szerepek felcserélése.

Visszatérve példánkhoz, ábrázoljuk egy koordinátarendszerben az országokat, ahol az x tengelyen az egy főre jutó GDP-t, míg az y-on az 1000 főre jutó gépkocsik számát mérjük. Az ábrán jól látszik, hogy az országok nagyjából egy egyenes mentén helyezkednek el, ezért lineáris regressziót alkalmazunk.

A kétváltozós lineáris regresszió egyenlete:

Az hibatagot elhagyva kapjuk a regressziós egyenes egyenletét:

Az y fölé tett háztetőre emlékeztető jel itt azt jelenti, hogy becsült érték. Ezt úgy kell elképzelni, hogy ha x=13 767 ami éppenséggel Magyarország, akkor a hozzá tartozó tényleges y érték y=235. Mivel azonban a hibatagot elhagytuk, a regressziós egyenes nem megy át ezen a ponton, hanem fölötte megy, a becsült érték tehát picivel nagyobb a ténylegesnél. CZ esetében ez éppen fordítva van, ott a becsült y kisebb, mint a tényleges.

A tényleges y értékektől az eltérés és mivel így ez az eltérés

Célunk egy olyan egyenes előállítása, ami a lehető legjobban illeszkedik a koordinátarendszerben szereplő pontokhoz, vagyis a lehető legközelebb halad el mellettük, ami azt jelenti, hogy ezeknek az eltéréseknek kell minimálisnak lenni. Az elv, amivel ez az egyenes előállítható, az úgynevezett legkisebb négyzetek módszere.

Fontos figyelmeztetés! Az alábbiakban a nyugalom megzavarására alkalmas szavak fognak elhangzani, úgymint deriválás, szélsőérték, meg ilyenek. Akiben ezek rosszérzést keltenek, ugorja át őket.

Technikai okokból nem magukat az eltéréseket vizsgáljuk, hanem a négyzetüket.

Az eltérések négyzetösszegének kell tehát minimálisnak lennie.

A szóban forgó négyzetösszeg tehát

ami tulajdonképpen egy kétváltozós függvény, változói és .

Ha deriváljuk ezen változók szerint, majd a deriváltakat egyenlővé tesszük nullával, megkapjuk a függvény lehetséges szélsőértékét. A helyzet az, hogy itt valóban van is szélsőérték, ráadásul éppen az ami nekünk kell, vagyis minimum. A nullával egyenlővé tett parciális deriváltak alapján ezeket az úgynevezett normálegyenleteket kapjuk:

Végül még egy cseles lépés következik.

Az egész koordinátarendszert eltoljuk -al és -al. Ekkor a regressziós egyenes meredeksége ugyanaz marad, csak a tengelymetszet változik meg és lesz belőle.

A normálegyenletek ekkor és jelöléseket használva:

Mivel pedig és ezért

Az első egyenlet teljesen haszontalan, a másodikból viszont

Ezek után úgy jön ki, hogy az egyenletben helyére y átlagát, x helyére pedig x átlagát helyettesítjük. Ha valakinek jobban tetszik, megjegyezhető a képlet is.

Térjünk most vissza az eredeti példánkhoz és nézzük meg ott a regressziós egyenest.

Az x szerinti átlag

Az y szerinti átlag:

Most jöhetnek az úgynevezett eltérés-négyzetösszegek:

Végül itt jön még egy izgalmas dolog.

A regressziós egyenes együtthatói ekkor:

és az

egyenletbe x és y átlagait helyettesítve

és ebből jön ki .

A regressziós egyenes tehát

A regressziós egyenes

egyenletében szereplő becsült regressziós együtthatók közül az egyenes meredeksége, ami azt adja meg, hogy az x magyarázó változó egy egységnyi növekedése hány egységgel változtatja meg az y eredményváltozó értékét. A érték kevésbé jelentős, ez azt adja meg, hogy a magyarázó változó nulla értékéhez milyen y érték tartozik.

Esetünkben azt jelenti, hogy egy eurós GDP növekedés 0,012-vel növeli az 1000 főre jutó gépkocsik számát, míg most csak technikai paraméter, valós jelentése nincs – elvileg ennyi gépkocsi jut 1000 főre egy olyan országban, ahol nulla az egy főre jutó GDP.

A paraméterek értelmezése után érdemes megnézni egy másfajta jellemzést, az úgynevezett elaszticitást. Az elaszticitás azt fejezi ki, hogy az x magyarázó változó 1%-os változása hány %-os változást okoz az eredményváltozóban.

Ha például az egy főre jutó GDP x=30 000, akkor 1%-os GDP változás lássuk hány %-os változást okoz az autók számában:

tehát 0,76%.

SSE, reziduális szórás, korreláció

Az lineáris regresszió illeszkedésének vizsgálatához meghatározzuk az úgynevezett reziduumokat. Ezek tulajdonképpen az illeszkedési hibák, amiket azoknál a pontoknál tapasztalunk, amelyek alapján a lineáris regressziót felírtuk.

A reziduumok tehát az különbségek.

Ezek a különbségek azonban nem azonosak az hibataggal. Az hibatag ugyanis maga is egy függvény, amibe a többi, általunk most nem vizsgált magyarázó változó hatását zsúfoltuk bele, míg az reziduumok csupán abban a néhány pontban adják meg a hibát, amelyek alapján a regressziót felírtuk.

Még egyszerűbben fogalmazva az

lineáris regresszióban a teljes megfigyelési tartományon érvényes hibatag, míg az

csak a megfigyelt pontokban teljesül.

A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg.

Ha a regresszió tökéletesen illeszkedik, akkor az különbségek mindegyike nulla, így SSE=0. Ha az illeszkedés nem tökéletes, akkor SSE egy pozitív érték, ami az illeszkedés pontatlanságát méri, valahogy úgy, ahogyan a szórás méri az átlagtól való eltérést.

A szórásra még jobban emlékeztető mutatót kapunk, ha az SSE értékét elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét. Az így kapott állatfajta neve reziduális szórás:

Az illeszkedés egy másik mérőszáma a lineáris korrelációs együttható.

A lineáris korrelációs együttható azt méri, hogy x és y között milyen szoros lineáris kapcsolat van. Értéke mindig .

Ha akkor x és y között függvényszerű lineáris kapcsolat van.

Ha majdnem 1 vagy a -1, akkor x és y között majdnem lineáris kapcsolat van, vagyis koordinátarendszerben ábrázolva a kapott pontok lényegében egy egyenes mentén helyezkednek el.

Ha közel van a nullához, akkor a pontok jobban szóródnak az egyenes körül, mellesleg ezt a szóródást méri a reziduális szórás.

Ha akkor x és y között nincs lineáris kapcsolat. Ettől azonban másfajta kapcsolat még lehet.

Más haszna is van a lineáris korrelációs együtthatónak. A PRE-értékhez hasonlóan használható ugyanis az együttható négyzete, annak kiderítésére, hogy az x értékek hány százalékban magyarázzák meg az y-ra adódó értékeket.

Vagyis az értéke azt adja meg, hogy az x magyarázó változó hány százalékban magyarázza meg az y eredményváltozót, másként fogalmazva azt, hogy mekkora a lineáris regressziós modell magyarázó ereje.

Szintén ezt a magyarázóerőt méri az úgynevezett determinációs együttható, melynek jele . Ez a kétváltozós lineáris modell esetében megegyezik -el.

Itt SSE a már ismert eltérés-négyzetösszeg, míg SSR az úgynevezett regressziós, vagy magyarázó négyzetösszeg, SST pedig a teljes négyzetösszeg, a köztük lévő kapcsolat pedig

Ez a négyzetösszeg-felbontás – ha még emlékszünk rá – éppen úgy működik, mint a két ismérv közti vegyes kapcsolat vizsgálatánál az SST=SSB+SSK összefüggés.

A következőkben nézzünk meg egy tanulságos példát!

Hatványkitevős és exponenciális regresszió

Vannak olyan esetek, amikor a magyarázó változó és az eredményváltozó között nem lineáris a kapcsolat. Ilyenkor legtöbbször hatványkitevős vagy exponenciális regressziót használunk. Nézzünk meg egy konkrét példát, ahol összehasonlítjuk a szóba jöhető regressziós modelleket.

Egy statisztika vizsgára tanulók saját tapasztalatain alapuló felmérése szerint a tanulással töltött órák száma és az elért pontszám között az alábbi összefüggéseket sikerült kimutatni.

Tanulással

töltött órák

Pontszám

(max 100)

3

5

4

6

5

8

6

9

9

16

10

20

12

24

16

56

20

81

24

96

Az összehasonlítás kedvéért nézzük meg mindhárom regressziós modellt, a lineáris a hatványkitevős és az exponenciális modellt.

A lineáris regressziót már ismerjük, erre a lineáris modellre fogjuk a másik kettőt visszavezetni egy trükk segítségével. Megeshet, hogy néhányan rosszakat fognak tőle álmodni, da sajna a trükk az lesz, hogy vesszük a regressziós egyenletek logaritmusát. Mindegy milyen alapú logaritmust veszünk, legyen mondjuk 10-es alapú, vagyis lg.

Az így kapott egyenletek hajszálra megegyeznek az eredeti lineáris modell egyenletével, csak bizonyos betűk elé odakerült, hogy lg. A paraméterek kiszámításának képletei tehát szintén ugyanazok maradnak, csak ott is oda kell írni, hogy lg.

Az eredeti táblázatunkat kiegészítjük és oszlopokkal.

Tanulással

töltött órák

Pontszám

(max 100)

minden értéknek vesszük a logaritmusát

ezeket átlagolva kapjuk, hogy

3

5

0,4771

0,6989

4

6

0,6020

0,7781

5

8

0,6989

0,9031

6

9

0,7781

0,9542

9

16

0,9542

1,2041

10

20

1,000

1,3010

12

24

1,0791

1,3802

16

56

1,2041

1,7482

20

81

1,3010

1,9085

24

96

1,3802

1,9823

A lineáris regressziónál minden ugyanúgy megy, mint eddig:

A regresszió egyenlete:

A csak technikai paraméter, pedig azt jelenti, hogy minden egyes órányi tanulás 4,586 ponttal növeli a vizsga pontszámát.

Nézzük mi a helyzet a hatványkitevős regressziónál.

A regresszió egyenlete

amibe a kapott paramétereket írva

Itt csak a paraméternek van érdemi jelentése, ráadásul kicsit szokatlan. Hatványkitevős regressziónál ugyanis az elaszticitás. Esetünkben tehát az elaszticitás 1,514, ami annyit jelent, hogy x 1%-os növekedése 1,514%-al növeli y-t. Másként 1%-al több tanulás 1,514%-al növeli a vizsgán elért pontszámot.

Végül az exponenciális regresszió:

A regresszió egyenlete

amibe a kapott paramétereket írva

A paraméterek jelentése a következő. csak technikai paraméter, pedig azt jelenti, hogy minden egyes órányi tanulás 1,16-szorosára növeli a vizsga pontszámát.

Nézzük meg, a három regresszió közül melyik illeszkedik a legjobban. Elsőként a reziduumokat számoljuk ki.

Tanulással

töltött órák

Pontszám

(max 100)

lineáris

hatvány

exp.

3

5

-4,129

3,456

5,822

4

6

0,457

5,343

6,754

5

8

5,043

7,490

7,834

6

9

9,629

9,871

9,087

9

16

23,387

18,237

14,185

10

20

27,973

21,391

16,455

12

24

37,145

28,192

22,141

16

56

55,489

43,579

40,090

20

81

73,833

61,094

72,588

24

96

92,177

80,516

131,432

A jelek szerint a lineáris modell SSE-je a legkisebb, tehát ebben az esetben ez a modell illeszkedik legjobban.

Standard lineáris modell kétváltozós eset

A regressziószámítás egyik lényeges kérdése magának a regressziós modellnek az elemzése. Az elemzést a leginkább elterjedt modell, az úgynevezett standard lineáris modell esetében végezzük el.

A standard lineáris modellnek a feltételei első ránézésre kissé bonyolultak, ezért mielőtt ezekre rátérnénk, nézzünk inkább egy mesét!

Vizsgáljuk meg, milyen hatással van az egy főre jutó GDP arra, hogy a nők hány éves korukban kötik első házasságukat. A következő táblázat néhány általunk választott ország adatait tartalmazza.

ország

x

GDP/fő

(EUR)

y

Nők életkora

házasságkötéskor

Ausztria AT

28 978

26,6

Belgium BE

30 349

29,8

Csehország CZ

15 216

28,9

Franciaország FR

26 656

31,6

Görögország GR

17 941

26,9

Hollandia NL

28 669

26,9

Lengyelország PL

10 135

25,3

Magyarország HU

13 767

29,7

Németország DE

28 232

31

Svájc CH

31 987

29,4

A 10 megfigyelt országot választhattuk volna véletlenszerűen, most azonban ezek előre beállított értékek, vagyis direkt ezeket az országokat választottuk.

Nos ez volna a standard lineáris modell első követelménye, vagyis az, hogy a magyarázó változó értékei nem valószínűségi változók.

A második feltétel kétváltozós esetben – vagyis most – automatikusan teljesül.

STANDARD LINEÁRIS MODELL FELTÉTELEI:

I. A magyarázó változók nem valószínűségi változók.

II. A magyarázó változók lineárisan független

rendszert alkotnak.

III. Az eredményváltozó közel lineáris függvénye a

magyarázó változóknak.

IV. Az hibatag feltételes eloszlása normális, várható

értéke nulla.

V. Az hibatag különböző x-ekhez tartozó értékei

korrelálatlanok.

A lineáris regresszió

és szükségünk van a és a

paraméterekre.

és

Elsőként kiszámoljuk az átlagokat.

és

Ha y a magyarázó változó lényegében lineáris függvénye, akkor alkalmazható a lineáris regresszió egyenlete, ami

Ez a harmadik követelmény a standard lineáris modellben.

Ebbe az imént kapott értékeket írva

A paraméterek jelentése:

Ez most – mint általában – csak technikai paraméter.

Ami azt jelenti, hogyha 1 EUR-val nagyobb az egy főre jutó GDP, az 0,0001 évvel tolja ki a nők első házasságkötésének dátumát. Ez tulajdonképpen 0,4 nap. Ha 100 EUR-val nagyobb az egy főre jutó GDP, az viszont már 40 napot jelent.

Most térjünk rá a modellel kapcsolatos vizsgálatokra.

1. Becslések a standard lineáris modellben

A regresszió paramétereinek illetve magának a regressziónak az intervallumbecslése hasonló a korábbi intervallumbecslésekhez. Ahhoz, hogy ennek lényegét megértsük, elég, belegondolnunk abba, hogy a regresszió alapján, ha például egy ország egy főre jutó GDP-je 30 000 EUR, akkor a regresszió alapján

vagyis átlagosan 29,3 évesen mennek a nők férjhez.

Könnyen elképzelhető azonban egy olyan ország, ahol az egy főre jutó GDP 30 000 EUR, ám a nők mondjuk csak 31 évesen mennek férjhez, vagyis a 29,3 nem azt jelenti, hogy márpedig minden országban így kell lennie. A tényleges érték tehát egy sávban helyezkedik el a regresszió körül, amit konfidencia sávnak nevezünk.

Ennek a sávnak a meghatározásához először maguknak a paramétereknek az intervallumbecslését csináljuk meg, amihez szükségünk van standard hibára. Ezt a már korábbról ismert reziduális szórás segítségével fogjuk megkapni.

Most azonban a torzítatlanság érdekében az úgynevezett korrigált reziduális szórásra van szükségünk, ami

Itt n a megfigyelések száma, k pedig a magyarázó változók száma, ami most k=1.

ország

x

y

Ausztria AT

28 978

26,6

29,2

Belgium BE

30 349

29,8

29,3

Csehország CZ

15 216

28,9

27,8

Franciaország FR

26 656

31,6

28,9

Görögország GR

17 941

26,9

28,0

Hollandia NL

28 669

26,9

29,2

Lengyelország PL

10 135

25,3

27,3

Magyarország HU

13 767

29,7

27,7

Németország DE

28 232

31

29,1

Svájc CH

31 987

29,4

29,5

A standard lineáris modell két további feltétele az hibataggal kapcsolatos, és az intervallumbecsléshez kell. Ezekről a feltételekről azt érdemes tudni, hogy általában teljesülnek, vagy legalábbis hazudhatjuk róluk, hogy teljesülnek.

Paraméterek becslése

Regresszió becslése

n=megfigyelések száma

k=paraméterek száma

Nézzük meg az

paramétereinek becsléseit.

A becslésnél t-eloszlást használunk, aminek szabadságfoka

v=n-k-1, tehát jelenleg v=10-1-1=8, a konfidencia szint

pedig általánosan .

Az paraméterek becslései egyenként

Ha például a konfidencia szint 90%-os, akkor így a szabadságfok pedig v=n-k-1=10-1-1=8

2. A paraméter tesztelése

Az lineáris regresszió paraméterének tesztelését végezzük el a

hipotézisvizsgálat segítségével. Tulajdonképpen azt fogjuk vizsgálni, hogy a magyarázó változó ténylegesen képes-e magyarázni y-t.

A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a : feltevést,

ellenhipotézisnek pedig azt, hogy : . A nullhipotézis azt állítja, hogy a modellben a paraméter szignifikánsan nulla, vagyis a magyarázó változó hatása az eredmény-változóra nulla. Az ellenhipotézis ezzel szemben az, hogy vagyis a magyarázó változónak a regresszióban nem nulla hatása van.

A próbafüggvény, amit használunk a t-eloszlás lesz,

ahol

KÉTOLDALI KRITIKUS TARTOMÁNY

:

:

BAL OLDA LI KRITIKUS ÉRTÉK:

JOBB OLDALI KRITIKUS ÉRTÉK:

: : a szignifikanciaszint legyen a szabadságfok továbbra is v=n-k-1=10-1-1=8 tehát a kritikus értékek

BAL OLDALI KRITIKUS ÉRTÉK: JOBB OLDALI KRITIKUS ÉRTÉK:

Az elfogadási tartomány tehát

A próbafüggvény érték:

A próbafüggvény értéke bőven az elfogadási tartományon kívül esik, így a nullhipotézist elvetjük, a : ellenhipotézist pedig elfogadjuk, vagyis a szerepe a regresszióban igenis jelentős, az egy főre jutó GDP valóban szerepet játszik abban, hogy a nők hány évesen mennek férjhez.

3. Modell egészének tesztelése

A magyarázó változó tesztelése végezhető F-próbával is. Ennek igazán majd a többváltozós regresszió esetén lesz jelentősége.

A nullhipotézis ezúttal is : , míg az ellenhipotézis : .

A próbafüggvény

A két szabadságfok és , a próba jobb oldali kritikus értékkel hajtandó végre:

JOBB OLDALI KRITIKUS ÉRTÉK:

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

Hiba

Teljes

SST=SSR+SSE

Kiszámolunk kettőt.

VARIANCIAANALÍZIS-TÁBLÁZAT

SZÓRÓDÁS

OKA

NÉGYZETÖSSZEG

SZABADSÁG-

FOK

ÁTLAGOS

NÉGYZETÖSSZEG

F

Regresszió

SSR=5,49

k=1

Hiba

SSE=33,31

n-k-1=8

Teljes

SST=38,8

n-1=9

A szignifikanciaszint legyen , a két szabadságfok pedig és , így az F-eloszlás eloszlástáblázatából a kritikus érték

A próbafüggvény-érték tehát az elfogadási tartományba esik, vagyis a : nullhipotézist teljesül, ami azt jelenti, hogy regressziós modell rossz, magyarázó ereje nem meggyőző.

Az két hipotézisvizsgálat eltérő eredményei úgy értendők, hogy a magyarázó változó hatása ugyan szignifikánsan nem nulla, de mégis az egész regressziós modell csak kis mértékben magyarázza, hogy a nők hány éves korukban mennek férjhez.

Ezt jól szemlélteti a modell magyarázó erejét kifejező úgynevezett determinációs együttható is

Ez mindössze 14%-os magyarázó erőt jelent.

A továbbiakban rátérünk a többváltozós regressziós modell vizsgálatára.

 

MI AZ A REGRESSZIÓ?

01
Itt jön egy fantasztikus
Statisztika 2 epizód.

Hozzászólások

Még nincs hozzászólás. Legyél Te az első!