Statisztika
A kurzus 9 szekcióból áll: Alapfogalmak, Egy ismérv szerinti elemzés, Két ismérv szerinti elemzés, Standardizálás, Indexszámítás, Idősorok, Becslések, Hipotézisvizsgálat, Regressziószámítás
ALAPFOGALMAK - Ismérvek típusai, viszonyszámok, dinamikus viszonyszám, intenzitási viszonyszám, számtani átlag, harmónikus átlag, mértani átlag, medián, módusz, kvartilisek, szórás, gyakoriság, relatív gyakoriság, kumulált gyakoriság.
EGY ISMÉRV SZERINTI ELEMZÉS - Medián, módusz, kvartilisek, szórás, relatív szórás, gyakoriság, relatív gyakoriság, gyakorisági sor, értékösszeg sor, koncentráció, Lorenz-görbe, doboz-ábra, alakmutatók, Pearson-mutató, F-mutató.
KÉT ISMÉRV SZERINTI ELEMZÉS - Asszociációs kapcsolat, vegyes kapcsolat, korrelációs kapcsolat, ismérvek függetlensége, khi-négyzet, Cramer-mutató, Csuprov-mutató, Yule-mutató, külső szórás, belső szórás, teljes szórás, külső eltérés-négyzetösszeg, belső eltérés-négyzetösszeg, teljes eltérés-négyzetösszeg, H-mutató, PRE, szórásnégyzet hányados, lineáris korrelációs együttható.
STANDARDIZÁLÁS - Különbségfelbontás, hányadosfelbontás, főátlagok különbsége, részhatás különbség, összetételhatás különbség, főátlagindex, részhatás index, összetételhatás index.
INDEXSZÁMÍTÁS - Árindex, volumenindex, értékindex, Laspeyres-féle, Paasche-féle, Fischer-index, átlagformák, vásárlóerőparitás, infláció, indexsorok, lánc-indexsor, bázis-indexsor, árindexsor, volumenindexsor, értékindexsor.
IDŐSOROK - Állapot idősor, tartam idősor, változás üteme és mértéke, kronologikus átlag, mozgóátlagok, mozgóátlagolású trend, simítás, szűrés, dekompozíciós idősormodellek, lineáris trend, exponenciális trend, trendegyenlet, normálegyenletek, szezonalitás, szezonális eltérés, szezonindex, szezonalitással kiigazított trend, szezonalitástól megtisztított trend.
Alapfogalmak
- -
Az ismérvek olyan vizsgálati szempontok, amelyek alapján a sokaság részekre osztható.
- -
A nominális (névleges) mérési skála a sokaság elemeit valamilyen tulajdonság szerint csoportokba sorolja, de a csoportok között nincsen semmilyen sorrendiség.
- -
Az ordinális (sorrendi) mérési skála a sokaság elemeit valamilyen tulajdonság szerint csoportokba sorolja, és a csoportok között van sorrendiség.
- -
Az intervallum-skála a sokaság elemeit valamilyen mérés szerint rendezi sorba.
- -
Az arány-skála a sokaság elemeit szintén valamilyen mérés szerint rendezi sorba, de abban különbözik az intervallum-skálától, hogy ennek van valódi nullpontja.
- -
Hogyha egy sokaság elemei egymástól jól elkülöníthető egységek, akkor a sokaság diszkrét.
- -
Hogyha egy sokaság nem diszkrét, akkor az folytonos.
- -
Az időpontra vonatkozó sokaságokat álló sokaságnak nevezzük.
- -
Az időtartamra vonatkozó sokaságokat mozgó sokaságnak nevezzük.
- -
A viszonyszámok kiszámolásának módja meglehetősen semmitmondó.
- -
Ha több viszonyszámunk van, fölmerülhet az igény ezek átlagolására.
- -
Ha több viszonyszámunk van, fölmerülhet az igény ezek átlagolására.
- -
A dinamikus viszonyszámok idősorok adataiból számított hányadosok.
- -
A megoszlási viszonyszám egy sokaság valamely részének az egészhez viszonított arányát írja le.
- -
Az intenzitási viszonyszám két, egymással valamilyen kapcsolatban álló sokaság mennyiségeinek hányadosa.
- -
Azokat az adatsorokat nevezzük idősornak, melyek egy vagy több ismérv időben történő megoszlását írják le.
- -
A bázisviszonyszámok mindig a bázishoz viszonyítanak.
- -
A láncviszonyszámok mindig az előző évhez viszonyítanak.
- -
Összeadogatjuk a változásokat, aztán elosztjuk...
- -
A változás üteme azt adja meg, hogy hány százalékos volt a változás.
- -
A tartamidősorok egy vizsgált időtartamra vonatkozó megfigyeléseket tartalmaznak.
- -
Az állapotidősorok egy vizsgált időtartam egy adott pillanatára vonatkozó megfigyeléseket tartalmazzák.
- -
Egy speciális átlag, például ha négy hónap adataiból számoljuk ki az átlagot, viszont csak három hónapos időtartamra.
- -
Ezek tulajdonképpen egymás mellett szerepeltetett valamilyen adatok.
- -
Lényege, hogy az adatokat valamelyik ismérv szerint tudjuk összesíteni.
- -
Mindegyik ismérv szerint tudjuk az adatokat összesíteni.
Egy ismérv szerinti elemzés
- -
A módusz a leggyakoribb érték.
- -
A medián a növekvő sorba rendezett adatsor középső értéke.
- -
Az átlag az összes elem összege osztva az elemszámmal.
- -
Az átlagtól való átlagos eltérést szórásnak nevezzük és egy szigma nevű görög betűvel jelöljük.
- -
Az adatsor első felének a felezőpontja az alsó kvartilis.
- -
Az adatsor második felének a felezőpontja a felső kvartilis.
- -
A kvartilisek és a medián azt szemlélteti, hogyan oszlanak el az adatsorban szereplő adatok.
- -
A relatív szórás azt mondja meg, hogy a szórás az átlagnak hány százaléka:
- -
A módusz gyakorisági sorok esetében már másképp számolható ki, mint ahogy középiskolában megszoktuk.
- -
Gyakorisági sorok esetében a medián kiszámítása másképp zajlik, mint azt középiskolában megszoktuk.
- -
A kvartiliseket gyakorisági sorok esetében máshogy kell kiszámolni, mint azt középiskolában tettük.
- -
A relatív gyakoriságot úgy kell kiszámolni, hogy a gyakoriságot osztjuk az összes elemszámmal.
- -
Az értékösszeget úgy kapjuk meg, hogy az osztályközepeket megszorozzuk a gyakorisággal.
- -
A Herfindahl-index egy eszköz a koncentráció vizsgálatára.
- -
A Lorenz-görbe egy eszköz a koncentráció vizsgálatára.
- -
Az egyik legegyszerűbb és leggyakrabban használt alakmutatók, az úgynevezett Pearson-féle mérőszámok:
- -
Az egyik legegyszerűbb és leggyakrabban használt alakmutatók, az úgynevezett Pearson-féle mérőszámok mellett az F-mutatók.
- -
A csúcsosság azt jelenti, hogy az eloszlás görbéje mennyire csúcsosodik ki.
Két ismérv szerinti elemzés
- -
Egy sokaságot egyszerre több ismérv szerint is vizsgálhatunk.
- -
Ha mindkét ismérv minőségi (vagy területi), akkor asszociációs kapcsolatról beszélünk.
- -
Ha az egyik ismérv minőségi (vagy területi), a másik mennyiségi, akkor vegyes kapcsolatról beszélünk.
- -
Ha mindkét ismérv mennyiségi, akkor korrelációs kapcsolatról beszélünk.
- -
Ha mindkét ismerv sorrendi, akkor rangkorrelációs kapcsolatról beszélünk.
- -
Ha két ismérv között nincs kapcsolat, akkor függetlenek.
- -
Ha két ismérv között marhára van kapcsolat, akkor az függvényszerű.
- -
Ha a két ismérv között csak egy pici kapcsolat van.
- -
A Cramer-féle asszociációs együttható arra való, hogy amikor mindkét ismérv minőségi, rávilágítson a két ismérv közötti kapcsolat szorosságára.
- -
A kombinációs tábla általános sémája.
- -
A Csuprov-féle mutató segítségével két ismérv közötti kapcsolatot vizsgálhatjuk.
- -
Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk.
- -
Ha a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás.
- -
A teljes szórás az egész sokaság szórását jelenti.
- -
A belső eltérés-négyzetösszeg a belső szórás gyök alatti részének számlálója.
- -
A külső eltérés-négyzetösszeg a külső szórás gyök alatti részének számlálója.
- -
A teljes eltérés-négyzetösszeg a teljes szórás gyök alatti részének számlálója.
- -
A PRE egy rövidítés, Proportional Reduction Errors, ami relatív hibacsökkenésnek fordítható.
- -
A lineáris korrelációs együttható azt méri, hogy $X$ és $Y$ között milyen szoros lineáris kapcsolat van.
- -
A determinációs együttható pontosan úgy értelmezhető, mint a PRE mutató a vegyes kapcsolatnál.
- -
Ha pl. egy verseny eredményét ketten is megtippelik, és el kell döntenünk melyikük találta el jobban a valós eredményt...
Standardizálás
- -
A standardizálást egy látszólag teljesen ellentmondásos statisztikai probléma megoldására találták ki.
- -
Területi összehasonlításhoz tartozó képletek.
- -
Időbeli összehasonlításhoz tartozó képletek.
- -
A standardizálást nem csak területi, hanem időbeli összehasonlításokhoz is alkalmazzuk.
Indexszámítás
- -
A volumenindex a forgalom változásának mértéke.
- -
Az árindex a szektort érintő árváltozást méri.
- -
A legtöbb feladatban nincs külön megadva $p_0$ és $p_1$ valamint $q_0$ és $q_1$ pontos értéke, ezért különböző bűvészmutatványokra lesz szükség.
- -
A Fischer-féle árindex és volumenindex kiszámítása.
- -
Képletek az értékindex kiszámításához.
- -
A vásárlóerő mérésére van forgalomban az úgynevezett vásárlóerő-paritás.
Idősorok
- -
A dekompozíciós modellek lényege, hogy az idősorok négy, egymástól elkülöníthető komponensből tevődnek össze.
- -
A lineáris trend egyenlete Excellel és kézzel is kiszámolható.
- -
A szezonalitást úgy kell elképzelni, hogy az minden nyári szezonban ugyanannyit hozzáad, minden téliben pedig ugyanannyit elvesz a trendvonal által meghatározott értékből.
- -
Korrigált szezonális eltérés akkor lesz, ha a nyers szezonális eltérések összege nem nulla.
- -
Mikor páros, mikor páratlan vagy éppen egyik sem egy függvény.
- -
Lássuk mik azok a polinomfüggvények, és hogyan kell őket ábrázolni.
- -
A mozgóátlagok abban segítenek nekünk, hogy megmutatják az árfolyam mozgásának nagyobb léptékű tendenciáját, és kiszűrik a sokszor zavaró naponkénti ingadozásokat.
- -
Ezzel a trükkel jelentősen csökkenthetjük a normálegyenletek által okozott szenvedéseket.
Becslések
- -
Olyan esetekben, amikor valamiért nem tudjuk vagy nem akarjuk a teljes sokaságot megvizsgálni, hogy meghatározzuk a fontosabb statisztikai mutatóit, becslést alkalmazunk.
- -
A megbízhatósági szintet konfidencia szintnek nevezzük.
- -
Az $1- \alpha$ megbízhatósági szinthez, vagy másként konfidencia szinthez tartozó konfidencia intervallumok azok az intervallumok, amik a sokasági átlagot $1-\alpha$ valószínűséggel tartalmazzák.
- -
Módszer az átlag intervallumbecslésére, ha a sokasági szórás ismert.
- -
A FAE minta azt jelenti, hogy a mintavétel során bármely mintaelemet azonos eséllyel választunk ki.
- -
Módszer átlag intervallumbecslésére, ha a sokasági szórás nem ismert.
- -
Módszer arány intervallumbecslésére.
- -
Módszer variancia intervallumbecslésre.
- -
Az EV-minta abban különbözik a FAE-mintától, hogy a kiválasztott mintaelemek nem függetlenek egymástól.
- -
Módszer átlag intervallumbecslésre, ha a sokasági szórás nem ismert (EV-minta).
- -
Módszer arány intervallumbecslésére EV-minta esetén.
- -
Ha a teljes sokaságot felosztjuk viszonylag homogén rétegekre, és a mintát is ezen a rétegek szerint vizsgáljuk, a variancia csökkenthető.
- -
A kétmintás becslésekre akkor van szükség, amikor két sokaság valamilyen paraméterét, leginkább az átlagát szeretnénk összehasonlítani.
- -
Ha mindkét sokaság közel normális eloszlású, akkor az átlagok különbségének becslésére ez a formula van forgalomban.
- -
Egy becslést torzítatlannak nevezünk, ha az egyes mintákból kapott becslések várható értéke megegyezik a becsülni kívánt mennyiséggel.
- -
A kérdés az, hogy ha egy sokasági jellemzőre több becslés jöhet szóba, hogyan válasszunk közülük, vagyis mikor tekintünk egy becslést jónak, kettő közül melyiket tekintjük jobbnak és kijelenthetjük-e valamelyikről, hogy a legjobb?
- -
Két becslés közül azt részesítjük előnyben, amelyre MSE kisebb.
- -
A standard hiba azt mondja meg, hogy a mintaátlagok mekkora szórással ingadoznak a tényleges sokasági átlag körül.
- -
Mintavételi hibának azokat a hibákat nevezzük, amik kimondottan azért fordulnak elő, mert nem tudjuk, vagy nem akarjuk a teljes sokaságot vizsgálni.
Hipotézisvizsgálat
- -
Az elfogadási tartomány az a tartomány, ahová ha a próba értéke kerül, akkor a nullhipotézist elfogadjuk.
- -
A kritikus tartomány az a tartomány, ahová ha a próba értéke kerül, akkor a nullhipotézist elvetjük.
- -
A szignifikanciaszint a hibás döntés valószínűsége.
- -
A hipotézis megfogalmazása. A próbafüggvény kiválasztása. Szignifikanciaszint és kritikus tartomány. Mintavétel és döntés.
- -
A sokaság normális eloszlású, szórása $\sigma$, $H_0$ a sokaság átlagára vonatkozik, a minta elemszáma $n$.
- -
A sokaság normális eloszlású, szórása nem ismert, $H_0$ a sokaság átlagára vonatkozik, a minta elemszáma $n$
- -
A sokaság tetszőleges eloszlású, szórása nem ismert, $H_0$ a sokaság átlagára vonatkozik, a minta $n$ elemű, elemszáma nagy.
- -
A sokaság tetszőleges eloszlású, $H_0$ a sokasági arányra vonatkozik, a minta $n$ elemű, elemszáma nagy
- -
A sokaság normális eloszlású, $H_0$ a sokasági szórásra vonatkozik, a minta $n$ elemű.
- -
A sokaság eloszlására irányuló vizsgálat.
- -
A sokaságon belül két ismérv függetlenségére irányuló vizsgálat. $H_0$: a két ismérv független, az ellenhipotézis pedig, $H_1$: a két ismérv közti kapcsolat sztochasztikus vagy függvényszerű.
- -
Két sokaságban valamely változó eloszlásának egyezőségére irányuló vizsgálat. $H_0$: a két sokaságban az eloszlás egyező, az ellenhipotézis pedig, $H_1$: a két eloszlás nem egyező.
- -
Mindkét sokaság normális eloszlású, szórásaik $\sigma_X$ és $\sigma_Y$.
- -
A két sokaság normális eloszlású és szórásaik egyformák.
- -
A két sokaság eloszlása és szórása nem ismert, mindkettő szórása véges, és mindkét minta elemszáma elég nagy.
- -
Két sokaság szórásának összehasonlítására irányuló próba, ha mindkét sokaság normális eloszlású. A nullhipotézis $H_0$: $\sigma_1^2 = \sigma_2^2$
- -
Több sokaság várható értékének összehasonlítására vonatkozó próba, ha mindegyik sokaság normális eloszlású és azonos szórású.
- -
A Bartlett-próba több sokaság szórásának összehasonlítására vonatkozó próba, ha mindegyik sokaság normális eloszlású.
Regressziószámítás
- -
A regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától.
- -
A regressziós egyenes egy lineáris függvény, ami mindegyik x-hez hozzárendel valamilyen y-t. Ezek általánan eltérnek a valódi y-októl. Ezeket az eltéréseket reziduumoknak nevezzük.
- -
A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg.
- -
Ha az SSE értékeit elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét, akkor kapjuk a reziduális szórást.
- -
A lineáris korrelációs együttható azt méri, hogy x és y között milyen szoros lineáris kapcsolat van.
- -
A magyarázóerőt méri az úgynevezett determinációs együttható.
- -
A hatványkitevős modellben y helyett lg y, x helyett lg x van, $\hat{b}_1$ viszont marad $\hat{b}_1$
- -
Az exponenciális modellben y helyett lg y van, az x viszont marad x, $\hat{b}_1$ helyett pedig $\lg{ \hat{b}_1}$ van.
- -
Az elaszticitás két összefüggő jelenség közti kapcsolat.
- -
5 feltétel standard lineáris modellhez.
- -
A paraméterek és a regresszió becslése standard lineáris modellben.
- -
A többváltozós regressziós modelleket olyankor alkalmazzuk, amikor az eredményváltozó alakulását több magyarázó változó tükrében vizsgáljuk.
- -
A kétváltozós esethez hasonlóan a korreláció itt is a változók közti kapcsolat szorosságát írja le, csakhogy itt egy fokkal rosszabb a helyzet, ugyanis most bármely két változó korrelációját vizsgálhatjuk. Ezt tartalmazza a korrelációmátrix.
- -
A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a $H_0 : b_i = 0$ feltevést, ellenhipotézisnek pedig azt, hogy $H_1 : b_i \neq 0$.
- -
Négyzetösszeg, szabadságfok, átlagos négyzetösszeg, F.
- -
A multikollinearitás röviden összefoglalva azt jelenti, hogy két vagy több magyarázó változó között túl szoros korrelációs kapcsolat van, és ez zavarja a becslést.
- -
Az autokorreláció a regresszió maradéktagjának a saját későbbi értékeivel való korrelációját jelenti, vagyis egyfajta szabályszerűséget a maradékváltozóban.
- -
A Durbin-Wattson-teszt lényegében egy hipotizésvizsgálat.