Adatelemzés 1
A kurzus 9 szekcióból áll: Alapfogalmak, Becslések, Egy ismérv szerinti elemzés, Hipotézisvizsgálat, Idősorok, Indexszámítás, Két ismérv szerinti elemzés, Regressziószámítás, Standardizálás
Alapfogalmak
- -
Az ismérvek olyan vizsgálati szempontok, amelyek alapján a sokaság részekre osztható.
- -
A nominális (névleges) mérési skála a sokaság elemeit valamilyen tulajdonság szerint csoportokba sorolja, de a csoportok között nincsen semmilyen sorrendiség.
- -
Az ordinális (sorrendi) mérési skála a sokaság elemeit valamilyen tulajdonság szerint csoportokba sorolja, és a csoportok között van sorrendiség.
- -
Az intervallum-skála a sokaság elemeit valamilyen mérés szerint rendezi sorba.
- -
Az arány-skála a sokaság elemeit szintén valamilyen mérés szerint rendezi sorba, de abban különbözik az intervallum-skálától, hogy ennek van valódi nullpontja.
- -
Hogyha egy sokaság elemei egymástól jól elkülöníthető egységek, akkor a sokaság diszkrét.
- -
Hogyha egy sokaság nem diszkrét, akkor az folytonos.
- -
Az időpontra vonatkozó sokaságokat álló sokaságnak nevezzük.
- -
Az időtartamra vonatkozó sokaságokat mozgó sokaságnak nevezzük.
- -
A viszonyszámok kiszámolásának módja meglehetősen semmitmondó.
- -
Ha több viszonyszámunk van, fölmerülhet az igény ezek átlagolására.
- -
Ha több viszonyszámunk van, fölmerülhet az igény ezek átlagolására.
- -
A dinamikus viszonyszámok idősorok adataiból számított hányadosok.
- -
A megoszlási viszonyszám egy sokaság valamely részének az egészhez viszonított arányát írja le.
- -
Az intenzitási viszonyszám két, egymással valamilyen kapcsolatban álló sokaság mennyiségeinek hányadosa.
- -
Azokat az adatsorokat nevezzük idősornak, melyek egy vagy több ismérv időben történő megoszlását írják le.
- -
A bázisviszonyszámok mindig a bázishoz viszonyítanak.
- -
A láncviszonyszámok mindig az előző évhez viszonyítanak.
- -
Összeadogatjuk a változásokat, aztán elosztjuk...
- -
A változás üteme azt adja meg, hogy hány százalékos volt a változás.
- -
A tartamidősorok egy vizsgált időtartamra vonatkozó megfigyeléseket tartalmaznak.
- -
Az állapotidősorok egy vizsgált időtartam egy adott pillanatára vonatkozó megfigyeléseket tartalmazzák.
- -
Egy speciális átlag, például ha négy hónap adataiból számoljuk ki az átlagot, viszont csak három hónapos időtartamra.
- -
Ezek tulajdonképpen egymás mellett szerepeltetett valamilyen adatok.
- -
Lényege, hogy az adatokat valamelyik ismérv szerint tudjuk összesíteni.
- -
Mindegyik ismérv szerint tudjuk az adatokat összesíteni.
Becslések
- -
Olyan esetekben, amikor valamiért nem tudjuk vagy nem akarjuk a teljes sokaságot megvizsgálni, hogy meghatározzuk a fontosabb statisztikai mutatóit, becslést alkalmazunk.
- -
A megbízhatósági szintet konfidencia szintnek nevezzük.
- -
Az $1- \alpha$ megbízhatósági szinthez, vagy másként konfidencia szinthez tartozó konfidencia intervallumok azok az intervallumok, amik a sokasági átlagot $1-\alpha$ valószínűséggel tartalmazzák.
- -
Módszer az átlag intervallumbecslésére, ha a sokasági szórás ismert.
- -
A FAE minta azt jelenti, hogy a mintavétel során bármely mintaelemet azonos eséllyel választunk ki.
- -
Módszer átlag intervallumbecslésére, ha a sokasági szórás nem ismert.
- -
Módszer arány intervallumbecslésére.
- -
Módszer variancia intervallumbecslésre.
- -
Az EV-minta abban különbözik a FAE-mintától, hogy a kiválasztott mintaelemek nem függetlenek egymástól.
- -
Módszer átlag intervallumbecslésre, ha a sokasági szórás nem ismert (EV-minta).
- -
Módszer arány intervallumbecslésére EV-minta esetén.
- -
Ha a teljes sokaságot felosztjuk viszonylag homogén rétegekre, és a mintát is ezen a rétegek szerint vizsgáljuk, a variancia csökkenthető.
- -
A kétmintás becslésekre akkor van szükség, amikor két sokaság valamilyen paraméterét, leginkább az átlagát szeretnénk összehasonlítani.
- -
Ha mindkét sokaság közel normális eloszlású, akkor az átlagok különbségének becslésére ez a formula van forgalomban.
- -
Egy becslést torzítatlannak nevezünk, ha az egyes mintákból kapott becslések várható értéke megegyezik a becsülni kívánt mennyiséggel.
- -
A kérdés az, hogy ha egy sokasági jellemzőre több becslés jöhet szóba, hogyan válasszunk közülük, vagyis mikor tekintünk egy becslést jónak, kettő közül melyiket tekintjük jobbnak és kijelenthetjük-e valamelyikről, hogy a legjobb?
- -
Két becslés közül azt részesítjük előnyben, amelyre MSE kisebb.
- -
A standard hiba azt mondja meg, hogy a mintaátlagok mekkora szórással ingadoznak a tényleges sokasági átlag körül.
- -
Mintavételi hibának azokat a hibákat nevezzük, amik kimondottan azért fordulnak elő, mert nem tudjuk, vagy nem akarjuk a teljes sokaságot vizsgálni.
Egy ismérv szerinti elemzés
- -
A módusz a leggyakoribb érték.
- -
A medián a növekvő sorba rendezett adatsor középső értéke.
- -
Az átlag az összes elem összege osztva az elemszámmal.
- -
Az átlagtól való átlagos eltérést szórásnak nevezzük és egy szigma nevű görög betűvel jelöljük.
- -
Az adatsor első felének a felezőpontja az alsó kvartilis.
- -
Az adatsor második felének a felezőpontja a felső kvartilis.
- -
A kvartilisek és a medián azt szemlélteti, hogyan oszlanak el az adatsorban szereplő adatok.
- -
A relatív szórás azt mondja meg, hogy a szórás az átlagnak hány százaléka:
- -
A módusz gyakorisági sorok esetében már másképp számolható ki, mint ahogy középiskolában megszoktuk.
- -
Gyakorisági sorok esetében a medián kiszámítása másképp zajlik, mint azt középiskolában megszoktuk.
- -
A kvartiliseket gyakorisági sorok esetében máshogy kell kiszámolni, mint azt középiskolában tettük.
- -
A relatív gyakoriságot úgy kell kiszámolni, hogy a gyakoriságot osztjuk az összes elemszámmal.
- -
Az értékösszeget úgy kapjuk meg, hogy az osztályközepeket megszorozzuk a gyakorisággal.
- -
A Herfindahl-index egy eszköz a koncentráció vizsgálatára.
- -
A Lorenz-görbe egy eszköz a koncentráció vizsgálatára.
- -
Az egyik legegyszerűbb és leggyakrabban használt alakmutatók, az úgynevezett Pearson-féle mérőszámok:
- -
Az egyik legegyszerűbb és leggyakrabban használt alakmutatók, az úgynevezett Pearson-féle mérőszámok mellett az F-mutatók.
- -
A csúcsosság azt jelenti, hogy az eloszlás görbéje mennyire csúcsosodik ki.
Hipotézisvizsgálat
- -
Az elfogadási tartomány az a tartomány, ahová ha a próba értéke kerül, akkor a nullhipotézist elfogadjuk.
- -
A kritikus tartomány az a tartomány, ahová ha a próba értéke kerül, akkor a nullhipotézist elvetjük.
- -
A szignifikanciaszint a hibás döntés valószínűsége.
- -
A hipotézis megfogalmazása. A próbafüggvény kiválasztása. Szignifikanciaszint és kritikus tartomány. Mintavétel és döntés.
- -
A sokaság normális eloszlású, szórása $\sigma$, $H_0$ a sokaság átlagára vonatkozik, a minta elemszáma $n$.
- -
A sokaság normális eloszlású, szórása nem ismert, $H_0$ a sokaság átlagára vonatkozik, a minta elemszáma $n$
- -
A sokaság tetszőleges eloszlású, szórása nem ismert, $H_0$ a sokaság átlagára vonatkozik, a minta $n$ elemű, elemszáma nagy.
- -
A sokaság tetszőleges eloszlású, $H_0$ a sokasági arányra vonatkozik, a minta $n$ elemű, elemszáma nagy
- -
A sokaság normális eloszlású, $H_0$ a sokasági szórásra vonatkozik, a minta $n$ elemű.
- -
A sokaság eloszlására irányuló vizsgálat.
- -
A sokaságon belül két ismérv függetlenségére irányuló vizsgálat. $H_0$: a két ismérv független, az ellenhipotézis pedig, $H_1$: a két ismérv közti kapcsolat sztochasztikus vagy függvényszerű.
- -
Két sokaságban valamely változó eloszlásának egyezőségére irányuló vizsgálat. $H_0$: a két sokaságban az eloszlás egyező, az ellenhipotézis pedig, $H_1$: a két eloszlás nem egyező.
- -
Mindkét sokaság normális eloszlású, szórásaik $\sigma_X$ és $\sigma_Y$.
- -
A két sokaság normális eloszlású és szórásaik egyformák.
- -
A két sokaság eloszlása és szórása nem ismert, mindkettő szórása véges, és mindkét minta elemszáma elég nagy.
- -
Két sokaság szórásának összehasonlítására irányuló próba, ha mindkét sokaság normális eloszlású. A nullhipotézis $H_0$: $\sigma_1^2 = \sigma_2^2$
- -
Több sokaság várható értékének összehasonlítására vonatkozó próba, ha mindegyik sokaság normális eloszlású és azonos szórású.
- -
A Bartlett-próba több sokaság szórásának összehasonlítására vonatkozó próba, ha mindegyik sokaság normális eloszlású.
Idősorok
- -
A dekompozíciós modellek lényege, hogy az idősorok négy, egymástól elkülöníthető komponensből tevődnek össze.
- -
A lineáris trend egyenlete Excellel és kézzel is kiszámolható.
- -
A szezonalitást úgy kell elképzelni, hogy az minden nyári szezonban ugyanannyit hozzáad, minden téliben pedig ugyanannyit elvesz a trendvonal által meghatározott értékből.
- -
Korrigált szezonális eltérés akkor lesz, ha a nyers szezonális eltérések összege nem nulla.
- -
A tartamidősorok egy vizsgált időtartamra vonatkozó megfigyeléseket tartalmaznak.
- -
Az állapotidősorok egy vizsgált időtartam egy adott pillanatára vonatkozó megfigyeléseket tartalmazzák.
- -
Egy speciális átlag, például ha négy hónap adataiból számoljuk ki az átlagot, viszont csak három hónapos időtartamra.
- -
Ezzel a trükkel jelentősen csökkenthetjük a normálegyenletek által okozott szenvedéseket.
Indexszámítás
- -
A volumenindex a forgalom változásának mértéke.
- -
Az árindex a szektort érintő árváltozást méri.
- -
A legtöbb feladatban nincs külön megadva $p_0$ és $p_1$ valamint $q_0$ és $q_1$ pontos értéke, ezért különböző bűvészmutatványokra lesz szükség.
- -
A Fischer-féle árindex és volumenindex kiszámítása.
- -
Képletek az értékindex kiszámításához.
- -
A vásárlóerő mérésére van forgalomban az úgynevezett vásárlóerő-paritás.
Két ismérv szerinti elemzés
- -
Egy sokaságot egyszerre több ismérv szerint is vizsgálhatunk.
- -
Ha mindkét ismérv minőségi (vagy területi), akkor asszociációs kapcsolatról beszélünk.
- -
Ha az egyik ismérv minőségi (vagy területi), a másik mennyiségi, akkor vegyes kapcsolatról beszélünk.
- -
Ha mindkét ismérv mennyiségi, akkor korrelációs kapcsolatról beszélünk.
- -
Ha mindkét ismerv sorrendi, akkor rangkorrelációs kapcsolatról beszélünk.
- -
Ha két ismérv között nincs kapcsolat, akkor függetlenek.
- -
Ha két ismérv között marhára van kapcsolat, akkor az függvényszerű.
- -
Ha a két ismérv között csak egy pici kapcsolat van.
- -
A Cramer-féle asszociációs együttható arra való, hogy amikor mindkét ismérv minőségi, rávilágítson a két ismérv közötti kapcsolat szorosságára.
- -
A kombinációs tábla általános sémája.
- -
A Csuprov-féle mutató segítségével két ismérv közötti kapcsolatot vizsgálhatjuk.
- -
Ha azt vizsgáljuk, hogy az egyes értékek mennyire térnek el a részátlagoktól, akkor belső szórást számolunk.
- -
Ha a részátlagoknak nézzük a főátlagtól való eltérését, az a külső szórás.
- -
A teljes szórás az egész sokaság szórását jelenti.
- -
A belső eltérés-négyzetösszeg a belső szórás gyök alatti részének számlálója.
- -
A külső eltérés-négyzetösszeg a külső szórás gyök alatti részének számlálója.
- -
A teljes eltérés-négyzetösszeg a teljes szórás gyök alatti részének számlálója.
- -
A PRE egy rövidítés, Proportional Reduction Errors, ami relatív hibacsökkenésnek fordítható.
- -
A lineáris korrelációs együttható azt méri, hogy $X$ és $Y$ között milyen szoros lineáris kapcsolat van.
- -
A determinációs együttható pontosan úgy értelmezhető, mint a PRE mutató a vegyes kapcsolatnál.
- -
Ha pl. egy verseny eredményét ketten is megtippelik, és el kell döntenünk melyikük találta el jobban a valós eredményt...
Regressziószámítás
- -
A regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától.
- -
A regressziós egyenes egy lineáris függvény, ami mindegyik x-hez hozzárendel valamilyen y-t. Ezek általánan eltérnek a valódi y-októl. Ezeket az eltéréseket reziduumoknak nevezzük.
- -
A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg.
- -
Ha az SSE értékeit elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét, akkor kapjuk a reziduális szórást.
- -
A lineáris korrelációs együttható azt méri, hogy x és y között milyen szoros lineáris kapcsolat van.
- -
A magyarázóerőt méri az úgynevezett determinációs együttható.
- -
A hatványkitevős modellben y helyett lg y, x helyett lg x van, $\hat{b}_1$ viszont marad $\hat{b}_1$
- -
Az exponenciális modellben y helyett lg y van, az x viszont marad x, $\hat{b}_1$ helyett pedig $\lg{ \hat{b}_1}$ van.
- -
Az elaszticitás két összefüggő jelenség közti kapcsolat.
- -
5 feltétel standard lineáris modellhez.
- -
A paraméterek és a regresszió becslése standard lineáris modellben.
- -
A többváltozós regressziós modelleket olyankor alkalmazzuk, amikor az eredményváltozó alakulását több magyarázó változó tükrében vizsgáljuk.
- -
A kétváltozós esethez hasonlóan a korreláció itt is a változók közti kapcsolat szorosságát írja le, csakhogy itt egy fokkal rosszabb a helyzet, ugyanis most bármely két változó korrelációját vizsgálhatjuk. Ezt tartalmazza a korrelációmátrix.
- -
A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a $H_0 : b_i = 0$ feltevést, ellenhipotézisnek pedig azt, hogy $H_1 : b_i \neq 0$.
- -
Négyzetösszeg, szabadságfok, átlagos négyzetösszeg, F.
- -
A multikollinearitás röviden összefoglalva azt jelenti, hogy két vagy több magyarázó változó között túl szoros korrelációs kapcsolat van, és ez zavarja a becslést.
- -
Az autokorreláció a regresszió maradéktagjának a saját későbbi értékeivel való korrelációját jelenti, vagyis egyfajta szabályszerűséget a maradékváltozóban.
- -
A Durbin-Wattson-teszt lényegében egy hipotizésvizsgálat.
Standardizálás
- -
A standardizálást egy látszólag teljesen ellentmondásos statisztikai probléma megoldására találták ki.
- -
Területi összehasonlításhoz tartozó képletek.
- -
Időbeli összehasonlításhoz tartozó képletek.
- -
A standardizálást nem csak területi, hanem időbeli összehasonlításokhoz is alkalmazzuk.