Adatelemzés 2
A kurzus 12 szekcióból áll: Kombinatorika, Valszám alapok, klasszikus valszám, Teljes valószínűség tétele, Bayes tétel, Eloszlás, eloszlásfüggvény, sűrűségfüggvény, Várható érték és szórás, Markov és Csebisev egyenlőtlenségek, A binomiális eloszlás és a hipergeometriai eloszlás, Nevezetes diszkrét és folytonos eloszlások, Becslések, Hipotézisvizsgálat, Regressziószámítás, Idősorok
STATISZTIKAI BECSLÉSEK - Statisztikai becslések, pontbecslés, intervallumbecslés, standard hiba, mintavételi hiba, nemmintavételi hiba, FAE-minta, EV-minta,rétegzett minta, többlépcsős minta, torzítatlanság, minimális variancia elve, konfidencia szint, konfidencia tartomány, sokasági átlag becslése, sokasági arány becslése, sokasági variancia.
HIPOTÉZISVIZSGÁLAT - A hipotézisvizsgálat menete, nullhipotézis, ellenhipotézis, szignifikanciaszint, elsőfajú és másodfajú hiba, próbafüggvény, próbák, kritikus tartomány, kritikus érték, paraméteres próbák, nemparaméteres próbák, Z-próba, t-próba, khí-négyzet-próba, homogenitás- vizsgálat, illeszkedésvizsgálat, függetlenségvizsgálat, F-próba, varianciaanalízis, Bartlett-próba.
REGRESSZIÓSZÁMÍTÁS - Regresszió alapötlete, magyarázó változók, eredményváltozó, proxy változó, dummy változó, lineáris kétváltozós regresszió, reziduumok, reziduális szórás, korreláció, kovariancia, elaszticitás, többváltozós lineáris regressziós modell, paraméterek becslése, elaszticitás, korrelációs mátrix, kovariancia mátrix, standard lineáris modell, paraméterek intervallumbecslése, paraméterek szeparált tesztelése, t-próba, modell tesztelése, autokorreláció, nem lineáris regressziók.
IDŐSOROK - Állapot idősor, tartam idősor, változás üteme és mértéke, kronologikus átlag, mozgóátlagok, mozgóátlagolású trend, simítás, szűrés, dekompozíciós idősormodellek, lineáris trend, exponenciális trend, trendegyenlet, normálegyenletek, szezonalitás, szezonális eltérés, szezonindex, szezonalitással kiigazított trend, szezonalitástól megtisztított trend.
Kombinatorika
- -
Egy adott n elemű halmaz elemeinek egy ismétlés nélküli permutációján az n különböző elem egy sorba rendezését értjük.
- -
$n$ faktoriálisán az $n$-nél kisebb vagy egyenlő pozitív egész számok szorzatát értjük.
- -
Ismétlés nélküli variációról akkor beszélünk, ha n különböző elem közül kiválasztunk k db.-ot úgy, hogy a kiválasztott elemek sorrendje is számít.
- -
Ismétlés nélküli kombinációról akkor beszélünk, ha n különböző elem közül kiválasztunk k db.-ot úgy, hogy a kiválasztott elemek sorrendjére nem vagyunk tekintettel.
- -
Ismétléses permutációról akkor beszélünk, ha n elem sorrendjére vagyunk kiváncsiak, de ezen elemek között vannak megegyezőek is.
- -
Ismétléses variációról akkor beszélünk, ha n különböző elem közül kiválasztunk k db.-ot úgy, hogy a kiválasztott elemek sorrendje is számít és egy elemet többször is választhatunk.
- -
Ha kör alakban helyezünk el n különböző elemet és azok sorrendjét vizsgáljuk, akkor ciklikus permutációról beszélünk.
Valszám alapok, klasszikus valszám
- -
Eseményeknek nevezzük a valószínűségi kísérlet során bekövetkező lehetséges kimeneteleket.
- -
A valószínűség kiszámításának klasszikus modellje az, hogy megszámoljuk hány elemi eseményből áll a vizsgált esemény és ezt elosztjuk az összes elemi esemény számával.
- -
Mikor mondjuk, hogy két esemény egymástól független? Példák független eseményekre.
- -
Mikor kizáró két esemény? Példák kizáró eseményekre.
- -
A feltételes valószínűség. Az A feltéva B valószínűség azt jelenti, hogy mekkora eséllyel következik be az A esemény, ha a B esemény biztosan bekövetkezik..
- -
Események metszetének, uniójának, különbségének és komplementerének valószínűségei.
Teljes valószínűség tétele, Bayes tétel
- -
A teljes valószínűség tétele azt mondja ki, hogy ha ismerjük egy A esemény feltételes valószínűségét egy teljes eseményrendszer valamennyi eseményére, akkor ebből az A esemény valószínűsége kiszámítható.
- -
Eloszlás, eloszlásfüggvény, sűrűségfüggvény
- -
Folytonosnak nevezzük azokat a valószínűségi változókat, amik folytonos mennyiségeket mérnek, ilyen például az idő, a távolság.
- -
Diszkrétnek nevezzük azokat a valószínűségi változókat, amik megszámlálhatóan sok értéket vesznek fel.
- -
Az X valószínűségi változó eloszlásfüggvénye F(x). F(x)=P(x<X) Vagyis minden x számhoz hozzárendeli annak a valószínűségét, hogy X<x. Nos ez elég izgi..
- -
A sűrűségfüggvény a görbe alatti területekkel írja le egy esemény valószínűségét.
- -
Az eloszlásfüggvény határértéke minusz végtelenben 0, plusz végtelenben 1, monoton nő és balról folytonos.
- -
A sűrűségfüggvény integrálja minusz végtelentől plusz végtelenig 1, és nem negatív.
- -
Három nagyon fontos összefüggés eloszlásfüggvény és sűrűségfüggvény között.
- -
Az $X$ valószínűségi változó $F(x)$ eloszlásfüggvényéből úgy kapjuk meg az $f(x)$ sűrűségfüggvényét, hogy az $F(x)$ eloszlásfüggvényt deriváljuk. Fordítva pedig integrálni kell.
Várható érték és szórás
- -
A valószínűségi változó értékeinek valószínűségekkel súlyozott átlaga. De valójában ez rém egyszerű, nézzünk rá néhány példát.
- -
A szórás azt mutatja meg, hogy a várható érték körül milyen nagy ingadozásra számíthatunk.
- -
Folytonos valószínűségi változók esetén a várható értéket egy integrálás segítségével számítjuk.
- -
Folytonos valószínűségi változó esetén a szórást ugyanúgy kell számolni, mint diszkrét valószínűségi változó esetén:
Markov és Csebisev egyenlőtlenségek
- -
A Markov egyenlőtlenség arról szól, hogy az X valószínűségi változó a várható értéknél nem lehet sokkal nagyobb.
- -
A Csebisev egyenlőtlenség azt írja le, hogy az X valószínűségi változó várható értéktől való eltérése nem lehet túl nagy.
- -
Ha egy esemény bekövetkezésének elméleti valószínűsége $p$, akkor minél többször végezzük el a kísérletet, a relatív gyakoriság és az elméleti valószínűség eltérése annál kisebb lesz.
A binomiális eloszlás és a hipergeometriai eloszlás
- -
Ha a szövegben valószínűségek vannak megadva, akkor a binomiális eloszlást szoktuk használni.
- -
A visszatevées mintavételhez kapcsolódó eloszlás a binomiális eloszlás.
- -
Ha húzásokat vizsgálunk úgy, hogy a kihúzott elemeket nem tesszük vissza, akkor ez egy visszatevés nélküli mintavétel.
- -
A hipergeometriai eloszlás a visszatevés nélküli mintavételhez kapcsolódó eloszlás.
Nevezetes diszkrét és folytonos eloszlások
- -
A hipergeometriai eloszlás egy diszkrét eloszlás, ahol N darab elem közül kiválasztunk n darab elemet visszatevés nélkül. Az összes elem között K darab selejtes található. Az eloszlás annak valószínűségét írja le, hogy a kiválasztott elemek között éppen k darab selejtes van.
- -
A binomiális eloszlás egy diszkrét eloszlás, ahol egy esemény bekövetkezésének a valószínűsége p és egymástól függetlenül elvégzünk n darab kísérletet, ahol a kísérletek mindegyikében az esemény vagy bekövetkezik vagy nem. Az eloszlás annak valószínűségét írja le, hogy az esemény éppen k-szor következik be.
- -
A Poisson eloszlás egy diszkrét eloszlás, ahol egy esemény bekövetkezésének a várható előfordulása lambda darab. Az eloszlás annak valószínűségét írja le, hogy az esemény éppen k-szor következik be.
- -
Az eltelt idők és a távolságok eloszlása.
- -
- -
Mennyiségek eloszlása.
Becslések
- -
Olyan esetekben, amikor valamiért nem tudjuk vagy nem akarjuk a teljes sokaságot megvizsgálni, hogy meghatározzuk a fontosabb statisztikai mutatóit, becslést alkalmazunk.
- -
A megbízhatósági szintet konfidencia szintnek nevezzük.
- -
Az $1- \alpha$ megbízhatósági szinthez, vagy másként konfidencia szinthez tartozó konfidencia intervallumok azok az intervallumok, amik a sokasági átlagot $1-\alpha$ valószínűséggel tartalmazzák.
- -
Módszer az átlag intervallumbecslésére, ha a sokasági szórás ismert.
- -
A FAE minta azt jelenti, hogy a mintavétel során bármely mintaelemet azonos eséllyel választunk ki.
- -
Módszer átlag intervallumbecslésére, ha a sokasági szórás nem ismert.
- -
Módszer arány intervallumbecslésére.
- -
Módszer variancia intervallumbecslésre.
- -
Az EV-minta abban különbözik a FAE-mintától, hogy a kiválasztott mintaelemek nem függetlenek egymástól.
- -
Módszer átlag intervallumbecslésre, ha a sokasági szórás nem ismert (EV-minta).
- -
Módszer arány intervallumbecslésére EV-minta esetén.
- -
Ha a teljes sokaságot felosztjuk viszonylag homogén rétegekre, és a mintát is ezen a rétegek szerint vizsgáljuk, a variancia csökkenthető.
- -
A kétmintás becslésekre akkor van szükség, amikor két sokaság valamilyen paraméterét, leginkább az átlagát szeretnénk összehasonlítani.
- -
Ha mindkét sokaság közel normális eloszlású, akkor az átlagok különbségének becslésére ez a formula van forgalomban.
- -
Egy becslést torzítatlannak nevezünk, ha az egyes mintákból kapott becslések várható értéke megegyezik a becsülni kívánt mennyiséggel.
- -
A kérdés az, hogy ha egy sokasági jellemzőre több becslés jöhet szóba, hogyan válasszunk közülük, vagyis mikor tekintünk egy becslést jónak, kettő közül melyiket tekintjük jobbnak és kijelenthetjük-e valamelyikről, hogy a legjobb?
- -
Két becslés közül azt részesítjük előnyben, amelyre MSE kisebb.
- -
A standard hiba azt mondja meg, hogy a mintaátlagok mekkora szórással ingadoznak a tényleges sokasági átlag körül.
- -
Mintavételi hibának azokat a hibákat nevezzük, amik kimondottan azért fordulnak elő, mert nem tudjuk, vagy nem akarjuk a teljes sokaságot vizsgálni.
- -
Trigonometriai képlet összefoglaló. Összefüggések a tangens és kotangens között. A trigonometria alapegyenlete. Szögek kétszeresének szinusza és koszinusza.
- -
Az egységkör egy szöggel elforgatott egységvektorának végpontjának x koordinátáját nevezzük a szög koszinuszának
- -
Az egységkör egy szöggel elforgatott egységvektorának végpontjának y koordinátáját nevezzük a szög szinuszának.
- -
Egy szög tangense a szög szinuszának és koszinuszának hányadosával egyenlő.
Hipotézisvizsgálat
- -
Az elfogadási tartomány az a tartomány, ahová ha a próba értéke kerül, akkor a nullhipotézist elfogadjuk.
- -
A kritikus tartomány az a tartomány, ahová ha a próba értéke kerül, akkor a nullhipotézist elvetjük.
- -
A szignifikanciaszint a hibás döntés valószínűsége.
- -
A hipotézis megfogalmazása. A próbafüggvény kiválasztása. Szignifikanciaszint és kritikus tartomány. Mintavétel és döntés.
- -
A sokaság normális eloszlású, szórása $\sigma$, $H_0$ a sokaság átlagára vonatkozik, a minta elemszáma $n$.
- -
A sokaság normális eloszlású, szórása nem ismert, $H_0$ a sokaság átlagára vonatkozik, a minta elemszáma $n$
- -
A sokaság tetszőleges eloszlású, szórása nem ismert, $H_0$ a sokaság átlagára vonatkozik, a minta $n$ elemű, elemszáma nagy.
- -
A sokaság tetszőleges eloszlású, $H_0$ a sokasági arányra vonatkozik, a minta $n$ elemű, elemszáma nagy
- -
A sokaság normális eloszlású, $H_0$ a sokasági szórásra vonatkozik, a minta $n$ elemű.
- -
A sokaság eloszlására irányuló vizsgálat.
- -
A sokaságon belül két ismérv függetlenségére irányuló vizsgálat. $H_0$: a két ismérv független, az ellenhipotézis pedig, $H_1$: a két ismérv közti kapcsolat sztochasztikus vagy függvényszerű.
- -
Két sokaságban valamely változó eloszlásának egyezőségére irányuló vizsgálat. $H_0$: a két sokaságban az eloszlás egyező, az ellenhipotézis pedig, $H_1$: a két eloszlás nem egyező.
- -
Mindkét sokaság normális eloszlású, szórásaik $\sigma_X$ és $\sigma_Y$.
- -
A két sokaság normális eloszlású és szórásaik egyformák.
- -
A két sokaság eloszlása és szórása nem ismert, mindkettő szórása véges, és mindkét minta elemszáma elég nagy.
- -
Két sokaság szórásának összehasonlítására irányuló próba, ha mindkét sokaság normális eloszlású. A nullhipotézis $H_0$: $\sigma_1^2 = \sigma_2^2$
- -
Több sokaság várható értékének összehasonlítására vonatkozó próba, ha mindegyik sokaság normális eloszlású és azonos szórású.
- -
A Bartlett-próba több sokaság szórásának összehasonlítására vonatkozó próba, ha mindegyik sokaság normális eloszlású.
Regressziószámítás
- -
A regressziószámítás lényege annak vizsgálata, hogy egy bizonyos változó, amit eredményváltozónak hívunk, hogyan függ más változók, az úgynevezett magyarázó változók alakulásától.
- -
A regressziós egyenes egy lineáris függvény, ami mindegyik x-hez hozzárendel valamilyen y-t. Ezek általánan eltérnek a valódi y-októl. Ezeket az eltéréseket reziduumoknak nevezzük.
- -
A reziduumokból képzett mutató az úgynevezett SSE, jelentése sum of squares of the errors vagyis eltérés-négyzetösszeg.
- -
Ha az SSE értékeit elosztjuk a megfigyelt pontok számával és a kapott eredménynek vesszük a gyökét, akkor kapjuk a reziduális szórást.
- -
A lineáris korrelációs együttható azt méri, hogy x és y között milyen szoros lineáris kapcsolat van.
- -
A magyarázóerőt méri az úgynevezett determinációs együttható.
- -
A hatványkitevős modellben y helyett lg y, x helyett lg x van, $\hat{b}_1$ viszont marad $\hat{b}_1$
- -
Az exponenciális modellben y helyett lg y van, az x viszont marad x, $\hat{b}_1$ helyett pedig $\lg{ \hat{b}_1}$ van.
- -
Az elaszticitás két összefüggő jelenség közti kapcsolat.
- -
5 feltétel standard lineáris modellhez.
- -
A paraméterek és a regresszió becslése standard lineáris modellben.
- -
Trigonometriai képlet összefoglaló. Összefüggések a tangens és kotangens között. A trigonometria alapegyenlete. Szögek kétszeresének szinusza és koszinusza.
- -
Az egységkör egy szöggel elforgatott egységvektorának végpontjának x koordinátáját nevezzük a szög koszinuszának
- -
Az egységkör egy szöggel elforgatott egységvektorának végpontjának y koordinátáját nevezzük a szög szinuszának.
- -
Egy szög tangense a szög szinuszának és koszinuszának hányadosával egyenlő.
- -
A többváltozós regressziós modelleket olyankor alkalmazzuk, amikor az eredményváltozó alakulását több magyarázó változó tükrében vizsgáljuk.
- -
A kétváltozós esethez hasonlóan a korreláció itt is a változók közti kapcsolat szorosságát írja le, csakhogy itt egy fokkal rosszabb a helyzet, ugyanis most bármely két változó korrelációját vizsgálhatjuk. Ezt tartalmazza a korrelációmátrix.
- -
A tesztelés úgy zajlik, hogy nullhipotézisnek tekintjük a $H_0 : b_i = 0$ feltevést, ellenhipotézisnek pedig azt, hogy $H_1 : b_i \neq 0$.
- -
Négyzetösszeg, szabadságfok, átlagos négyzetösszeg, F.
- -
A multikollinearitás röviden összefoglalva azt jelenti, hogy két vagy több magyarázó változó között túl szoros korrelációs kapcsolat van, és ez zavarja a becslést.
- -
Az autokorreláció a regresszió maradéktagjának a saját későbbi értékeivel való korrelációját jelenti, vagyis egyfajta szabályszerűséget a maradékváltozóban.
- -
A Durbin-Wattson-teszt lényegében egy hipotizésvizsgálat.
Idősorok
- -
A dekompozíciós modellek lényege, hogy az idősorok négy, egymástól elkülöníthető komponensből tevődnek össze.
- -
A lineáris trend egyenlete Excellel és kézzel is kiszámolható.
- -
A szezonalitást úgy kell elképzelni, hogy az minden nyári szezonban ugyanannyit hozzáad, minden téliben pedig ugyanannyit elvesz a trendvonal által meghatározott értékből.
- -
Korrigált szezonális eltérés akkor lesz, ha a nyers szezonális eltérések összege nem nulla.
- -
A mozgóátlagok abban segítenek nekünk, hogy megmutatják az árfolyam mozgásának nagyobb léptékű tendenciáját, és kiszűrik a sokszor zavaró naponkénti ingadozásokat.
- -
Ezzel a trükkel jelentősen csökkenthetjük a normálegyenletek által okozott szenvedéseket.
- -
A függvény hozzárendelésének megfordításával kapjuk a függvény inverzfüggvényét, amennyiben a megfordított hozzárendelés is egy egyértelmű hozzárendelés.