Egy ismérv szerinti elemzés
Módusz
Az adatsor legyakoribb értéke a módusz. Hogyha például Bob matekjegyei ezek:
2, 3, 1, 4, 1, 2, 2, 3, 5, 2, 3, 2, 3, 2, 4, 3, 2, 4, 2, 4
Akkor egyszerűen meg kell számolni, hogy melyikből van a legtöbb, és az a matekjegy lesz a módusz. Most 2-esből van a legtöbb, így Bob matekjegyeinek a módusza 2. A módusz jele Mo és így most Mo=2.
Léteznek olyan eloszlások is, amelyeknek több módusza van. Hogyha például Bob jegyei:
1, 2, 2, 3, 5, 3, 3, 4, 2
Itt 2-esből és 3-asból ugyanannyi van, mindkettőből 3 darab. Ez egy kétmóduszú eloszlás.
Medián
A medián a növekvő sorba rendezett adatsor középső értéke. Ha az adatsorban páros sok elem van, akkor nincs középső elem, ilyenkor a két középső elem átlagát vesszük.
Hogyha például Bob matekjegyei ezek:
2, 3, 1, 4, 1, 2, 2, 3, 5, 2, 3, 2, 3, 2, 4, 3, 2, 4, 2, 4
Akkor egyszerűen növekvő sorba kell rakni..
1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5
És aztán meg kell keresni melyik a középső. Most nincsen középső, mert páros sok elem van, így ilyenkor a két középen lévőt átlagoljuk:
1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5
Ezeknek az átlaga 2,5 vagyis a medián most 2,5. A medián jele Me, így Me=2,5
Átlag
Az átlagot úgy kapjuk meg, hogy az összes elemet összeadjuk, és aztán elosztjuk az elemek számával.
Jele: $\overline{x}$
Szórás
Az átlagtól való átlagos eltérés egyik legjobb mérőszáma a szórás. Hátránya, hogy egy kicsit ronda a szórás képlete. A szórást egy szigma nevű görög betűvel jelöljük.
\( \sigma = \sqrt{ \frac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\dots+(x_n-\overline{x})^2}{n} } \)
Alsó kvartilis
Az adatsor első felének a felezőpontja az alsó kvartilis.
Az alsó kvartilis jele: $Q_1$
Felső kvartilis
Az adatsor második felének a felezőpontja a felső kvartilis.
A felső kvartilis jele: $Q_3$
Dobozdiagram, doboz-ábra (box plot)
A kvartilisek és a medián azt szemlélteti, hogyan oszlanak el az adatsorban szereplő adatok. Ezek segítségével készíthető el a doboz-ábra, vagy másnéven dobozdiagram. Szokás még sodrófa diagramnak is nevezni, és az angol elnevezést is gyakran használják, ami a box plot.
Egy sobarendezett adatsorban öt darab speciális negyedelőpontot fogunk használni. Az első az adatsor legkisebb értéke, ez a Q0 . Aztán a következő negyedelő az alsó kvartilis, ami Q1 utána jön a felezőpont vagyis a medián, ezt Me-vel és Q2-vel is jelöljük, végül a felső kvartilis, ami a Q3. Az adatsor legnagyobb értéke pedig Q4. A legnagyobb és a legkisebb érték különbsége a terjedelem, míg a két kvartilis különbségét félterjedelemnek vagy más néven interkvartilisnek hívjuk. Ezekből épül föl a doboz-ábra vagy másként dobozdiagram.
Előfordulhat, hogy az adatsorban kiugró értékek is szerepelnek. A kiugró érték az, ami az alsó kvartilisnál legalább a félterjedelem másfélszeresénél kisebb, vagy pedig a felső kvartilisnél legalább a félterjedelem másfélszeresénél nagyobb. Huh, ez elég bonyolultan hangzik. De valójában nagyon egyszerű, csak nézd meg kapcsolódó epizódot és kiderül.
Relatív szórás
A relatív szórás azt mondja meg, hogy a szórás az átlagnak hány százaléka:
\( V = \frac{\sigma}{\overline{X}} \)
Módusz (gyakorisági sorok esetében)
\( Mo = mo + \frac{k_1}{k_1+k_2} \cdot h_{mo} \)
A képletben $mo$ a nyers módusz, ami a legnagyobb gyakoriságú osztály alsó határa. A $k_1$-et úgy kapjuk, ha ennek az osztályköznek a gyakoriságából kivonjuk az előtte lévő osztályköz gyakoriságát. A $k_2$-t pedig úgy kapjuk, ha ennek az osztályköznek a gyakoriságából az utána lévő osztályköz gyakoriságát vonjuk le. A $h_{mo}$ pedig ennek az osztályköznek a hosszát jelöli.
Medián (gyakorisági sorok esetében)
\( Me = me + \frac{ \frac{N}{2} - f'_{me-1}}{f_{me}}\cdot h_{me} \)
Itt $f'$ a kumulált gyakoriság. $me$ a mediánt tartalmazó osztályköz eleje, $f_{me}$ a mediánt tartalmazó osztályköz gyakorisága, $f'_{me-1}$ a medián előtti osztályköz kumulált gyakorisága, $h_{me}$ pedig a mediánt tartalmazó osztályköz hossza.
Kvartilisek (gyakorisági sorok esetében)
\( Q_{\frac{k}{m}} = a_i + \frac{\frac{k}{m}\cdot N-f'_{i-1}}{f_i} \cdot h_i \)
Az alsó kvartilis:
\( Q_{\frac{1}{4}} = a_i + \frac{\frac{1}{4}\cdot N-f'_{i-1}}{f_i} \cdot h_i \)
A felső kvartilis:
\( Q_{\frac{3}{4}} = a_i + \frac{\frac{3}{4}\cdot N-f'_{i-1}}{f_i} \cdot h_i \)
Relatív gyakoriság
A relatív gyakoriság jele $g_i$, és úgy kell kiszámolni, hogy a gyakoriságot osztjuk az összes elemszámmal:
\( g_i = \frac{f_i}{N} \)
Értékösszeg
Az értékösszeg jele $S_i$ és úgy kapjuk meg, hogy az osztályközepeket megszorozzuk a gyakorisággal.
\( S_i = X_i \cdot f_i \)
Herfindahl-index
A Herfindahl-index egy eszköz a koncentráció vizsgálatára.
\( HI = \sum Z^2_i \)
A Herfindahl-index 1/N és 1 között vesz fel értékeket és minél közelebb van az 1-hez, annál nagyobb a koncentráció.
Lorenz-görbe
A Lorenz-görbe egy eszköz a koncentráció vizsgálatára.
A Lorenz-görbe az úgynevezett koncentrációs területtel szemlélteti a koncentráció mértékét.
Minél nagyobb ez a terület, a koncentráció annál erősebb.
Olyankor pedig, amikor a Lorenz görbe egybeesik a négyzet átlójával, a koncentráció nulla.
Pearson-mutató
Az alakmutatók arról szólnak, hogy az eloszlás mennyire asszimetrikus.
Az egyik legegyszerűbb és leggyakrabban használt alakmutatók, az úgynevezett Pearson-féle mérőszámok:
\( P = 3 \frac{ \overline{X}-Me}{\sigma} \qquad A= \frac{\overline{X}-Mo}{\sigma} \)
A negatív értékek jobb oldali asszimetriát jelentenek. A pozitív értékek esetén pedig bal oldali asszimetria van.
A Pearson-féle P és A mutatók általában -1 és 1 között tartózkodnak és csak extrém esetekben vesznek föl 1-nél nagyobb vagy -1-nél kisebb értéket.
F-mutató
Az alakmutatók arról szólnak, hogy az eloszlás mennyire asszimetrikus.
Az egyik legegyszerűbb és leggyakrabban használt alakmutatók, az úgynevezett Pearson-féle mérőszámok mellett az F-mutatók:
\( F_{0,25} = \frac{ \left( Q_3 - Me \right) - \left( Me - Q_1 \right) }{ \left( Q_3 - Me \right) + \left( Me - Q_1 \right) } \)
\( F_{0,1} = \frac{ \left( D_9 - Me \right) - \left( Me - D_1 \right) }{ \left( D_9 - Me \right) + \left( Me - D_1 \right) } \)
ahol $D_1$ az első, $D_9$ pedig a kilencedik decilist jelenti.
A negatív értékek jobb oldali asszimetriát jelentenek. A pozitív értékek esetén pedig bal oldali asszimetria van.
Az F mutató csak -1 és 1 között lehet.
Csúcsosság
A csúcsosság azt jelenti, hogy az eloszlás görbéje mennyire csúcsosodik ki.
A csúcsosság mérésére a következő mutató van forgalomban:
\( \alpha_4 = \frac{ M_4 ( \overline{X} )}{\sigma^4} -3 \)
Itt $M_4(\overline{X})$ az úgynevezett negyedik momentum, és így számolható ki:
\( M_4(\overline{X})=\frac{ \sum \left( \overline{X} - X_i \right)^4}{N} \)
Számítsuk ki Bob matekjegyeinek móduszát és mediánját.
Ezek a matek jegyek:
2, 3, 1, 4, 1, 2, 2, 3, 5, 2, 3, 2, 3, 2, 4, 3, 2, 4, 2, 4
Bob nem kedveli a kémiát.
Ezt a jegyei alapján bárki megállapíthatja.
2, 3, 3, 2, 3
Alfréd viszont rajong a kémia egyes területeiért... de csak azokért.
5, 5, 1, 1, 1
Számítsuk ki Bob és Alfréd jegyeinek átlagát és szórását.
a) Egy futóversenyen 10-en vesznek részt.
A futók eredményei (percben):
98, 73, 68, 92, 110, 75, 87, 96, 108, 130
Készítsünk doboz-ábrát az eredményekről.
b) A naprendszer bolygóinak aránya a Földhöz képest a következők:
Merkúr | 0,06 |
Mars | 0,12 |
Vénusz | 0,82 |
Föld | 1 |
Uránusz | 14 |
Neptunusz | 17 |
Szaturnusz | 95 |
Jupiter | 318 |
Készítsünk dobozdiagramot a bolygók tömegének eloszlásáról.
Egy futóversenyen 10-en vesznek részt.
A futók eredményei (percben):
98, 73, 68, 92, 110, 75, 87, 96, 108, 130
Készítsünk doboz-ábrát az eredményekről.
Egy futóversenyen több országból indultak versenyzők.
Íme, itt látható, hogy milyen eredményeket értek el, és melyik országból jöttek.
Ország | Eredmény (percben) |
Németország | 68 |
Franciaország | 73 |
Németország | 74 |
Ausztria | 87 |
Olaszország | 92 |
Olaszország | 96 |
Olaszország | 98 |
Németország | 108 |
Németország | 110 |
Olaszország | 130 |
Németország | 134 |
Németország | 140 |
Ábrázoljuk a versenyzők nemzetiség szerinti eloszlását.
Egy futóversenyen 150 versenyző vett részt. A versenyzők eredményeit tartalmazza ez a táblázat
Eredmény (perc) |
Versenyzők száma |
50-59 | 12 |
60-69 | 18 |
70-79 | 27 |
80-89 | 39 |
90-99 | 32 |
100-109 | 22 |
Számoljuk ki az átlagot, a szórást és a relatív szórást, valamint ábrázoljuk a verseny eredményét hisztogrammal.
Egy futóversenyen 150 versenyző vett részt. A versenyzők eredményeit tartalmazza ez a táblázat
Eredmény (perc) |
Versenyzők száma \( f_i \) |
50-59 | 12 |
60-69 | 18 |
70-79 | 27 |
80-89 | 39 |
90-99 | 32 |
100-109 | 22 |
Számoljuk ki a móduszt, mediánt és a kvartiliseket.
Egy cég dolgozóinak fizetés szerinti megoszlása:
Fizetés (EUR) |
Dolgozók száma |
0-1499 | 66 |
1500-2999 | 64 |
3000-4499 | 56 |
4500-5999 | 12 |
6000-7499 | 2 |
Összesen: | 200 |
Készítsük el a kumulált gyakoriságot, relatív gyakoriságot, kumulált relatív gyakoriságot, értékösszeget, kumulált értékösszeget, relatív értékösszeget.
Egy cég dolgozóinak fizetés szerinti megoszlása:
Fizetés (EUR) |
Dolgozók száma |
0-1499 | 66 |
1500-2999 | 64 |
3000-4499 | 56 |
4500-5999 | 12 |
6000-7499 | 2 |
Összesen: | 200 |
Készítsük el a kumulált relatív értékösszeget, majd vizsgáljuk a koncentrációt Herfindahl-indexel és Lorenz-görbével.
Egy cég dolgozóinak fizetés szerinti megoszlása:
Lakásméret (négyzetméter) |
Lakások száma (ezer darab) \( f_i \) |
0-19 | 18 |
20-39 | 30 |
40-99 | 66 |
100-199 | 36 |
200- | 10 |
Összesen: | 160 |
Melyik osztályközben lesz a módusz, medián?
Számoljuk ki az átlagot és szórást.
Nézzük meg alakmutatók segítségével, hogy milyen jellegű asszimetriát mutat a terroristák életkor szerinti megoszlása.
Életkor | Terroristák száma (%) |
0-19 | 7% |
20-29 | 46% |
30-39 | 32% |
40-59 | 10% |
60-79 | 5% |
Számítsuk ki a Pearson-féle mutatókat és a csúcsosságot.
Egy vonat utasainak száma hétfőn 200, kedden 160, szerdán 90, csütörtökön 150. Hány utas volt pénteken, ha tudjuk, hogy az öt adat átlaga is szerepel az adatok között, továbbá az adatok egyetlen módusza nem egyenlő a mediánjukkal?
Egy vonat utasainak száma hétfőn 200, kedden 190, szerdán 90, csütörtökön 170. Hány utas volt pénteken, ha tudjuk, hogy az öt adat átlaga is szerepel az adatok között, és egyik nap sem utaztak 200-nál többen, sem pedig 90-nél kevesebben?
Egy piacon az almát egy olyan csomagolásban árulják, melynek felirata 5 kg \( \pm \) 10 dkg. A minőségellenőrzés során véletlenszerűen kiválasztanak 8 csomagot, és ezeket lemérik. Az almák árusítását csak akkor engedélyezik, ha egyik csomag tömege sem kisebb 4 kg 90 dkg-nál, és a mérési adatok 5 kg-tól mért átlagos abszolút eltérése nem haladja meg a 10 dkg-ot.
a) Engedélyezik-e az árusítást?
b) Határozzuk meg a mérési eredmények átlagát és szórását!
Mérés sorszáma | 1. | 2. | 3. | 4. | 5. | 6. | 7. | 8. |
mért tömeg (dkg) | 506 | 491 | 493 | 512 | 508 | 517 | 493 | 512 |
Egy városkában 30 szálloda üzemel. A szállodák között van kétcsillagos, háromcsillagos, négycsillagos és ötcsillagos is.
a) Számoljuk ki, hogy átlagosan hány csillagosak a szállodák a városkában. Adjuk meg a mediánt és a móduszt is.
b) Ábrázoljuk kördiagramon a szállodák csillagok szerinti megoszlását.
* | 0 |
** | 2 |
*** | 12 |
**** | 9 |
***** | 7 |
Egy tesztet 12 vizsgázó írja meg. A maximálisan elérhető pontszám 100, az eredmények pedig a következők: 56, 47, 60, 86, 71, 96, 55, 24, 76, 81, 72, 91
Készítsünk box plot diagramot.
Egy adathalmazról ezt a dobozdiagramot készítették.
a) Mennyi az alsó és felső kvartilis, a medián, és mekkora a terjedelem?
b) Adjunk meg egy olyan tizenkettő elemű adathalmazt, amiről egy ilyen dobozdiagram készülhetett.
Egy tesztet 12 vizsgázó írja meg. A maximálisan elérhető pontszám 100, az eredmények pedig a következők:
56, 47, 60, 86, 71, 96, 55, 24, 76, 81, 72, 91.
Készítsünk doboz-ábrát.
30 napon keresztül vizsgálták, hogy egy úton naponta hány baleset történik.
Balesetek száma | napok száma |
0 | 7 |
1 | 8 |
2 | 6 |
3 | 4 |
4 | 3 |
5 | 2 |
Számoljuk ki az átlagot, a szórást, a móduszt, a mediánt és ábrázoljuk a táblázat adatait oszlopdiagrammal.
Egy újságárús havi lapeladását tartalmazza a következő táblázat.
Eladott mennyiség | napok száma |
215 | 2 |
217 | 4 |
218 | 2 |
220 | 5 |
222 | 8 |
225 | 7 |
230 | 3 |
Számoljuk ki az átlagot, a szórást és a relatív szórást.
Egy teszt 5 kérdésből áll, minden kérdésre három lehetőség közül lehet választani. A helyes válaszra 1 pont jár, a rossz válaszra 0 pont. A tesztet 20-an írják meg, és az elért összpontszám 48.
a) Melyik feladatra adták a legtöbb helyes választ?
b) Melyikre adták a legkevesebb jó választ?
Egy taxitársaságnál a telefonos rendeléstől a helyszínre érkezésig eltelt idő egy hét leforgása alatt az alábbi volt:
Eltelt idő (perc) |
Esetek száma |
0-4 | 1654 |
5-9 | 2470 |
10-19 | 680 |
20-29 | 46 |
Számoljuk ki az átlagot, a szórást és a relatív szórást.
Az alábbi táblázat egy város havi gázfogyasztóinak eloszlását tartalmazza, a fogyasztók számát ezer főben megadva.
Havi fogyasztás ( \( m^3 \) ) |
Gyakoriság \( f_i \) |
Kumulált gyakoriság \( f'_i \) |
Relatív gyakoriság \( g_i \) |
Kumulált relatív gyakoriság \( g'_i \) |
0-49 | 3 | |||
50-99 | 4 | |||
100-149 | 15 | |||
150-199 | 0 | |||
200-249 | 0,25 | |||
Összesen: |
a) töltsük ki a hiányzó részeket.
b) Adjuk meg a móduszt és a mediánt!
c) Adjuk meg az átlagot és a szórást!
d) Vegyük a legalább száz köbmétert fogyasztó felhasználókat. Mekkora esetükben az átlag? Mekkora a szórás?
Az alábbi táblázat egy bevásárlóközpont üzlethelyiségeinek alapterület szerinti megoszlását tartalmazza.
alapterület | Gyakoriság \( f_i \) |
Kumulált gyakoriság \( f'_i \) |
Relatív gyakoriság \( g_i \) |
Kumulált relatív gyakoriság \( g'_i \) |
0-99 | 4 | |||
100-199 | 9 | |||
200-299 | 12 | |||
300-399 | 34 | |||
400- | 50 | |||
Összesen: |
a) Töltsük ki a hiányzó adatokat!
b) Mekkora a tipikus üzlethelyiség alapterülete?
c) Mekkora az átlagos üzlethelyiség alapterülete? Mekkora a szórás?
Egy cég dolgozóinak fizetésük szerinti megoszlása a következő:
Fizetés (USD) |
Létszám \( f_i \) |
0-1000 | 110 |
1001-2000 | 215 |
2001-3000 | 60 |
3001- | 15 |
Jellemezzük a fizetések megoszlását helyzetmutatókkal, szóródási mutatókkal, doboz-ábrával.
Egy taxitársaságnál a telefonos rendeléstől a helyszínre érkezésig eltelt idő egy hét leforgása alatt az alábbi volt.
Helyszínre érkezésig |
Létszám \( f_i \) |
0-4 | 1654 |
5-9 | 2470 |
10-19 | 680 |
20- | 46 |
Jellemezzük a várakozási időt helyzetmutatókkal, szóródási mutatókkal, doboz-ábrával.
Koncentráció, Lorenz-görbe
Hasonlítsuk össze a Föld néhány országának egy főre jutó GDP-jét és az országok népességét. Az európai országok egy főre jutó GDP-je úgy 40 ezer USA-dollár körül mozog, igaz kelet felé haladva ez jelentős csökkenésnek indul és Oroszországnál eléri a 10 ezret. USA és Kanada is ezt a 40 ezres szintet hozza, Mexikó pedig 8 ezret. Aztán lejjebb haladva Dél-Amerikában már a 10 ezer számít kiemelkedően magasnak. Ázsiában él a Föld lakosságának több, mint fele. Az egy főre jutó GDP azonban 2000 USA-dollár körül mozog. Ezek a megdöbbentő adatok sokakat vallások megalapítására sarkallnak, mások terrorista hálózatokat építenek ki, mi viszont belevágunk a Lorenz-görbe fölrajzolásába. A Lorenz-görbe az egyik legkiválóbb szemléltető eszköze a koncentrációnak, most éppen az egy főre jutó GDP nagyon erős koncentrálódásának. A koncentráció a sokasághoz tartozó teljes értékösszeg jelentős részének vagy egészének kevés egységre történő összpontosulása.
Ország
GDP/fő
(ezer USA-dollár, 2008)
Népesség
(millió)
Ausztria
46 600
8,4
Belgium
44 730
10,4
Csehország
17 280
10,2
Dánia
60 800
5,5
Franciaország
43 640
61,4
Németország
41 400
82,7
Magyarország
13 860
10,0
Norvégia
90 180
4,7
Nagy-Britannia
46 740
60,7
Olaszország
38 190
58,1
Oroszország
10 100
141,8
Svájc
55 780
7,6
Szlovákia
14 600
5,5
Ukrajna
3 307
46,0
Kanada
40 100
33,2
Mexikó
8 200
110,0
USA
47 330
304,8
Argentína
6 790
40,0
Brazília
6 600
192,0
Chile
10 590
16,8
Ausztrália
42 420
20,6
India
1 180
1 130,0
Indonézia
1 950
237,5
Irán
3 900
71,3
Kína
3 000
1 330,0
Japán
38 930
127,5
Pakisztán
940
167,2
Egyiptom
1 870
77,5
Etiópia
229
85
Kenya
640
38,5
Nigéria
1 020
150
Tanzánia
353
40,4
Készítsünk egy táblázatot, a Föld népességének egy főre jutó GDP szerinti megoszlásáról.
Az osztályközök a pontosság érdekében nem egyenletesek.
Első oszlopunk a gyakoriság, ami azt jelenti, hogy hány millió ember tartozik az adott GDP-szintet jelentő osztályközbe.
A következő oszlop a relatív gyakoriság. Jól látszik, hogy a népesség 30%-a tartozik a második osztályközbe és majdnem 30%-a a harmadikba, vagyis a Föld lakosságának jóval több, mint fele az 5000-es szint alatt van.
A kumulált relatív gyakoriság oszlopból látszik, hogy 70% van 5000 alatt, és 80% 10 ezer alatt. Magyarország a 14 ezer körüli szintjével a felső 20%-ba tartozik.
A következő oszlop az értékösszeg azt mutatja meg, hogy az egyes osztályokba tartozókra összesen mennyi GDP esik. A nyugati világ gazdaságilag fejlett országai a Föld lakosságának egytizedét teszik ki, de több GDP jut rá, mint az összes addigira együttvéve. Ezt jól szemlélteti a relatív értékösszeg és a kumulált relatív értékösszeg oszlop.
GDP/fő
(millió)
(ezer USA-dollár)
0-1 000
720
0,116
0,116
360 000
0,006
0,006
1 001-2 000
1 940
0,313
0,429
2 910 000
0,053
0,059
2 001-5 000
1 790
0,290
0,719
4 475 000
0,080
0,139
5 001-10 000
490
0,079
0,798
3 675 000
0,066
0,205
10 001-20 000
288
0,046
0,844
4 320 000
0,078
0,283
20 001-30 000
76
0,012
0,856
1 900 000
0,034
0,317
30 001-40 000
254
0,041
0,897
8 890 000
0,160
0,477
40 001-50 000
604
0,098
0,995
27 180 000
0,488
0,965
50 001-60 000
18
0,003
0,998
990 000
0,018
0,983
60 001-
15
0,002
1,000
975 000
0,017
1,000
Total
6 195
1,000
55 675 000
1,000
A Lorenz-görbe azt fejezi ki, hogy a gyakoriság egy adott százalékához az összérték hány százaléka tartozik. Az x tengelyen tehát a kumulált relatív gyakoriságot, míg az y tengelyen a kumulált relatív értékösszeget mérjük.
A Föld népességének 11,6%-ára az összes GDP 0,6%-a jut.
42,9%-ra még mindig csak 5,9% jut. 71,9%-ra mindössze 13,9% jut.
Könnyű belegondolni, hogy az y=x egyenes mentén a koncentráció nulla. Az y=x egyenes és a kapott görbe közötti területet hívjuk koncentrációs területnek, ez jellemzi a koncentráció mértékét, ami esetünkben igen magas.
[Szövegdoboz:]
A koncentráció kimutatásának egy másik egyszerű eszköze a kvantilis-eloszlás, vagyis ha olyan gyakorisági sort szerkesztünk, ahol minden gyakoriság egyenlő. Ha minden relatív értékösszeg (Zi) is egyenlő, az a koncentráció hiányát jelenti. Minél egyenlőtlenebbül alakulnak a relatív értékösszegek, a koncentráció annál nagyobb.
A kvartilis-elsozlás például úgy készül, hogy a Föld lakosságát az egy főre jutó GDP szerint sorba állítjuk, és négy egyenlő létszámú csoportra osztjuk. Az osztályközök határai ekkor kvartilisek lesznek.
GDP/fő
(millió)
0-1 100
1 548,75
0,010
1 101-2 100
1 548,75
0,027
2 101-11 000
1 548,75
0,110
11 001-90 000
1 548,75
0,853
Total
6 195
1,000
A kvintilis-eloszlás pedig ötödökre osztja.
GDP/fő
(millió)
0-1 000
1 239
0,007
1 001-2 000
1 239
0,020
2 001-4 000
1 239
0,042
4 001-20 000
1 239
0,167
20 001-90 000
1 239
0,764
Total
6 195
1,000
A koncentráció mértékének egy számmal való jellemzésére a koncentrációs terület kiszámolása viszonylag körülményes. Ezen kívül az egyik legalkalmasabb mutató az úgynevezett Herfindahl-index. Kiszámolása a Z értékekből történik:
Az eredeti táblázatunkban ezt kiszámolva
A Herfindahl-index, a kiszámolásának módja miatt mindig 1/N és 1 közötti értékkel méri a koncentráció fokát. Ha HI=1/N akkor minden egység egyformán részesedik a teljes értékösszegből, ha pedig HI=1, akkor a lehető legerősebb a koncentráció.
Alakmutatók
Az alakmutatók az eloszlások szabálytalanságait próbálják jellemezni, legtöbbjük azt méri, hogy az adott eloszlás mennyiben tér el az etalonnak tekintett normális-eloszlás jellegzetes harang alakú görbéjétől. Az eltérés megmutatkozhat lapultságban vagy csúcsosságban, illetve aszimmetriában, ami jelenthet jobbra vagy balra elnyúlást.
Az egyik legegyszerűbb és leggyakrabban használt alakmutatók, az úgynevezett
Pearson-féle mérőszámok
illetve az F-mutatók
és
ahol az első, pedig a kilencedik decilist jelenti.
Negatív értékek esetén az eloszlás balra tolódó, pozitív értékekre jobbra tolódó.
A P és A mutató általában -1 és 1 között tartózkodik és csak extrém esetekben vesz föl 1-nél nagyobb vagy -1-nél kisebb értéket. Az F mutató csak -1 és 1 között lehet.
A csúcsosság mérésére a következő mutató van forgalomban:
Itt az úgynevezett negyedik momentum, ami
Lássunk egy példát az alakmutatók használatára! Nézzük meg például, hogy milyen jellegű aszimmetriát mutat a terroristák életkor szerinti megoszlása. A terrorizmus jellemzően fiatalabb emberek elfoglaltsága, ráadásul várható élettartamuk is rövidebb, így bal oldali aszimmetria lesz majd felfedezhető. Node lássuk a számokat!
életkor
terroristák
száma (%)
0-19
7%
20-29
46%
30-39
32%
40-59
10%
60-79
5%
Először F-mutatókat számolunk:
Amihez kellenek a kvartilisek és a medián.
A kvartilisek:
A medián:
A másik F-mutatóhoz a decilisek kellenek:
Mindkét F-mutató közepes bal oldali aszimmetriát mutat.
Most jöhetnek a Pearson-féle mutatók. Ezekhez kell átlag és szórás is sajna:
Az átlag:
A szórás:
Végül egy móduszt is számolunk. Mivel nem egyenletesek az osztályközök, a módusz miatt újra kell osztani az életkorokat, méghozzá 10-esével.
A leggyakoribb osztályköz hossza viszont már eleve 10, így az újraosztás rajta már nem változtat.
életkor
terroristák
száma (%)
0-9
3,5%
10-19
3,5%
20-29
46%
30-39
32%
40-59
10%
60-79
5%
Lássuk a P és A mutatókat:
Mindkettő közepes bal oldali aszimmetriát mutat.
Végül nézzük meg a csúcsosságot is:
Itt
És
Egy bank ügyfeleinek a sorra kerülésig várakozással eltöltött ideje percben megadva egy vizsgált időtartamban:
3, 5, 2, 7, 4, 3, 8, 2, 5, 5, 3, 2, 4, 2, 6, 2
Ábrázoljuk az értékeket leveles-ág és doboz-ábrán.
A leveles-ág ábra az adatok nagyság szerinti sorba rendezése az alábbi módon:
1
2, 2, 2, 2,
3, 3, 3
4, 4
5, 5, 5
7,7
8
A doboz-ábra lényege, hogy az adatokat egy számegyenesen ábrázoljuk, az alsó és felső kvartilisek között elnyúló doboz társaságában.
Számoljuk ki a kvartiliseket. Összesen 16db adat van, így az alsó negyedelő 4 és 5 között a felső negyedelő 12 és 13 között van.
[Szövegdoboz: 1 2 2 2 2 3 3 3 4 4 5 5 5 7 7 8] [Szövegdoboz: Felső kvartilis] [Szövegdoboz: Medián: A sorbarendezett adatsor középső értéke. Most két középső is van, a tizedik és a tizenegyedik, ilyenkor az átlaguk:] [Szövegdoboz: Alsó kvartilis:]
[Szövegdoboz: A doboz-ábra X X X 0 1 2 3 4 5 6 7 8 9]
Az alsó és felső kvartilis közötti intervallumot nevezzük interkvartilis terjedelemnek. Most az interkvartilis 2-töl 5-ig tart, hossza 3. Az interkvartilis terjedelembe vagyis a dobozba esik az értékek legalább 50%-a. A doboz-ábra az adatsor öt jellegzetes mutatóját tartalmazza, a minimális és maximális értéket, a két kvartilist és a mediánt.
2.3. Húsz napon át figyelték egy alpesi kisváros sípályáinak összesített napi forgalmát. A kapott értékek a következők voltak:
1000
2000
7000
9000
12500
3500
1000
5000
3000
13000
5000
1500
3000
8000
9000
2500
3000
1500
8500
3000
Állapítsuk meg az adatsor néhány alapvető statisztikai mutatóját, a móduszt, mediánt, átlagot. Készítsünk leveles-ág ábrát illetve doboz-ábrát. Helyezzük el az adatokat egy gyakorisági sorban 2500-as osztályközökkel. Szemléltessük hisztogrammal a forgalom mértékét.
[Szövegdoboz: 1000 1000 1500 1500 2000 2500 3000 3000 3000 3000 3500 5000 5000 7000 8000 8500 9000 9000 11500 12000] [Szövegdoboz: Átlag:] [Szövegdoboz:] [Szövegdoboz: Felső kvartilis] [Szövegdoboz: Medián: A sorbarendezett adatsor középső értéke. Most két középső is van, a tizedik és a tizenegyedik, ilyenkor az átlaguk:] [Szövegdoboz: Alsó kvartilis:] [Szövegdoboz: Módusz =A leggyakoribb érték, most 5000]
A leveles-ág ábra
1 000, 000, 500, 500
2 000, 500
3 000, 000, 000, 000, 500
5 000, 000
7 000
8 000, 500
9 000, 000
11 500
12 000
[Szövegdoboz: A doboz-ábra X X X 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000]
Az alsó és felső kvartilis közötti intervallumot nevezzük interkvartilis terjedelemnek. Most az interkvartilis 2250-töl 8250-ig tart, hossza 6000. Az interkvartilis terjedelembe vagyis a dobozba esik az értékek legalább 50%-a. A medián a doboz első harmadában található, a szélső értékek a dobozhoz képest jobbra tolódnak.
Napi forgalom
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Néhány további mutatót is kiszámoltunk, ezek a relatív gyakoriság, kumulált relatív gyakoriság, az értékösszeg és a relatív értékösszeg.
A relatív értékösszegre hamarosan nagy szükségünk lesz majd a koncentráció vizsgálatakor.
Napi forgalom
Osztály-
közép
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 –12 499
1250
3750
6250
8750
12500
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
6250/105 000=0,07
22500/105 000=0,21
18750/105 000=0,18
35000/105 000=0,33
22500/105 000=0,21