Statisztika epizód tartalma:
Medián, módusz, kvartilisek, szórás, relatív szórás, gyakoriság, relatív gyakoriság, gyakorisági sor, értékösszeg sor, koncentráció, Lorenz-görbe, doboz-ábra, alakmutatók, Pearson-mutató, F-mutató.
Az alakmutatók az eloszlások szabálytalanságait próbálják jellemezni, legtöbbjük azt méri, hogy az adott eloszlás mennyiben tér el az etalonnak tekintett normális-eloszlás jellegzetes harang alakú görbéjétől. Az eltérés megmutatkozhat lapultságban vagy csúcsosságban, illetve aszimmetriában, ami jelenthet jobbra vagy balra elnyúlást.
Az egyik legegyszerűbb és leggyakrabban használt alakmutatók, az úgynevezett
Pearson-féle mérőszámok
illetve az F-mutatók
és
ahol az első, pedig a kilencedik decilist jelenti.
Negatív értékek esetén az eloszlás balra tolódó, pozitív értékekre jobbra tolódó.
A P és A mutató általában -1 és 1 között tartózkodik és csak extrém esetekben vesz föl 1-nél nagyobb vagy -1-nél kisebb értéket. Az F mutató csak -1 és 1 között lehet.
A csúcsosság mérésére a következő mutató van forgalomban:
Itt az úgynevezett negyedik momentum, ami
Lássunk egy példát az alakmutatók használatára! Nézzük meg például, hogy milyen jellegű aszimmetriát mutat a terroristák életkor szerinti megoszlása. A terrorizmus jellemzően fiatalabb emberek elfoglaltsága, ráadásul várható élettartamuk is rövidebb, így bal oldali aszimmetria lesz majd felfedezhető. Node lássuk a számokat!
életkor
terroristák
száma (%)
0-19
7%
20-29
46%
30-39
32%
40-59
10%
60-79
5%
Először F-mutatókat számolunk:
Amihez kellenek a kvartilisek és a medián.
A kvartilisek:
A medián:
A másik F-mutatóhoz a decilisek kellenek:
Mindkét F-mutató közepes bal oldali aszimmetriát mutat.
Most jöhetnek a Pearson-féle mutatók. Ezekhez kell átlag és szórás is sajna:
Az átlag:
A szórás:
Végül egy móduszt is számolunk. Mivel nem egyenletesek az osztályközök, a módusz miatt újra kell osztani az életkorokat, méghozzá 10-esével.
A leggyakoribb osztályköz hossza viszont már eleve 10, így az újraosztás rajta már nem változtat.
életkor
terroristák
száma (%)
0-9
3,5%
10-19
3,5%
20-29
46%
30-39
32%
40-59
10%
60-79
5%
Lássuk a P és A mutatókat:
Mindkettő közepes bal oldali aszimmetriát mutat.
Végül nézzük meg a csúcsosságot is:
Itt
És
Egy bank ügyfeleinek a sorra kerülésig várakozással eltöltött ideje percben megadva egy vizsgált időtartamban:
3, 5, 2, 7, 4, 3, 8, 2, 5, 5, 3, 2, 4, 2, 6, 2
Ábrázoljuk az értékeket leveles-ág és doboz-ábrán.
A leveles-ág ábra az adatok nagyság szerinti sorba rendezése az alábbi módon:
1
2, 2, 2, 2,
3, 3, 3
4, 4
5, 5, 5
7,7
8
A doboz-ábra lényege, hogy az adatokat egy számegyenesen ábrázoljuk, az alsó és felső kvartilisek között elnyúló doboz társaságában.
Számoljuk ki a kvartiliseket. Összesen 16db adat van, így az alsó negyedelő 4 és 5 között a felső negyedelő 12 és 13 között van.
[Szövegdoboz: 1 2 2 2 2 3 3 3 4 4 5 5 5 7 7 8] [Szövegdoboz: Felső kvartilis] [Szövegdoboz: Medián: A sorbarendezett adatsor középső értéke. Most két középső is van, a tizedik és a tizenegyedik, ilyenkor az átlaguk:] [Szövegdoboz: Alsó kvartilis:]
[Szövegdoboz: A doboz-ábra X X X 0 1 2 3 4 5 6 7 8 9]
Az alsó és felső kvartilis közötti intervallumot nevezzük interkvartilis terjedelemnek. Most az interkvartilis 2-töl 5-ig tart, hossza 3. Az interkvartilis terjedelembe vagyis a dobozba esik az értékek legalább 50%-a. A doboz-ábra az adatsor öt jellegzetes mutatóját tartalmazza, a minimális és maximális értéket, a két kvartilist és a mediánt.
2.3. Húsz napon át figyelték egy alpesi kisváros sípályáinak összesített napi forgalmát. A kapott értékek a következők voltak:
1000
2000
7000
9000
12500
3500
1000
5000
3000
13000
5000
1500
3000
8000
9000
2500
3000
1500
8500
3000
Állapítsuk meg az adatsor néhány alapvető statisztikai mutatóját, a móduszt, mediánt, átlagot. Készítsünk leveles-ág ábrát illetve doboz-ábrát. Helyezzük el az adatokat egy gyakorisági sorban 2500-as osztályközökkel. Szemléltessük hisztogrammal a forgalom mértékét.
[Szövegdoboz: 1000 1000 1500 1500 2000 2500 3000 3000 3000 3000 3500 5000 5000 7000 8000 8500 9000 9000 11500 12000] [Szövegdoboz: Átlag:] [Szövegdoboz:] [Szövegdoboz: Felső kvartilis] [Szövegdoboz: Medián: A sorbarendezett adatsor középső értéke. Most két középső is van, a tizedik és a tizenegyedik, ilyenkor az átlaguk:] [Szövegdoboz: Alsó kvartilis:] [Szövegdoboz: Módusz =A leggyakoribb érték, most 5000]
A leveles-ág ábra
1 000, 000, 500, 500
2 000, 500
3 000, 000, 000, 000, 500
5 000, 000
7 000
8 000, 500
9 000, 000
11 500
12 000
[Szövegdoboz: A doboz-ábra X X X 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000]
Az alsó és felső kvartilis közötti intervallumot nevezzük interkvartilis terjedelemnek. Most az interkvartilis 2250-töl 8250-ig tart, hossza 6000. Az interkvartilis terjedelembe vagyis a dobozba esik az értékek legalább 50%-a. A medián a doboz első harmadában található, a szélső értékek a dobozhoz képest jobbra tolódnak.
Napi forgalom
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Néhány további mutatót is kiszámoltunk, ezek a relatív gyakoriság, kumulált relatív gyakoriság, az értékösszeg és a relatív értékösszeg.
A relatív értékösszegre hamarosan nagy szükségünk lesz majd a koncentráció vizsgálatakor.
Napi forgalom
Osztály-
közép
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 –12 499
1250
3750
6250
8750
12500
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
6250/105 000=0,07
22500/105 000=0,21
18750/105 000=0,18
35000/105 000=0,33
22500/105 000=0,21