Valszám és stat alapok epizód tartalma:

Medián, módusz, kvartilisek, szórás, relatív szórás, gyakoriság, relatív gyakoriság, gyakorisági sor, értékösszeg sor, koncentráció, Lorenz-görbe, doboz-ábra, alakmutatók, Pearson-mutató, F-mutató.

A képsor tartalma

Alakmutatók

Az alakmutatók az eloszlások szabálytalanságait próbálják jellemezni, legtöbbjük azt méri, hogy az adott eloszlás mennyiben tér el az etalonnak tekintett normális-eloszlás jellegzetes harang alakú görbéjétől. Az eltérés megmutatkozhat lapultságban vagy csúcsosságban, illetve aszimmetriában, ami jelenthet jobbra vagy balra elnyúlást.

Az egyik legegyszerűbb és leggyakrabban használt alakmutatók, az úgynevezett

Pearson-féle mérőszámok

illetve az F-mutatók

és

ahol az első, pedig a kilencedik decilist jelenti.

Negatív értékek esetén az eloszlás balra tolódó, pozitív értékekre jobbra tolódó.

A P és A mutató általában -1 és 1 között tartózkodik és csak extrém esetekben vesz föl 1-nél nagyobb vagy -1-nél kisebb értéket. Az F mutató csak -1 és 1 között lehet.

A csúcsosság mérésére a következő mutató van forgalomban:

Itt az úgynevezett negyedik momentum, ami

Lássunk egy példát az alakmutatók használatára! Nézzük meg például, hogy milyen jellegű aszimmetriát mutat a terroristák életkor szerinti megoszlása. A terrorizmus jellemzően fiatalabb emberek elfoglaltsága, ráadásul várható élettartamuk is rövidebb, így bal oldali aszimmetria lesz majd felfedezhető. Node lássuk a számokat!

életkor

terroristák

száma (%)

0-19

7%

20-29

46%

30-39

32%

40-59

10%

60-79

5%

Először F-mutatókat számolunk:

Amihez kellenek a kvartilisek és a medián.

A kvartilisek:

A medián:

A másik F-mutatóhoz a decilisek kellenek:

Mindkét F-mutató közepes bal oldali aszimmetriát mutat.

Most jöhetnek a Pearson-féle mutatók. Ezekhez kell átlag és szórás is sajna:

Az átlag:

A szórás:

Végül egy móduszt is számolunk. Mivel nem egyenletesek az osztályközök, a módusz miatt újra kell osztani az életkorokat, méghozzá 10-esével.

A leggyakoribb osztályköz hossza viszont már eleve 10, így az újraosztás rajta már nem változtat.

életkor

terroristák

száma (%)

0-9

3,5%

10-19

3,5%

20-29

46%

30-39

32%

40-59

10%

60-79

5%

Lássuk a P és A mutatókat:

Mindkettő közepes bal oldali aszimmetriát mutat.

Végül nézzük meg a csúcsosságot is:

Itt

És

Egy bank ügyfeleinek a sorra kerülésig várakozással eltöltött ideje percben megadva egy vizsgált időtartamban:

3, 5, 2, 7, 4, 3, 8, 2, 5, 5, 3, 2, 4, 2, 6, 2

Ábrázoljuk az értékeket leveles-ág és doboz-ábrán.

A leveles-ág ábra az adatok nagyság szerinti sorba rendezése az alábbi módon:

1

2, 2, 2, 2,

3, 3, 3

4, 4

5, 5, 5

7,7

8

A doboz-ábra lényege, hogy az adatokat egy számegyenesen ábrázoljuk, az alsó és felső kvartilisek között elnyúló doboz társaságában.

Számoljuk ki a kvartiliseket. Összesen 16db adat van, így az alsó negyedelő 4 és 5 között a felső negyedelő 12 és 13 között van.

Az alsó és felső kvartilis közötti intervallumot nevezzük interkvartilis terjedelemnek. Most az interkvartilis 2-töl 5-ig tart, hossza 3. Az interkvartilis terjedelembe vagyis a dobozba esik az értékek legalább 50%-a. A doboz-ábra az adatsor öt jellegzetes mutatóját tartalmazza, a minimális és maximális értéket, a két kvartilist és a mediánt.

2.3. Húsz napon át figyelték egy alpesi kisváros sípályáinak összesített napi forgalmát. A kapott értékek a következők voltak:

1000

2000

7000

9000

12500

3500

1000

5000

3000

13000

5000

1500

3000

8000

9000

2500

3000

1500

8500

3000

Állapítsuk meg az adatsor néhány alapvető statisztikai mutatóját, a móduszt, mediánt, átlagot. Készítsünk leveles-ág ábrát illetve doboz-ábrát. Helyezzük el az adatokat egy gyakorisági sorban 2500-as osztályközökkel. Szemléltessük hisztogrammal a forgalom mértékét.

A leveles-ág ábra

1 000, 000, 500, 500

2 000, 500

3 000, 000, 000, 000, 500

5 000, 000

7 000

8 000, 500

9 000, 000

11 500

12 000

Az alsó és felső kvartilis közötti intervallumot nevezzük interkvartilis terjedelemnek. Most az interkvartilis 2250-töl 8250-ig tart, hossza 6000. Az interkvartilis terjedelembe vagyis a dobozba esik az értékek legalább 50%-a. A medián a doboz első harmadában található, a szélső értékek a dobozhoz képest jobbra tolódnak.

Napi forgalom

0 – 2499

2500 – 4999

5000 – 7499

7500 – 9999

10 000 – 12 499

5

6

3

4

2

5

11

14

18

20

5/20

6/20

3/20

4/20

2/20

5/20

11/20

14/20

18/20

20/20

Néhány további mutatót is kiszámoltunk, ezek a relatív gyakoriság, kumulált relatív gyakoriság, az értékösszeg és a relatív értékösszeg.

A relatív értékösszegre hamarosan nagy szükségünk lesz majd a koncentráció vizsgálatakor.

Napi forgalom

Osztály-

közép

0 – 2499

2500 – 4999

5000 – 7499

7500 – 9999

10 000 –12 499

1250

3750

6250

8750

12500

5

6

3

4

2

5

11

14

18

20

5/20

6/20

3/20

4/20

2/20

5/20

11/20

14/20

18/20

20/20

6250/105 000=0,07

22500/105 000=0,21

18750/105 000=0,18

35000/105 000=0,33

22500/105 000=0,21

Hopsz, úgy tűnik nem vagy belépve, pedig itt olyan érdekes dolgokat találsz, mint például:

Medián, módusz, kvartilisek, szórás, relatív szórás, gyakoriság, relatív gyakoriság, gyakorisági sor, értékösszeg sor, koncentráció, Lorenz-görbe, doboz-ábra, alakmutatók, Pearson-mutató, F-mutató.

Hozzászólások

Még nincs hozzászólás. Legyél Te az első!