Barion Pixel Ismérvek fajtái, mérési szintek, sokaságok típusai | mateking
 

Adatelemzés 1 epizód tartalma:

Ismérvek típusai, viszonyszámok, dinamikus viszonyszám, intenzitási viszonyszám, számtani átlag, harmónikus átlag, mértani átlag, medián, módusz, kvartilisek, szórás, gyakoriság, relatív gyakoriság, kumulált gyakoriság.

A képsor tartalma

1. ALAPFOGALMAK

Ismérvek típusai

A statisztikával való ismerkedésünket meglehetősen unalmasnak tűnő elméleti rizsával fogjuk kezdeni. Amiért mindez unalmasnak tűnik, nos az azzal magyarázható, hogy sajnos meglehetősen unalmas is.

Akiket az ilyen részletek untatnak, jobban is teszik, ha ezt a részt átugorják, és rátérnek a következő fejezetre, az egy ismérv szerinti elemzésre aztán majd később visszatérnek ide, ha úgy adódik. Akiket viszont érdekelnek az unalmas részek, számukra elérkezett az idő, hogy megismerkedjenek az ismérvek fajtáival.

Az ismérvek olyan vizsgálati szempontok, amelyek alapján a sokaság részekre osztható. Vannak, olyanok amik csak két részre osztják a sokaságot, például azokra akik megbuktak statisztikából és azokra akik nem. De akad olyan is, ami akárhány részre osztja, mondjuk az életünk során elfogyasztott pálinkamennyiség, literben megadva. Négy fő ismérvfajta különböztethető meg, TERÜLETI, IDŐBELI, MINŐSÉGI, MENNYISÉGI.

A területi és időbeli ismérvek az adatokat földrajzi vagy időbeli elhelyezkedésük szerint csoportosítják, a minőségi és mennyiségi ismérvek pedig valamilyen mérés szerint. Vegyük például az évfolyamra járó lányok sokaságát. Területi ismérv, hogy ki melyik településen lakik, és mondjuk időbeli, hogy ki melyik évben született. Sokkal izgalmasabbak azonban a lányok esetében azok az ismérvek, amelyek valamilyen méréssel állapíthatók meg.

A nominális összehasonlítás esetén tudjuk a legkevesebb statisztikai mutatóval vizsgálni a sokaságot. Ilyen például, hogy egy évfolyamon a lányok közül 60% barna hajú és 40% szőke. Ezeknél az összehasonlításoknál kevés eszközünk van a statisztikai jellegű elemzésre, még egy átlagot sem tudunk számolni.

Ha bevezetünk egy sorrendiséget, akkor már más a helyzet. Ha a barna hajú lányokat

1-el, a szőkéket pedig 2-vel jelöljük, és az arányok 60% és 40%, akkor már van átlag

A hajszín index átlagosan 1,4 értékű. Ennek az adatnak úgy lehet jelentősége, ha mondjuk egy másik évfolyammal hasonlítjuk össze. Ha ott ez a mutató például 1,9 akkor ott nagyobb a szőkék aránya, mint itt. Ezt a fajta mérési szintet ordinálisnak nevezzük. Itt már van a csoportok közt sorrendiség, tehát van értelme számokkal jellemezni őket ami lehetővé teszi az átlagok és egyéb mutatók kiszámolását. Tipikusan ilyen ismérv a hotelek, éttermek besorolása vagy a vizsgajegyek.

A mennyiségi ismérvek már kevésbé szubjektívek, itt az osztályozást egy számszerűen mérhető tulajdonság alapján végezzük. Ilyen például a testsúly vagy az életkor vagy éppen az intelligencia. A mennyiségi ismérveket két csoportba osztjuk, a testsúly és az életkor mindkettő ugyanabba a csoportba tartozik, arány-skálán mérhető. Az arány-skála lényege, hogy nincsenek negatív értékei, tehát minden mérés százalékosan viszonyítható egy másikhoz. Ha például Pistabácsi 75 éves, Gizike pedig 50, akkor Gizike 33%-al fiatalabb vagy éppen Pistabácsi 50%-al öregebb.

Van a mennyiségi ismérveknek egy másik típusa is, ezt intervallum-skálán mérjük és ez abban különbözik az arány-skálától, hogy nincs értelme a százalékos öszehasonlításnak. Legjobb példa rá a hőmérséklet. Ha mondjuk ma -5 fok van, holnap pedig 10 fok lesz, akkor nincs értelme egy olyan megállapításnak, hogy holnap -2szer nagyobb lesz a hőmérséklet, legfeljebb 15 fokkal melegebb lesz.

Mindezt összefoglalhatjuk egy remek táblázatban.

Ezzel rá is tértünk a következő izgalmas témánkra, az adatok összehasonlítására. Az összehasonlítás történhet csupán az adatok egymás mellé tételével, vagy azok különbségével, hányadosával. Ha például egy városban 10 000 ember él és 800 munkanélküli, akkor a munkanélküliek aránya a teljes lakossághoz képest

ami 8%-ot jelent

Mégsem igaz, hogy a város 8%-a munkanélküli, mert a maradék 92% se mind dolgozik, hiszen vannak köztük 5 éves gyerekek, 99 éves nagymamák, stb. Az összehasonlítás első fontos szempontja tehát az, hogy csak azonos fajta ismérveket hasonlíthatunk össze. A munkanélküliségi ráta helyes kiszámolása az, ha az úgynevezett aktív korúak számával osztjuk a munkanélküliek számát, vagyis azoknak számával, akik tulajdonképpen ha úgy adódik dolgozhatnának, aztán vagy dolgoznak vagy nem. Ha a városban 5 000 aktív korú lakos van, akkor a munkanélküliségi ráta

ami 16%

Ha egy másik város munkanélküliségi rátájával akarjuk ezt összehasonlítani, akkor általában nem arányt, hanem különbséget számítunk. Mondjuk a másik városban 17% munkanélküli, akkor nem azt mondjuk, hogy 1,0625-ször annyi munkanélküli van, hanem azt, hogy 1%ponttal több.

A százalékpont kifejezés két százalék közti különbség kifejezésére szolgál, bár az emberek túlnyomó része nem tudja, hogy mit jelent ezért nem használja, a többiek meg, akik tudják, hogy mit jelent azért nem használják, mert félnek attól, hogy más nem érti (lásd média). Mindezen nehézségek ellenére szokjunk rá a százalékpont kifejezés használatára. Ha például valamilyen adókulcsa 10%-ról 15%-ra emelkedik, akkor nem öt százalékkal emelkedik, hanem öt százalékponttal. Az emelés ugyanis az eredeti adó 50%-a. A százalékpont nem más, mint a százalék önálló mértékegységként való kezelése.

Viszonyszámok

A viszonyszám a statisztika egyik legfontosabb alapfogalma, és jelentőségét gyorsan megérthetjük a következő történettel:

Egy vonat az útjának felét 140km/h sebességgel, a másik felét 60km/h sebességgel tette meg. Mekkora volt az átlagsebessége?

A válasz:

tehát átlagosan a sebessége 100km/h

De a válasz rossz!

Vajon miért rossz? Hiszen 140-nek és 60-nak az átlaga 100, miért ne lenne hát 100km/h az átlagsebesség? Nos ennek megértéséhez van szükségünk a viszonyszámokra.

A viszonyszám jele V és kiszámolásának módja bosszantóan semmitmondó:

Ez igazán remek, de mi A és B ebben a képletben?

Nos a válasz az, hogy A és B bármi lehet, de a képlet mégis roppant fontos és mindjárt kiderül, hogy miért. Ha ugyanis több ilyen viszonyszámunk van, fölmerülhet az igény ezek átlagolására. Ha

és

akkor átlagukat kétféleképpen számolhatjuk ki. Az átlag jele .

Az egyik lehetőség a számtani átlag.

SÚLYOZOTT SZÁMTANI ÁTLAG:

vagyis

A másik lehetőség a harmonikus átlag.

SÚLYOZOTT HARMONIKUS ÁTLAG:

vagyis

Amit mindenképp érdemes ebből megjegyezni, hogy a két átlag eredménye ugyanaz, csak éppen nem mindegy, mikor melyiket használjuk. Ha a súlyoknak az B-k lesznek használva, akkor számtani átlag kell, ha viszont a A-k, akkor harmonikus átlag kell.

Most térjünk vissza a találós-kérdésre. A vonat sebessége egy viszonyszám. Kilométer osztva órával.

kilométer

óra

Sebesség:

Ha például tudjuk, hogy 120km/h sebességgel ment a vonat 2 órán át és 80km/h sebességgel 3 órán át, akkor számtani átlagot számolunk, mert a súlyok az órák, 2 óra és a 3 óra vagyis B-k.

és

km/h

Ha viszont azt tudjuk, hogy 120km/h sebességgel ment a vonat 200 kilométeren át és 80km/h sebességgel 300 kilométeren át, akkor nem számtani átlagot számolunk, rossz megoldás az, hogy

km/h

A jó megoldás az, hogy mivel a súlyok a kilométerek, 200km és 300km vagyis A-k, ezért harmonikus átlagot számolunk

és

km/h

Az eredeti feladat úgy szólt, hogy Egy vonat az útjának felét 140km/h sebességgel, a másik felét 60km/h sebességgel tette meg. Mekkora volt az átlagsebessége?

Az útja lehetett 100km vagy 500km vagy bármi, ez mindegy. Legyen a könnyebb számolás miatt 100km. Ekkor 50km utat tett meg 140-el és 50km utat 60-al. A súlyok tehát kilométerek.

A rossz válasz:

átlagosan a sebessége 100km/h

Azért rossz, mert számtani átlaggal számoltuk. A jó válasz az, ha harmonikus átlagot használunk:

km/h

Viszonyszámok típusai

A viszonyszámoknak három fő típusa van, a dinamikus viszonyszám, az intenzitási viszonyszám és a megoszlási viszonyszám. Lássunk példákat!

DINAMIKUS VISZONYSZÁM

Idősorok adataiból számított hányadosok

év

Munkanélküliek

száma

2000

260 000

2001

230 000

2002

220 000

2003

230 000

A munkanélküliek számának 2000-hez viszonyított aránya dinamikus viszonyszám.

INTENZITÁSI VISZONYSZÁM

Két, egymással valamilyen kap- csolatban álló sokaság mennyi-ségeinek hányadosa

év

Munka-nélküliek

száma

Aktív

korúak

száma

2000

260 000

4 100 000

2001

230 000

4 075 400

2002

220 000

4 070 300

2003

230 000

4 065 700

A munkanélküliségi ráta az egyes években intenzitási viszonyszám.

Például 2000-ben:

6,3%

MEGOSZLÁSI VISZONYSZÁM

Egy sokaság valamely részének az

egészhez viszonyított hányadosa.

végzettség

Munkanélküliek

Száma 2000-ben

8 általános alatt

6 500

8 általános

75 200

Érettségi

169 900

felsőfokú

8 400

összesen

260 000

A felsőfokú végzettségűek aránya a munkanélküliek körében megoszlási viszonyszám.

3,2%

Most térjünk rá a viszonyszámok átlagolására. Általában háromféle átlagformára lesz szükségünk, a már korábban látott számtani és harmonikus átlagra, valamint a mértani átlagra.

SÚLYOZOTT SZÁMTANI ÁTLAG:

A súlyok B1 B2 stb.

több tagra

A következő táblázat néhány év átlagos munkanélküliségi rátáinak alakulását és az aktív korúak, valamint a munkanélküliek számát tartalmazza.

év

Munkanélküliségi

ráta (éves átlag)

V

Aktív korúak

száma

B

Munkanélküliek száma

A

40 év alatt

40 év felett

40 év alatt

40 év felett

40 év alatt

40 év felett

2000

8,4%

4%

2 164 000

1 936 000

2001

7,2%

3,9%

2 138 100

1 937 300

2002

6,67%

4%

142 548

77 452

2003

7,35%

3,8%

156 375

73 625

Adjuk meg az egyes évek munkanélküliségi rátáit. Keressünk a táblázatban dinamikus viszonyszámokat, intenzitási viszonyszámokat és megoszlási viszonyszámokat!

A munkanélküliségi ráta egy viszonyszám,

A=munkanélküliek száma B=aktív korúak száma V=munkanélküliségi ráta

Az egyes évek munkanélküliségi rátájának kiszámolásához átlagolnunk kell a két

korcsoport munkanélküliségi rátáját.

Az első két évben az átlagolás súlyai B-k, tehát számtani átlagot használunk:

2000

2001

A következő két évben viszont a B-k nincsenek megadva. Megtehetjük persze, hogy kiszámoljuk őket, de felesleges. Itt ugyanis harmonikus átlaggal számolunk.

2002

2003

Dinamikus viszonyszám például a munkanélküliségi ráták alakulása 2000-hez,

vagy az előző évhez viszonyítva.

Intenzitási viszonyszámok maguk a munkanélküliségi ráták korosztályonként is meg összesen is, de szintén intenzitási viszonyszám a 40 év feletti és 40 alatti aktívak aránya.

Megoszlási viszonyszám például az összes munkanélküli közül a 40 év alattiak aránya. Ez például 2002-ben

vagyis 64,8%

Szintén megoszlási viszonyszám a 40 év alatti aktívak aránya az összes aktív lakoshoz viszonyítva mondjuk 2000-ben:

ami 52,7%

Viszonyszám az emberiség sorsát mostanában meghatározni látszó GDP-növekedés is. Maga a GDP a gross domestic product kifejezés rövidítése, magyarul bruttó hazai összterméknek szokás emlegetni. A GDP számításának módja viszonylag bonyolult, ezzel a későbbiekben fogunk foglalkozni, de a GDP-növekedés kiszámolása nagyon egyszerű, úgy kapjuk, hogy a jelenlegi év GDP-jét osztjuk az előző év GDP-jével. Ha még emlékszünk a viszonyszámok típusaira, ez egy dinamikus viszonyszám.

A következő táblázat néhány ország GDP adatait tartalmazza millió USA-dollárban megadva 2007 és 2010 között, 2008 évi átlagolt dollár-árfolyamon.

Számítsuk ki a GDP-növekedéseket.

év

USA

DE

CH

PRC

HU

GDP

GDP

GDP

GDP

GDP

2006

13 978 068

3 258 422

414 550

3 586 818

133 980

2007

14 257 630

3 346 440

424 500

3 945 500

138 000

2008

14 400 210

3 430 100

431 292

4 300 596

138 828

2009

14 119 000

3 268 885

423 092

4 687 649

132 858

Az idősorban bekövetkező változásokat általában százalékosan szokás megadni, az úgynevezett viszonyszámokkal. Vannak bázisviszonyszámok, amik mindig egy adott évhez viszonyítanak, és vannak láncviszonyszámok, amik mindig az előző évhez viszonyítanak. Kiszámolásuknál mindig a későbbi/korábbi elvet alkalmazzuk.

A GDP-növekedés az előző évhez viszonyított változás, ezért láncviszonyszám.

USA

2007 2008 2009

2% 1,2% -2%

DE (Németország)

2007 2008 2009

2,7% 2,5% -4,7%

CH (Svájc)

2007 2008 2009

2,4% 1,6% -1,9%

PRC (Kína)

2007 2008 2009

10% 9% 9%

HU (Magyarország)

2007 2008 2009

3% 0,6% -6,3%

év

USA

DE

CH

PRC

HU

GDP

GDP

növ.

GDP

GDP

növ.

GDP

GDP

növ.

GDP

GDP

növ.

GDP

GDP

növ.

2006

13 978 068

-

3 258 422

-

414 550

-

3 586 818

-

133 980

-

2007

14 257 630

2%

3 346 440

2,7%

424 500

2,4%

3 945 500

10%

138 000

3%

2008

14 400 210

1,2%

3 430 100

2,5%

431 292

1,6%

4 300 596

9%

138 828

0,6%

2009

14 119 000

-2%

3 268 885

-4,7%

423 092

-1,9%

4 687 649

9%

132 858

-6,3%

A 2009-es évben a 2008 végén kibontakozó válság hatására számos országban volt negatív a GDP-növekedés. Az általános trend igen érdekesen alakult. A gazdaságilag legfejlettebb országokban kisebb, a kevésbé fejlettek esetében nagyobb visszaesés volt kimutatható, a feltörekvő országok pedig akár növekedést is tudtak produkálni. Kína például – ha egyáltalán sorolhatjuk még a feltörekvő országok közé – például 9%-os növekedésével alig érezte a válságot.

Maga a GDP-növekedés – bár kétségtelenül nagyon lényeges – azért egyben megtévesztő is. Azok az országok tudnak ugyanis igazán növekedni, ahol még van honnan, vagyis a GDP viszonylag alacsony. A GDP-nek ezt az alacsony vagy magas szintjét az egy főre jutó GDP-vel tudjuk megvizsgálni.

Az egy főre jutó GDP szintén viszonyszám. Ezt a fajtát intenzitási viszonyszámnak neveztük. Számítsuk ki az egyes országok egy főre jutó GDP-jét. Ehhez ismernünk kell az egyes országok lakosságát.

év

USA (304,8 millió)

DE (82,7 millió)

CH (7,6 millió)

PRC (1330 millió)

HU (10 millió)

GDP

(millió)

GDP/fő

(ezer )

GDP

(millió)

GDP/fő

(ezer)

GDP

(millió)

GDP/fő

(ezer)

GDP

(millió)

GDP/fő

(ezer)

GDP

(millió)

GDP/fő

(ezer)

2006

13 978 068

45,8

3 258 422

39,4

414 550

54,5

3 586 818

2,7

133 980

13,3

2007

14 257 630

46,7

3 346 440

40,5

424 500

55,8

3 945 500

3

138 000

13,8

2008

14 400 210

47,2

3 430 100

41,5

431 292

56,7

4 300 596

3,2

138 828

13,8

2009

14 119 000

46,3

3 268 885

39,5

423 092

55,6

4 687 649

3,5

132 858

13,2

A legnagyobb egy főre jutó GDP értékeket Európa néhány apró államában valamint Norvégiában és Dániában kapjuk, ezekben az egy főre jutó éves GDP mindenhol 60 000 USA-dollár felett van. A következő mezőny 50 ezer dollár körüli szinttel Svájc, Svédország, Hollandia, Finnország és Írország. Őket követi a 40 ezresek népes tábora, USA, Kanada, Németország, Franciaország, Nagy-Britannia, Belgium, Ausztria valamint Japán és Ausztrália. Tőlük kissé leszakadva 30 ezres kategóriában Spanyolország Görögország és Olaszország valamint Újzéland jön, majd 10 és 20 ezer körüli szinten a kelet-európai országok, Portugália és Izrael, végül éppen 10 ezer dollárral Oroszország.

A világ összes többi országa a 10 ezres szint alatt van.

A következő táblázat az USA és Németország USA-dollárban megadott GDP-adatait tartalmazza. Számítsuk ki a hiányzó adatokat.

év

USA (304,8 millió)

Németország (82,7 millió)

GDP

GDP/fő

GDP növekedés

Előző

év=100% 2007=100%

GDP

GDP/fő

GDP növekedés

Előző

év=100% 2007=100%

2007

14 257 630

-

2008

47,3

41,5

2009

-2%

-4,7%

2010

1%

1,3%

0,5%

A GDP mindenhol ezer USA-dollárban van megadva, a dollár árfolyamváltozásai a

valós GDP-adatokat torzítják.

Kezdjük az USA-val. A 2007-es GDP adatot osztva a lakosság számával megkapjuk az egy főre jutó GDP-t, 2008-ban pedig ugyanezt csináljuk visszafele.

2008-as GDP-adatot a 2007-essel osztva kapjuk, hogy 1,011 ami 101,1% a növekedés pedig 1,1%.

2009-ben 2%-os a csökkenés, így a 2008-as GDP-t szorozzuk 0,98-al.

A 2010-es adat 1% ami azt jelenti, hogy 2007-hez képest éppen 1%-os változás volt, a 2010-es GDP tehát 1%-al jobb a válság előtti 2007-es szintnél.

A Németeknél már kellemetlenebbek az adatok. 2008-ban meg tudjuk mondani a GDP-t, ami

A 4,7%-os csökkenés 2009-ben azt jelenti, hogy

2010-ben ez 1,3%-al nő:

Ez a 2007-es adathoz képest 0,5%-os növekedés, tehát

Végül a növekedés 2008-ra vagyis 2,5%-os volt.

Statisztikai táblák

A statisztikai táblák három fő csoportba sorolhatók. A legegyszerűbb típust, rendkívül találóan egyszerű táblának nevezik. Ilyen például ez.

DE

FR

GDP/fő

(ezer EUR)

28,5

26,6

Munka-

nélküliség

7,1%

9,8%

A következő típus, az úgynevezett csoportosító tábla, aminek lényege, hogy az adatokat valamelyik ismérv szerint tudjuk összesíteni. Itt például csak vízszintesen értelmes az adatokat összeadni – a függőlegesnek komoly diplomáciai következményei lennének.

DE

FR

Össz.

Sertések

száma

(millió)

26 887

14 810

41 697

Népesség

(millió)

82

62

144

Végül a harmadik típus a kombinációs vagy más néven kontingencia tábla, amely esetében mindegyik ismérv szerint tudjuk az adatokat összesíteni.

DE

FR

Össz.

Sertések

száma

(millió)

26 887

14 810

41 697

Szarvasmarhák

száma

(millió)

12 945

18 591

31 536

Össz.

39 832

33 401

73 233

A bemutatott táblákat más szempontok szerint is vizsgálhatjuk. Például az úgynevezett dimenzió szerint. Egy tábla dimenziója azt jelenti, hogy a tábla adatai, hányféle statisztikai sornak elemei. A következő táblának a dimenziója például egy.

Az évfolyam

hallgatóinak

életkora

Hallgatók

száma

18

180

19

120

20

60

21

40

Ha a hallgatókat felosztjuk, mondjuk úgy, hogy fiú-lány, akkor a dimenzió kettő lesz.

Az évfolyam

hallgatóinak

életkora

Hallgatók száma

fiú

lány

18

80

100

19

50

70

20

40

20

21

30

10

Ha a fiú-lány bontást tovább osztjuk, akkor már három.

Az évfolyam

hallgatóinak

életkora

Hallgatók száma

fiú

lány

szép

ronda

szép

ronda

18

1

79

99

1

19

2

48

78

2

20

3

37

17

3

21

4

26

6

4

Ha ezt is tovább osztjuk, akkor már négy, és így tovább. Mivel azonban a dimenziószám növelésével a statisztikai táblák átláthatósága rohamosan csökken, nemigen szokott háromnál nagyobb dimenziójú tábla előfordulni. A mi vizsgálódásaink tárgyai pedig főleg kétdimenziós táblák lesznek.

 

Ismérvek fajtái, mérési szintek, sokaságok típusai

01
hang
BelépekvagyRegisztrálok Back arrow Ugrás az
összeshez