Alapfogalmak
1. Egy vonat az útjának felét 140 km/h sebességgel, a másik felét 60 km/h sebességgel tette meg. Mekkora volt az átlagsebessége?
Megnézem, hogyan kell megoldani
2. A következő táblázat néhány év átlagos munkanélküliségi rátáinak alakulását és az aktív korúak, valamint a munkanélküliek számát tartalmazza.
Munkanélküliségi ráta (éves átlag) | Aktív korúak száma | Munkanélküliek száma | ||||
év | 40 év alatt | 40 év felett | 40 év alatt | 40 év felett | 40 év alatt | 40 év felett |
2000 | 8,4% | 4% | 2 164 000 | 1 936 000 | ||
2001 | 7,2% | 3,9% | 2 138 100 | 1 937 300 | ||
2002 | 6,67% | 4% | 142 548 | 77 452 | ||
2003 | 7,35% | 3,8% | 156 375 | 73 625 |
Adjuk meg az egyes évek munkanélküliségi rátáit. Keressünk a táblázatban dinamikus viszonyszámokat.
Megnézem, hogyan kell megoldani
3. Az alábbi táblázat egy üzlet havi fogkrémeladásait és raktárkészletét tartalmazza
hónap |
TARTAMIDŐSOR eladás (db.) |
ÁLLAPOTIDŐSOR raktárkészlet (db., hónap 1-én) |
Jan. | 640 | 120 |
Febr. | 720 | 150 |
Márc. | 740 | 160 |
Ápr. | 760 | 110 |
Máj. | 730 | 100 |
Jún. | 760 | 120 |
Számoljuk ki az első negyedév átlagos forgalmát és raktárkészletét.
Megnézem, hogyan kell megoldani
4. Egy szupermarket valamelyik pénztáránál fél óra alatt 20-an fizettek az alábbi összegekért:
1000 | 2000 | 7000 | 9000 | 11 500 |
3500 | 1000 | 5000 | 3000 | 12 000 |
5000 | 1500 | 3000 | 8000 | 9000 |
2500 | 3000 | 1500 | 8500 | 3000 |
Állapítsuk meg az adatsor néhány alapvető statisztikai mutatóját. Ezek a módusz, a medián, a kvartilisek, és a számtani átlag.
Megnézem, hogyan kell megoldani
5.
Vásárlás értéke | Osztály-közép | \( f_i \) | \( g_i \) |
0 - 2499 | 1250 | 5 | 5/20 |
2500 - 4999 | 3750 | 6 | 6/20 |
5000 - 7499 | 6250 | 3 | 3/20 |
7500 - 9999 | 8750 | 4 | 4/20 |
10 000 - 12 499 | 11250 | 2 | 2/20 |
Állapítsuk meg az adatsor átlagát, móduszát, és mediánját.
Megnézem, hogyan kell megoldani
6. Egy szupermarket valamelyik pénztáránál fél óra alatt 20-an fizettek az alábbi összegekért:
1000 | 2000 | 7000 | 9000 | 11 500 |
3500 | 1000 | 5000 | 3000 | 12 000 |
5000 | 1500 | 3000 | 8000 | 9000 |
2500 | 3000 | 1500 | 8500 | 3000 |
Számoljuk ki a vásárlások értékének szórását.
Megnézem, hogyan kell megoldani
7.
Vásárlás értéke | Osztály-közép | \( f_i \) | \( g_i \) |
0 - 2499 | 1250 | 5 | 5/20 |
2500 - 4999 | 3750 | 6 | 6/20 |
5000 - 7499 | 6250 | 3 | 3/20 |
7500 - 9999 | 8750 | 4 | 4/20 |
10 000 - 12 499 | 11250 | 2 | 2/20 |
Állapítsuk meg az adatsor becsült szórását.
Megnézem, hogyan kell megoldani
8. Egy iskolai büfé napi vevőszámának alakulása az elmúlt 20 napban az alábbi volt.
1000, 2000, 7000, 9000,11 5000, 3500, 1000, 5000, 3000, 12 000, 5000, 1500, 3000, 8000, 9000, 2500, 3000, 1500, 8500, 3000
Határozzuk meg a móduszt és a kvartiliseket.
Megnézem, hogyan kell megoldani
9. Az alábbi táblázat egy város havi gázfogyasztóinak eloszlását tartalmazza, a fogyasztók számát ezer főben megadva.
Havi fogyasztás (köbméterben) | \( f_i \) | \( f'_i \) | \( g_i \) | \( g'_i \) |
0-49 | 3 | |||
50-99 | 4 | |||
100-149 | 15 | |||
150-199 | 0 | |||
200-249 | 0,25 |
a) Töltsük ki a hiányzó részeket.
b) Adjuk meg a móduszt és a mediánt!
c) Adjuk meg az átlagot és a szórást!
Megnézem, hogyan kell megoldani
10. Az alábbi táblázat egy bevásárlóközpont üzlethelyiségének alapterület szerinti megoszlását tartalmazza.
alapterület | \( f_i \) | \( f'_i \) | \( g_i \) | \( g'_i \) |
0-99 | 4 | |||
100-199 | 9 | |||
200-299 | 12 | |||
300-399 | 34 | |||
400- | 50 |
a) Töltsük ki a hiányzó adatokat.
b) Mekkora a tipikus üzlethelyiség alapterület
c) Mekkora az átlagos üzlethelyiség alapterülete? Mekkora a szórás?
Megnézem, hogyan kell megoldani
11. Egy évfolyam négy különböző szakán az alábbiak ismertek:
Szak | Nők | 100 férfira jutó nők száma szakonként |
A | 30% | 120 |
B | 20% | 130 |
C | 18% | 110 |
D | 32% | 140 |
Össz. | 100% | - |
Mennyi az egész évfolyamon a 100 férfire jutó nők átlagos száma? Mennyi a 100 nőre jutó férfiak száma?
Megnézem, hogyan kell megoldani
12. Egy város lakosainak száma 2009-ben 760ezer, míg 2011-ben 758ezer. Az alábbiakat tudjuk:
év |
Orvosok száma 2009 = 100%
|
Háziorvosok száma (%) | Egy háziorvosra jutó lakosok száma (%) | Háziorvosok részaránya (%) |
2010 = 100% | ||||
2009 | 105 | 7 | ||
2010 | 100 | 100 | 6,8 | |
2011 | 120 | 83 | 6,9 |
Töltsük ki a hiányzó részeket!
Megnézem, hogyan kell megoldani
13. Egy szupermarket valamelyik pénztáránál fél óra alatt 20-an fizettek az alábbi összegekért:
1000 | 2000 | 7000 | 9000 | 11 500 |
3500 | 1000 | 5000 | 3000 | 12 000 |
5000 | 1500 | 3000 | 8000 | 9000 |
2500 | 3000 | 1500 | 8500 | 3000 |
Állapítsuk meg az adatsor néhány alapvető statisztikai mutatóját. Ezek a módusz, a medián, a kvartilisek, majd rendezzük az adatokat gyakorisági sorba 2500 forintos osztályközökkel. Készítsük el a sorok különböző fajtáit is.
Megnézem, hogyan kell megoldani
14. Az elmúlt 20 évben a villamos által elgázolt járókelők száma évente a következőképpen alakult: 10, 11, 8, 7, 12, 9, 8, 6, 12, 8, 5, 3, 4, 2, 4, 1, 0, 5, 1, 1.
Adjuk meg a kvartilis-eloszlást, a kvintilis-eloszlást és a decilis-eloszlást.
Megnézem, hogyan kell megoldani
15. Egy bank ügyfeleinek betétállományát tartalmazza a következő táblázat. Készítsük el a mennyiségi sorok különböző fajtáit, adjuk meg a mediánt, a kvartiliseket, a kvintiliseket.
Bankbetét értéke (USD) | Betétesek száma \(f_i \) |
0-1000 | 4 510 |
1001-2000 | 13 430 |
2001-3000 | 27 650 |
3001-4000 | 31 200 |
4001-5000 | 26 710 |
5001-6000 | 14 310 |
6001- | 20 000 |
Össz. | 137 810 |
Megnézem, hogyan kell megoldani
16. Egy szupermarket pénztárainál fizető vásárlók vásárlás végösszege szerinti megoszlása valamely napon az alábbi volt. Készítsük el a mennyiségi sorok különböző fajtáit, adjuk meg a mediánt és a kvintiliseket.
A vásárló által fizetett végösszeg (forint) | \( f_i \) |
0 - 1 000 | 720 |
1 001 - 2 000 | 1 940 |
2 001 - 5 000 | 1 790 |
5 001 - 10 000 | 490 |
10 001 - 20 000 | 288 |
20 001 - 30 000 | 76 |
30 001 - 40 000 | 254 |
40 001 - 50 000 | 604 |
50 001 - 60 000 | 18 |
60 001 - | 15 |
Total | 6 195 |
Megnézem, hogyan kell megoldani
17. Egy újságárus havi lapeladásait tartalmazza a következő táblázat.
Napok száma | Eladott mennyiség |
2 | 215 |
4 | 217 |
2 | 218 |
5 | 220 |
8 | 222 |
7 | 225 |
3 | 230 |
a) Mekkora az átlagos havi lapeladás?
b) Határozzuk meg a mediánt.
c) Mekkora a relatív szórás?
Megnézem, hogyan kell megoldani
18. Egy áruház raktárkészlete valamely termékből az alábbi.
hónap | Készlet | ||||
Jan = 100% | Előző hónap = 100% |
Változás %-ban február = 100% |
Változás februárhoz képest (db) | Aktuális készlet a hónap végén (db) | |
Jan. | 100 | - | -20 | -10 | |
Febr. | |||||
Márc. | 110 | ||||
Ápr. | +16 | ||||
Máj. | 600 | ||||
Jún. | 80 | ||||
Júl. | 130 |
a) Töltsük ki a hiányzó részeket!
b) Mekkora volt az átlagos raktárkészlet ebből a termékből a második negyedévben?
1. ALAPFOGALMAK
Ismérvek típusai
A statisztikával való ismerkedésünket meglehetősen unalmasnak tűnő elméleti rizsával fogjuk kezdeni. Amiért mindez unalmasnak tűnik, nos az azzal magyarázható, hogy sajnos meglehetősen unalmas is.
Akiket az ilyen részletek untatnak, jobban is teszik, ha ezt a részt átugorják, és rátérnek a következő fejezetre, az egy ismérv szerinti elemzésre aztán majd később visszatérnek ide, ha úgy adódik. Akiket viszont érdekelnek az unalmas részek, számukra elérkezett az idő, hogy megismerkedjenek az ismérvek fajtáival.
Az ismérvek olyan vizsgálati szempontok, amelyek alapján a sokaság részekre osztható. Vannak, olyanok amik csak két részre osztják a sokaságot, például azokra akik megbuktak statisztikából és azokra akik nem. De akad olyan is, ami akárhány részre osztja, mondjuk az életünk során elfogyasztott pálinkamennyiség, literben megadva. Négy fő ismérvfajta különböztethető meg, TERÜLETI, IDŐBELI, MINŐSÉGI, MENNYISÉGI.
A területi és időbeli ismérvek az adatokat földrajzi vagy időbeli elhelyezkedésük szerint csoportosítják, a minőségi és mennyiségi ismérvek pedig valamilyen mérés szerint. Vegyük például az évfolyamra járó lányok sokaságát. Területi ismérv, hogy ki melyik településen lakik, és mondjuk időbeli, hogy ki melyik évben született. Sokkal izgalmasabbak azonban a lányok esetében azok az ismérvek, amelyek valamilyen méréssel állapíthatók meg.
A nominális összehasonlítás esetén tudjuk a legkevesebb statisztikai mutatóval vizsgálni a sokaságot. Ilyen például, hogy egy évfolyamon a lányok közül 60% barna hajú és 40% szőke. Ezeknél az összehasonlításoknál kevés eszközünk van a statisztikai jellegű elemzésre, még egy átlagot sem tudunk számolni.
Ha bevezetünk egy sorrendiséget, akkor már más a helyzet. Ha a barna hajú lányokat
1-el, a szőkéket pedig 2-vel jelöljük, és az arányok 60% és 40%, akkor már van átlag
A hajszín index átlagosan 1,4 értékű. Ennek az adatnak úgy lehet jelentősége, ha mondjuk egy másik évfolyammal hasonlítjuk össze. Ha ott ez a mutató például 1,9 akkor ott nagyobb a szőkék aránya, mint itt. Ezt a fajta mérési szintet ordinálisnak nevezzük. Itt már van a csoportok közt sorrendiség, tehát van értelme számokkal jellemezni őket ami lehetővé teszi az átlagok és egyéb mutatók kiszámolását. Tipikusan ilyen ismérv a hotelek, éttermek besorolása vagy a vizsgajegyek.
A mennyiségi ismérvek már kevésbé szubjektívek, itt az osztályozást egy számszerűen mérhető tulajdonság alapján végezzük. Ilyen például a testsúly vagy az életkor vagy éppen az intelligencia. A mennyiségi ismérveket két csoportba osztjuk, a testsúly és az életkor mindkettő ugyanabba a csoportba tartozik, arány-skálán mérhető. Az arány-skála lényege, hogy nincsenek negatív értékei, tehát minden mérés százalékosan viszonyítható egy másikhoz. Ha például Pistabácsi 75 éves, Gizike pedig 50, akkor Gizike 33%-al fiatalabb vagy éppen Pistabácsi 50%-al öregebb.
Van a mennyiségi ismérveknek egy másik típusa is, ezt intervallum-skálán mérjük és ez abban különbözik az arány-skálától, hogy nincs értelme a százalékos öszehasonlításnak. Legjobb példa rá a hőmérséklet. Ha mondjuk ma -5 fok van, holnap pedig 10 fok lesz, akkor nincs értelme egy olyan megállapításnak, hogy holnap -2szer nagyobb lesz a hőmérséklet, legfeljebb 15 fokkal melegebb lesz.
Mindezt összefoglalhatjuk egy remek táblázatban.
[Szövegdoboz: MINŐSÉGI Nominális (névleges) A sokaság elemeit valamilyen tulajdonságok szerinti csoportokba soroljuk, de a csoportok közt nincs semmiféle rangsor példák: az áldozatok halálának oka a terroristák nemzetisége Ordinális (sorrendi) A csoportok között már felállítható sorrendiség példák: a hotelek besorolása (** *** **** *****) a vizsgázók jegyei (1, 2, 3, 4, 5 ) MENNYISÉGI Intervallum A sokaság elemeit itt már valamilyen mértékegység szerint osztályozzuk, de csak a „mennyivel több?” kérdésre tudunk válaszolni, a „hányszoros?”-ra nem példák: hőmérséklet (tegnap -5 fok volt, ma 0 fok, hányszor melegebb van?) Arány Itt is mértékegység szerinti az osztályozás, de a „hányszoros?” kérdésre is tudunk válaszolni (mindig 0-tól kezdünk mérni) példák: életkor testmagasság]
Ezzel rá is tértünk a következő izgalmas témánkra, az adatok összehasonlítására. Az összehasonlítás történhet csupán az adatok egymás mellé tételével, vagy azok különbségével, hányadosával. Ha például egy városban 10 000 ember él és 800 munkanélküli, akkor a munkanélküliek aránya a teljes lakossághoz képest
ami 8%-ot jelent
Mégsem igaz, hogy a város 8%-a munkanélküli, mert a maradék 92% se mind dolgozik, hiszen vannak köztük 5 éves gyerekek, 99 éves nagymamák, stb. Az összehasonlítás első fontos szempontja tehát az, hogy csak azonos fajta ismérveket hasonlíthatunk össze. A munkanélküliségi ráta helyes kiszámolása az, ha az úgynevezett aktív korúak számával osztjuk a munkanélküliek számát, vagyis azoknak számával, akik tulajdonképpen ha úgy adódik dolgozhatnának, aztán vagy dolgoznak vagy nem. Ha a városban 5 000 aktív korú lakos van, akkor a munkanélküliségi ráta
ami 16%
Ha egy másik város munkanélküliségi rátájával akarjuk ezt összehasonlítani, akkor általában nem arányt, hanem különbséget számítunk. Mondjuk a másik városban 17% munkanélküli, akkor nem azt mondjuk, hogy 1,0625-ször annyi munkanélküli van, hanem azt, hogy 1%ponttal több.
A százalékpont kifejezés két százalék közti különbség kifejezésére szolgál, bár az emberek túlnyomó része nem tudja, hogy mit jelent ezért nem használja, a többiek meg, akik tudják, hogy mit jelent azért nem használják, mert félnek attól, hogy más nem érti (lásd média). Mindezen nehézségek ellenére szokjunk rá a százalékpont kifejezés használatára. Ha például valamilyen adókulcsa 10%-ról 15%-ra emelkedik, akkor nem öt százalékkal emelkedik, hanem öt százalékponttal. Az emelés ugyanis az eredeti adó 50%-a. A százalékpont nem más, mint a százalék önálló mértékegységként való kezelése.
Viszonyszámok
A viszonyszám a statisztika egyik legfontosabb alapfogalma, és jelentőségét gyorsan megérthetjük a következő történettel:
Egy vonat az útjának felét 140km/h sebességgel, a másik felét 60km/h sebességgel tette meg. Mekkora volt az átlagsebessége?
A válasz:
tehát átlagosan a sebessége 100km/h
De a válasz rossz!
Vajon miért rossz? Hiszen 140-nek és 60-nak az átlaga 100, miért ne lenne hát 100km/h az átlagsebesség? Nos ennek megértéséhez van szükségünk a viszonyszámokra.
A viszonyszám jele V és kiszámolásának módja bosszantóan semmitmondó:
Ez igazán remek, de mi A és B ebben a képletben?
Nos a válasz az, hogy A és B bármi lehet, de a képlet mégis roppant fontos és mindjárt kiderül, hogy miért. Ha ugyanis több ilyen viszonyszámunk van, fölmerülhet az igény ezek átlagolására. Ha
és
akkor átlagukat kétféleképpen számolhatjuk ki. Az átlag jele .
Az egyik lehetőség a számtani átlag.
SÚLYOZOTT SZÁMTANI ÁTLAG:
vagyis
A másik lehetőség a harmonikus átlag.
SÚLYOZOTT HARMONIKUS ÁTLAG:
vagyis
Amit mindenképp érdemes ebből megjegyezni, hogy a két átlag eredménye ugyanaz, csak éppen nem mindegy, mikor melyiket használjuk. Ha a súlyoknak az B-k lesznek használva, akkor számtani átlag kell, ha viszont a A-k, akkor harmonikus átlag kell.
Most térjünk vissza a találós-kérdésre. A vonat sebessége egy viszonyszám. Kilométer osztva órával.
kilométer
óra
Sebesség:
Ha például tudjuk, hogy 120km/h sebességgel ment a vonat 2 órán át és 80km/h sebességgel 3 órán át, akkor számtani átlagot számolunk, mert a súlyok az órák, 2 óra és a 3 óra vagyis B-k.
és
km/h
Ha viszont azt tudjuk, hogy 120km/h sebességgel ment a vonat 200 kilométeren át és 80km/h sebességgel 300 kilométeren át, akkor nem számtani átlagot számolunk, rossz megoldás az, hogy
km/h
A jó megoldás az, hogy mivel a súlyok a kilométerek, 200km és 300km vagyis A-k, ezért harmonikus átlagot számolunk
és
km/h
Az eredeti feladat úgy szólt, hogy Egy vonat az útjának felét 140km/h sebességgel, a másik felét 60km/h sebességgel tette meg. Mekkora volt az átlagsebessége?
Az útja lehetett 100km vagy 500km vagy bármi, ez mindegy. Legyen a könnyebb számolás miatt 100km. Ekkor 50km utat tett meg 140-el és 50km utat 60-al. A súlyok tehát kilométerek.
A rossz válasz:
átlagosan a sebessége 100km/h
Azért rossz, mert számtani átlaggal számoltuk. A jó válasz az, ha harmonikus átlagot használunk:
km/h
Viszonyszámok típusai
A viszonyszámoknak három fő típusa van, a dinamikus viszonyszám, az intenzitási viszonyszám és a megoszlási viszonyszám. Lássunk példákat!
DINAMIKUS VISZONYSZÁM
Idősorok adataiból számított hányadosok
év
Munkanélküliek
száma
2000
260 000
2001
230 000
2002
220 000
2003
230 000
A munkanélküliek számának 2000-hez viszonyított aránya dinamikus viszonyszám.
INTENZITÁSI VISZONYSZÁM
Két, egymással valamilyen kap- csolatban álló sokaság mennyi-ségeinek hányadosa
év
Munka-nélküliek
száma
Aktív
korúak
száma
2000
260 000
4 100 000
2001
230 000
4 075 400
2002
220 000
4 070 300
2003
230 000
4 065 700
A munkanélküliségi ráta az egyes években intenzitási viszonyszám.
Például 2000-ben:
6,3%
MEGOSZLÁSI VISZONYSZÁM
Egy sokaság valamely részének az
egészhez viszonyított hányadosa.
végzettség
Munkanélküliek
Száma 2000-ben
8 általános alatt
6 500
8 általános
75 200
Érettségi
169 900
felsőfokú
8 400
összesen
260 000
A felsőfokú végzettségűek aránya a munkanélküliek körében megoszlási viszonyszám.
3,2%
Most térjünk rá a viszonyszámok átlagolására. Általában háromféle átlagformára lesz szükségünk, a már korábban látott számtani és harmonikus átlagra, valamint a mértani átlagra.
SÚLYOZOTT SZÁMTANI ÁTLAG:
A súlyok B1 B2 stb.
több tagra
A következő táblázat néhány év átlagos munkanélküliségi rátáinak alakulását és az aktív korúak, valamint a munkanélküliek számát tartalmazza.
év
Munkanélküliségi
ráta (éves átlag)
V
Aktív korúak
száma
B
Munkanélküliek száma
A
40 év alatt
40 év felett
40 év alatt
40 év felett
40 év alatt
40 év felett
2000
8,4%
4%
2 164 000
1 936 000
2001
7,2%
3,9%
2 138 100
1 937 300
2002
6,67%
4%
142 548
77 452
2003
7,35%
3,8%
156 375
73 625
Adjuk meg az egyes évek munkanélküliségi rátáit. Keressünk a táblázatban dinamikus viszonyszámokat, intenzitási viszonyszámokat és megoszlási viszonyszámokat!
A munkanélküliségi ráta egy viszonyszám,
A=munkanélküliek száma B=aktív korúak száma V=munkanélküliségi ráta
Az egyes évek munkanélküliségi rátájának kiszámolásához átlagolnunk kell a két
korcsoport munkanélküliségi rátáját.
Az első két évben az átlagolás súlyai B-k, tehát számtani átlagot használunk:
2000
2001
A következő két évben viszont a B-k nincsenek megadva. Megtehetjük persze, hogy kiszámoljuk őket, de felesleges. Itt ugyanis harmonikus átlaggal számolunk.
2002
2003
Dinamikus viszonyszám például a munkanélküliségi ráták alakulása 2000-hez,
vagy az előző évhez viszonyítva.
Intenzitási viszonyszámok maguk a munkanélküliségi ráták korosztályonként is meg összesen is, de szintén intenzitási viszonyszám a 40 év feletti és 40 alatti aktívak aránya.
Megoszlási viszonyszám például az összes munkanélküli közül a 40 év alattiak aránya. Ez például 2002-ben
vagyis 64,8%
Szintén megoszlási viszonyszám a 40 év alatti aktívak aránya az összes aktív lakoshoz viszonyítva mondjuk 2000-ben:
ami 52,7%
Viszonyszám az emberiség sorsát mostanában meghatározni látszó GDP-növekedés is. Maga a GDP a gross domestic product kifejezés rövidítése, magyarul bruttó hazai összterméknek szokás emlegetni. A GDP számításának módja viszonylag bonyolult, ezzel a későbbiekben fogunk foglalkozni, de a GDP-növekedés kiszámolása nagyon egyszerű, úgy kapjuk, hogy a jelenlegi év GDP-jét osztjuk az előző év GDP-jével. Ha még emlékszünk a viszonyszámok típusaira, ez egy dinamikus viszonyszám.
A következő táblázat néhány ország GDP adatait tartalmazza millió USA-dollárban megadva 2007 és 2010 között, 2008 évi átlagolt dollár-árfolyamon.
Számítsuk ki a GDP-növekedéseket.
év
USA
DE
CH
PRC
HU
GDP
GDP
GDP
GDP
GDP
2006
13 978 068
3 258 422
414 550
3 586 818
133 980
2007
14 257 630
3 346 440
424 500
3 945 500
138 000
2008
14 400 210
3 430 100
431 292
4 300 596
138 828
2009
14 119 000
3 268 885
423 092
4 687 649
132 858
Az idősorban bekövetkező változásokat általában százalékosan szokás megadni, az úgynevezett viszonyszámokkal. Vannak bázisviszonyszámok, amik mindig egy adott évhez viszonyítanak, és vannak láncviszonyszámok, amik mindig az előző évhez viszonyítanak. Kiszámolásuknál mindig a későbbi/korábbi elvet alkalmazzuk.
A GDP-növekedés az előző évhez viszonyított változás, ezért láncviszonyszám.
USA
2007 2008 2009
2% 1,2% -2%
DE (Németország)
2007 2008 2009
2,7% 2,5% -4,7%
CH (Svájc)
2007 2008 2009
2,4% 1,6% -1,9%
PRC (Kína)
2007 2008 2009
10% 9% 9%
HU (Magyarország)
2007 2008 2009
3% 0,6% -6,3%
év
USA
DE
CH
PRC
HU
GDP
GDP
növ.
GDP
GDP
növ.
GDP
GDP
növ.
GDP
GDP
növ.
GDP
GDP
növ.
2006
13 978 068
-
3 258 422
-
414 550
-
3 586 818
-
133 980
-
2007
14 257 630
2%
3 346 440
2,7%
424 500
2,4%
3 945 500
10%
138 000
3%
2008
14 400 210
1,2%
3 430 100
2,5%
431 292
1,6%
4 300 596
9%
138 828
0,6%
2009
14 119 000
-2%
3 268 885
-4,7%
423 092
-1,9%
4 687 649
9%
132 858
-6,3%
A 2009-es évben a 2008 végén kibontakozó válság hatására számos országban volt negatív a GDP-növekedés. Az általános trend igen érdekesen alakult. A gazdaságilag legfejlettebb országokban kisebb, a kevésbé fejlettek esetében nagyobb visszaesés volt kimutatható, a feltörekvő országok pedig akár növekedést is tudtak produkálni. Kína például – ha egyáltalán sorolhatjuk még a feltörekvő országok közé – például 9%-os növekedésével alig érezte a válságot.
Maga a GDP-növekedés – bár kétségtelenül nagyon lényeges – azért egyben megtévesztő is. Azok az országok tudnak ugyanis igazán növekedni, ahol még van honnan, vagyis a GDP viszonylag alacsony. A GDP-nek ezt az alacsony vagy magas szintjét az egy főre jutó GDP-vel tudjuk megvizsgálni.
Az egy főre jutó GDP szintén viszonyszám. Ezt a fajtát intenzitási viszonyszámnak neveztük. Számítsuk ki az egyes országok egy főre jutó GDP-jét. Ehhez ismernünk kell az egyes országok lakosságát.
év
USA (304,8 millió)
DE (82,7 millió)
CH (7,6 millió)
PRC (1330 millió)
HU (10 millió)
GDP
(millió)
GDP/fő
(ezer )
GDP
(millió)
GDP/fő
(ezer)
GDP
(millió)
GDP/fő
(ezer)
GDP
(millió)
GDP/fő
(ezer)
GDP
(millió)
GDP/fő
(ezer)
2006
13 978 068
45,8
3 258 422
39,4
414 550
54,5
3 586 818
2,7
133 980
13,3
2007
14 257 630
46,7
3 346 440
40,5
424 500
55,8
3 945 500
3
138 000
13,8
2008
14 400 210
47,2
3 430 100
41,5
431 292
56,7
4 300 596
3,2
138 828
13,8
2009
14 119 000
46,3
3 268 885
39,5
423 092
55,6
4 687 649
3,5
132 858
13,2
A legnagyobb egy főre jutó GDP értékeket Európa néhány apró államában valamint Norvégiában és Dániában kapjuk, ezekben az egy főre jutó éves GDP mindenhol 60 000 USA-dollár felett van. A következő mezőny 50 ezer dollár körüli szinttel Svájc, Svédország, Hollandia, Finnország és Írország. Őket követi a 40 ezresek népes tábora, USA, Kanada, Németország, Franciaország, Nagy-Britannia, Belgium, Ausztria valamint Japán és Ausztrália. Tőlük kissé leszakadva 30 ezres kategóriában Spanyolország Görögország és Olaszország valamint Újzéland jön, majd 10 és 20 ezer körüli szinten a kelet-európai országok, Portugália és Izrael, végül éppen 10 ezer dollárral Oroszország.
A világ összes többi országa a 10 ezres szint alatt van.
A következő táblázat az USA és Németország USA-dollárban megadott GDP-adatait tartalmazza. Számítsuk ki a hiányzó adatokat.
év
USA (304,8 millió)
Németország (82,7 millió)
GDP
GDP/fő
GDP növekedés
Előző
év=100% 2007=100%
GDP
GDP/fő
GDP növekedés
Előző
év=100% 2007=100%
2007
14 257 630
-
2008
47,3
41,5
2009
-2%
-4,7%
2010
1%
1,3%
0,5%
A GDP mindenhol ezer USA-dollárban van megadva, a dollár árfolyamváltozásai a
valós GDP-adatokat torzítják.
Kezdjük az USA-val. A 2007-es GDP adatot osztva a lakosság számával megkapjuk az egy főre jutó GDP-t, 2008-ban pedig ugyanezt csináljuk visszafele.
2008-as GDP-adatot a 2007-essel osztva kapjuk, hogy 1,011 ami 101,1% a növekedés pedig 1,1%.
2009-ben 2%-os a csökkenés, így a 2008-as GDP-t szorozzuk 0,98-al.
A 2010-es adat 1% ami azt jelenti, hogy 2007-hez képest éppen 1%-os változás volt, a 2010-es GDP tehát 1%-al jobb a válság előtti 2007-es szintnél.
A Németeknél már kellemetlenebbek az adatok. 2008-ban meg tudjuk mondani a GDP-t, ami
A 4,7%-os csökkenés 2009-ben azt jelenti, hogy
2010-ben ez 1,3%-al nő:
Ez a 2007-es adathoz képest 0,5%-os növekedés, tehát
Végül a növekedés 2008-ra vagyis 2,5%-os volt.
Statisztikai táblák
A statisztikai táblák három fő csoportba sorolhatók. A legegyszerűbb típust, rendkívül találóan egyszerű táblának nevezik. Ilyen például ez.
DE
FR
GDP/fő
(ezer EUR)
28,5
26,6
Munka-
nélküliség
7,1%
9,8%
A következő típus, az úgynevezett csoportosító tábla, aminek lényege, hogy az adatokat valamelyik ismérv szerint tudjuk összesíteni. Itt például csak vízszintesen értelmes az adatokat összeadni – a függőlegesnek komoly diplomáciai következményei lennének.
DE
FR
Össz.
Sertések
száma
(millió)
26 887
14 810
41 697
Népesség
(millió)
82
62
144
Végül a harmadik típus a kombinációs vagy más néven kontingencia tábla, amely esetében mindegyik ismérv szerint tudjuk az adatokat összesíteni.
DE
FR
Össz.
Sertések
száma
(millió)
26 887
14 810
41 697
Szarvasmarhák
száma
(millió)
12 945
18 591
31 536
Össz.
39 832
33 401
73 233
A bemutatott táblákat más szempontok szerint is vizsgálhatjuk. Például az úgynevezett dimenzió szerint. Egy tábla dimenziója azt jelenti, hogy a tábla adatai, hányféle statisztikai sornak elemei. A következő táblának a dimenziója például egy.
Az évfolyam
hallgatóinak
életkora
Hallgatók
száma
18
180
19
120
20
60
21
40
Ha a hallgatókat felosztjuk, mondjuk úgy, hogy fiú-lány, akkor a dimenzió kettő lesz.
Az évfolyam
hallgatóinak
életkora
Hallgatók száma
fiú
lány
18
80
100
19
50
70
20
40
20
21
30
10
Ha a fiú-lány bontást tovább osztjuk, akkor már három.
Az évfolyam
hallgatóinak
életkora
Hallgatók száma
fiú
lány
szép
ronda
szép
ronda
18
1
79
99
1
19
2
48
78
2
20
3
37
17
3
21
4
26
6
4
Ha ezt is tovább osztjuk, akkor már négy, és így tovább. Mivel azonban a dimenziószám növelésével a statisztikai táblák átláthatósága rohamosan csökken, nemigen szokott háromnál nagyobb dimenziójú tábla előfordulni. A mi vizsgálódásaink tárgyai pedig főleg kétdimenziós táblák lesznek.
Azokat az adatsorokat nevezzük idősornak, amely egy – vagy több – ismérv időben történő megoszlását írja le. Legjobb lesz, ha nézünk néhány példát.
Vegyük például a statisztikából megbukott hallgatók évenkénti megoszlását.
év
megbukott
vizsgázók száma
2007
350
2008
380
2009
420
2010
450
Ez a táblázat egy idősor. Az első oszlopban a megfigyelés időpontja látható, ennek periódusa szerencsés esetben mindig ugyanakkora. Ilyenkor az idősort ekvidisztans idősornak nevezzük. Ha nem volna ugyanakkora az egymást követő megfigyelések közt eltelt idő, akkor nem ekvidisztans idősorról beszélünk, ami komoly félreértéseket eredményezhet, hisz ha az egyik rubrikában két év megbukott hallgatóinak száma szerepel, akkor például a bukottak száma 350, 380, 870. A látszólagos ugrás azonban csak a csalás miatt van.
Ezeket az időben változó értékeket -vel szokás jelölni. A t indexelés az időre utal.
Nézzünk egy másik példát is idősorra. Vegyük, mondjuk egy országban a gépkocsi tulajdonosok és a közúti balesetek számának évenkénti megoszlását.
év
gépkocsi
tulajdonosok száma
közúti
balesetek száma
2007
2 315 421
81 256
2008
2 531 254
80 578
2009
2 624 322
79 875
2010
2 598 378
79 756
A táblázatban szereplő két adatsor között van egy jelentős különbség. Ezt a különbséget szemléletesen úgy lehetne kimutatni, hogy összeadjuk az oszlopban szereplő adatokat, és megnézzük, a kapott eredmény értelmes-e vagy sem.
Ha az adatok összeadásával kapott eredmény értelmes,
az idősort tartamidősornak nevezzük. Ilyen például táblázatunkban a közúti balesetek száma. Ezeket összeadva kiderül, hány baleset volt a négy év során.
Ha az adatok összeadásával kapott eredmény nem értelmes,
az idősort állapotidősornak nevezzük. Ilyen a táblázatban a gépkocsi tulajdonosok száma. Ha összeadjuk ezeket a négy évre, nem tudunk meg semmit, hiszen valakinek lehet, hogy minden évben volt autója, azt négyszer számoltuk, de olyan is lehet akinek egy évig volt, azt csak egyszer.
A tartamidősorok a vizsgált időtartamra vonatkozó megfigyeléseket tartalmazzák – innen ered a nevük is – tehát egy év baleseteinek a számát, egy hónapban eladott fogkrémek számát, stb.
Az állapotidősorok a vizsgált időtartam egy pillanatára vonatkozó megfigyeléseket tartalmazzák, az ország lakosságának számát egy adott év adott pillanatában, vagy a raktáron lévő fogkrémkészletet egy adott hónap adott pillanatában.
Az idősorban bekövetkező változásokat általában százalékosan szokás megadni, az úgynevezett viszonyszámokkal. Vannak bázisviszonyszámok, amik mindig egy adott évhez viszonyítanak, és vannak láncviszonyszámok, amik mindig az előző évhez viszonyítanak. Kiszámolásuknál a későbbi/korábbi elvet alkalmazzuk.
Nézzünk egy feladatot!
Az alábbi táblázat egy mozi forgalmának és jegyárainak évenkénti megoszlását tartalmazza.
év
TARTAMIDŐSOR
forgalom
(millió fő)
ÁLLAPOTIDŐSOR
Jegyár
(jan.1-én)
2007
5
950
2008
5,4
1150
2009
5,1
1300
2010
4,9
1450
2011
5
1500
Lássuk a viszonyszámokat! A forgalom oszlopban tekintsük bázisévnek 2007-et. Ekkor a bázisviszonyszámok
év
TARTAMIDŐSOR
forgalom
(millió fő)
bázis
viszonyszám
(2007=100%)
ÁLLAPOTIDŐSOR
jegyár
2007
950
2008
1150
2009
1300
2010
1450
2011
1500
év
TARTAMIDŐSOR
forgalom
(millió fő)
bázis
viszonyszám
(2007=100%)
ÁLLAPOTIDŐSOR
jegyár
2007
950
2008
1150
2009
1300
2010
1450
2011
1500
A láncviszonyszámok mindig az előző évhez viszonyítanak.
év
TARTAMIDŐSOR
forgalom
(millió fő)
bázis
viszonyszám
(2007=100%)
lánc-
viszonyszám
(előző év=100%)
ÁLLAPOTIDŐSOR
jegyár
2007
nincs
950
2008
1150
2009
1300
2010
1450
2011
1500
A bázisviszonyszám és a láncviszonyszám jelentése mindig százalékos változás.
Ha például a 2009-et nézzük, 1,020 azt jelenti, hogy 2%-al volt nagyobb a forgalom, mint a bázisévben, 0,944 pedig azt jelenti, hogy 0,056-al tehát 5,6%-al volt kisebb a forgalom, mint az előző évben.
A láncviszonyszámokat nézzük meg a jegyárakra is,
a bázisviszonyszámot meg egy időre felejtsük el.
év
forgalom
(millió fő)
lánc-
viszonyszám
(előző év=100%)
Jegyár
lánc-
viszonyszám
(előző év=100%)
2007
nincs
2008
2009
2010
2011
Az évek során bekövetkezett változást kétféleképpen is szemléltethetjük. Az egyik lehetőség az átlagos különbség, ami a jegyáraknál például azt jelenti, hogy hány forinttal drágultak a jegyek átlagosan egy év alatt. Ezt a változás mértékének szokás nevezni.
Az átlagos változás mértéke
Tehát összeadogatjuk a drágulásokat, aztán elosztjuk – mivel is? Az évek száma n, de nem n-el osztunk. Azért nem n-el, mert a drágulások számával kell osztanunk és az nem n, hanem n-1, az egyik évről a másikra történő ugrások száma. Most a vizsgált időszak 2007-től 2011-ig tart, ami öt év ugyan, de ugrásból csak négy van, ezért kell néggyel osztani:
tehát átlagosan évente 137,5 forinttal drágult a mozizás. Ha valaki jártas az általános iskola matekban, akkor rájöhet, hogy ez még egyszerűbben kijön:
Nem csak azt kérdezhetjük meg, hogy hány forinttal drágult a mozi, hanem azt is, hogy hány százalékos volt az éves áremelés. Ezt a változás ütemének hívjuk.
A változás üteme
Itt is azért van a gyökkitevőben n-1, mert nem az évek száma kell nekünk, hanem a változások száma, egyik évről másikra. Ez pedig n-1. A mozijegyek árának évenkénti változása tehát:
A változás mértéke:
A változás üteme:
A jegyek átlagosan 137,5 forinttal, 12%-al drágultak.
Ugyanezt megnézhetjük a mozilátogatók számának esetében is.
A változás mértéke:
A változás üteme:
Most térjünk rá az átlagok kiszámolására. Az átlagos nézőszám esetében tartamidősorunk van, vagyis van értelme összeadni az idősor adatait. Itt az átlagot a szokásos módon számoljuk:
Más a helyzet az átlagos jegyár esetében, ami állapotidősor, így az adatok összege értelmetlen. Ilyenkor úgynevezett kronologikus átlagot számolunk, ami
Nézzünk egy másik példát, ahol összefoglaljuk az eddigieket.
A következő táblázat egy autókereskedés raktárkészletének és eladásainak időbeli eloszlását tartalmazza. Számoljuk ki az összes eddigi állatfajtát.
hónap
raktárkészlet
(a hónap elején)
eladott
mennyiség
jan.
210
150
feb.
350
120
mar.
310
100
apr.
300
120
maj.
290
A változások mértéke és üteme:
hónap
ÁLLAPOTIDŐSOR
raktárkészlet
(a hónap elején)
TARTAMIDŐSOR
eladott
mennyiség
jan.
feb.
mar.
apr.
maj.
hónap
ÁLLAPOTIDŐSOR
raktárkészlet
TARTAMIDŐSOR
eladott mennyiség
jan.
feb.
mar.
apr.
maj.
Változás
mértéke
Változás
üteme
átlag
2.4. Az alábbi táblázat egy üzem által gyártott, illetve elszállítás előtt raktározott üveges pálinkák mennyiségét tartalmazza. Töltsük ki. Mármint a hiányzó részeket a táblázatban.
Állapítsuk meg az átlagosan előállított mennyiséget és az átlagos raktárkészletet.
Előállított mennyiség
Raktározva
(a hónap elején)
jan.=100%
előző hónap=100%
db
marc.=100%
előző hónap=100%
db
jan.
-
125
-
febr.
120
110
1100
marc.
3500
apr.
150
3750
87,5
Kezdjük az előállított mennyiséggel. Ha 3750 a januárinak a 150%-a, akkor
Februárban az előző hónap 120%-a: . Mivel márciusban 3500 üveg van, az a januárinak 140%-a és az előző havinak 116,7%-a. Végül 3750 a 3500-nak
107,1%-a. Hasonlóan fondorlatosan kitöltjük a raktárkészletes adatokat is.
Előállított mennyiség
Raktárkészlet
(a hónap elején)
jan.=100%
előző hónap=100%
db
marc.=100%
előző hónap=100%
db
jan.
1
-
2500
1,25
-
1000
febr.
1,2
1,2
3000
1,375
1,1
1100
marc.
1,4
1,167
3500
1
0,7272
800
apr.
1,5
1,071
3750
0,875
0,875
700
Most számoljunk átlagokat! Az előállított mennyiség állapotidősor vagy tartamidősor?
Az előállítás bizony eltart egy darabig, tehát ez tartam, mellesleg itt van értelme az adatok összesítésének, összeadva őket megkapjuk, hogy ezalatt a négy hónap alatt összesen mennyi pálinka készült. Az átlag ekkor
Vagyis átlagosan havonta 3187,5 üveg pálinkát állítottak elő.
A raktárkészlet állapotidősor. Gyanakvásra ad okot például ez az információ is. Itt az átlag:
2.5. Egy áruház raktárkészlete valamely termékből az alábbiak szerint alakult:
hónap
Készlet
Jan=100%
Előző
hónap=100%
Változás %-ban
február=100%
Változás
februárhoz képest (db)
Aktuális készlet a hónap végén (db)
Jan.
100
-
-20
-10
Febr.
Márc.
110
Ápr.
+16
Máj.
600
Jún.
80
Júl.
130
a) Töltsük ki a hiányzó részeket!
b) Mekkora volt az átlagos raktárkészlet ebből a termékből a második negyedévben?
EGY ISMÉRV SZERINTI ELEMZÉS
Módusz, medián, átlag
Egy szupermarket valamelyik pénztáránál fél óra alatt 20-an fizettek az alábbi összegekért:
1000
2000
7000
9000
11500
3500
1000
5000
3000
12000
5000
1500
3000
8000
9000
2500
3000
1500
8500
3000
Állapítsuk meg az adatsor néhány alapvető statisztikai mutatóját. Ezek a módusz, a medián, a kvartilisek, és a számtani átlag.
Ezek után az adatokat elhelyezzük egy gyakorisági sorban 2500 forintonkénti osztályközökkel. Az így kapott gyakorisági sorban szintén kiszámoljuk a becsült móduszt, mediánt és átlagot.
[Szövegdoboz:] [Szövegdoboz: Átlag:] [Szövegdoboz: 1000 1000 1500 1500 2000 2500 3000 3000 3000 3000 3500 5000 5000 7000 8000 8500 9000 9000 11500 12000] [Szövegdoboz: Felső kvartilis] [Szövegdoboz: Medián: A sorbarendezett adatsor középső értéke. Most két középső is van, a tizedik és a tizenegyedik, ilyenkor az átlaguk:] [Szövegdoboz: Alsó kvartilis:] [Szövegdoboz: Módusz =A leggyakoribb érték, most 5000]
A kapott adatokat helyezzük el a gyakorisági sorban. Ez nem más, mint egy táblázat, amely a vásárlások értékét tartalmazza, mondjuk 2500 forintonkénti bontásban.
itt a gyakoriságokat jelenti, vagyis azt, hogy hány darab vásárló tartozik az egyes kategóriákba.
Vásárlás értéke
= gyakoriság (hány darab)
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
5
6
3
4
2
N=összesen
20
És már itt is van az első buktató! Az osztályközök határai ugyanis kicsit megtévesztők.
A 0-2499 valójában azt jelenti, hogy 0-2500. Ez lehet, hogy elsőre kicsit furcsának tűnik, de a helyzet a következő. Ha 2500-forintonkénti bontást csinálunk, az osztályközök valójában így néznének ki, hogy
Vásárlás értéke
0 – 2500
2500 – 5000
5000 – 7500
7500 – 10 000
10 000 – 12 500
5
6
3
4
2
N=összesen
20
[Szövegdoboz: Mindig a bal végpontokat vesszük bele az osztályközbe Ilyenkor a táblázat Vásárlás értéke 0 – 2499 2500 – 4999 5000 – 7500 7500 – 10 000 10 000 – 12 500 5 6 3 4 2 N=összesen 20] Csakhogy, ha valaki mondjuk éppen 2500-ért vásárol, akkor marha nagy gondba lennénk, hogy ezt a 0-2500 osztályközbe, vagy a 2500-5000 osztályközbe rakjuk-e. Éppen ezért megállapodást kell kötnünk, hogy a végpontokat hova tegyük. Erre két lehetőség van.
[Szövegdoboz: Mindig a jobb végpontokat vesszük bele az osztályközbe Ilyenkor a táblázat Vásárlás értéke 0 – 2500 2501 – 5000 5001 – 7500 7501 – 10 000 10 001 – 12 500 5 6 3 4 2 N=összesen 20]
De bármelyiket válasszuk is, ne felejtsük el, hogy nincsenek hézagok a táblázatban, tehát az osztályközök hossza mindig 2500! Ez azért fontos, mert ha kellenek az osztályközök felezőpontjai, az osztályközepek, akkor azok bizony így néznek ki:
és így tovább, nem pedig valami 1250,1 vagy 1249,5 meg hasonló kellemetlen baromságok.
A kapott táblázatunkat kibővíthetjük egy újabb oszloppal, amely azt tartalmazza, hogy az adott kategóriáig hányan vásároltak. Ezt az oszlopot kumulált gyakoriságnak nevezzük.
Vásárlás értéke
= kumulált gyakoriság
(az adott osztályközig hány darab)
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
Megint újabb oszlopot vezetünk be, amely az egyes kategóriák teljes mennyiséghez viszonyított arányát jelentik. Ezt az oszlopot hívjuk relatív gyakoriságnak.
Vásárlás értéke
= relatív gyakoriság
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
Még egy oszlopot iktatunk be, a kumulált relatív gyakoriságot.
Vásárlás érétke
= kumulált relatív gyakoriság
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Még egy oszlopot iktatunk be, az úgynevezett értékösszeget. Ez úgy kell érteni, hogy minden kategóriában összeadogatjuk a vásárlások értékét. Az értékösszeg jele S.
Vásárlás érétke
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Az értékösszeg
Vásárlás érétke
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Az így kapott táblázatban az eredeti adatok már elvesztek, csupán azt tudjuk, hogy az egyes osztályközökben hány darab adat található. De, hogy pontosan mik is ezek az adatok, azt nem. Az első osztályközbe például 5 elem tartozik, ennél többet azonban nem tudunk róluk. Ezeket az elemeket jól jellemezhetjük az osztályköz középső elemével, úgy vesszük, mintha mind az öt elem ugyanez a középső elem volna.
Ha most ki szeretnénk számolni a gyakorisági sor átlagát, akkor a szokásos módon számolunk, vagyis összeadogatjuk az elemeket és elosztjuk a darabszámmal. Csakhogy az elemek most az osztályközepek.
Ami egyszerűbben:
Vagyis a gyakorisági sor számtanit átlaga:
[Szövegdoboz: Számoljuk most ki a móduszt, vagyis a leggyakoribb értéket. A legtöbb elem (egészen pontosan 10 db.) a második osztályközbe tartozik, a módusznak tehát valahol ott kell lennie. jelöli ennek az osztályköznek az alsó határát. A móduszra egy becslést adunk, melynek a képlete: Itt , vagyis a móduszt tartalmazó osztályköz gyakorisága, mínusz az előtte lévő osztályköz gyakorisága. Ezt úgy fogjuk leírni, hogy]
[Szövegdoboz: Vásárlás érétke 0 – 2499 2500 – 4999 5000 – 7499 7500 – 9999 10 000 – 12 499 1250 3750 6250 8750 11250 5 6 3 4 2 5 11 14 18 20 5/20 6/20 3/20 4/20 2/20 mo=2500]
tehát , végül pedig a móduszt tartalmazó osztályköz hossza, így . A módusz tehát:
[Szövegdoboz: Vásárlás érétke 0 – 2499 2500 – 4999 5000 – 7499 7500 – 9999 10 000 – 12 499 1250 3750 6250 8750 11250 5 6 3 4 2 5 11 14 18 20 5/20 6/20 3/20 4/20 2/20]
A medián kiszámolása szintén becsléssel történik. Most a medián a 10. és a 11. elem közt van, vagyis a második osztályközben.
[Szövegdoboz: A képlet:]
Itt = a mediánt tartalmazó osztályköz alsó határa, vagyis , , , ,
tehát
Szórás, relatív szórás
A szórás az átlagtól való eltérést méri. Az átlag ugyanis, csak úgy önmagában
meglehetősen kevés dolgot árul el.
Ha például egy utazási iroda felméri, hogy átlagosan milyen utakat választanak az ügyfeleik és kiderül, hogy az ügyfelek egyik fele 400 eurós ár körül választ utat, a másik felük meg 2000 eurós áron, akkor kiszámolva az átlagot, azt kapjuk, hogy az ügyfeleik átlagosan 1200 euró értékben utaznak. Ha ezek után az utazási iroda innentől 1200 eurós utakat hirdet, mondván, hogy ez az átlagos, csődbe megy. Fontos tehát az átlag, de éppoly fontos látni az átlagtól való eltérések nagyságát is.
Ezt az átlagtól való ingadozást méri a szórás. Jele (szigma). Kiszámolásához venni kell az egyes értékeknek az átlagtól való eltérését.
Előző példánkhoz visszatérve számoljuk ki a vásárlások értékének szórását.
értékek
átlagtól való eltérés
1000
1000
1500
1500
2000
2500
3000
3000
3000
3000
3500
5000
5000
7000
8000
8500
9000
9000
11 500
12 000
1000-5000
1000-5000
1500-5000
1500-5000
2000-5000
2500-5000
3000-5000
3000-5000
3000-5000
3000-5000
3500-5000
5000-5000
5000-5000
7000-5000
8000-5000
8500-5000
9000-5000
9000-5000
11 500-5000
12 000-5000
Ha ezeket az eltéréseket összeadnánk, éppen nulla jönne ki, az átlag ugyanis pont félúton helyezkedik el az adatok között.
Minket azonban most nem érdekel az eltérés iránya, tehát, az hogy az átlagnál több vagy az átlagnál kevesebb, csak maga az eltérés érdekel. Ennek érdekében megszabadulunk az előjelektől úgy, hogy az eltéréseket négyzetre emeljük.
vagyis
Lássuk csak mennyi most a szórás:
A szórás átlaghoz viszonyított értékét relatív szórásnak nevezzük.
Most a relatív szórás
ami 69% tehát elég magas.
Az adatsor legkisebb és legnagyobb értéke közti eltérést szóródásnak nevezzük. Most a szóródás, lássuk csak
12 500 – 1000=11 500
Ha nem az összes elem szórását számoljuk, hanem csak például egy mintáét, akkor a minta szórás képlete:
Például ha az első öt vásárlás esetén akarjuk a minta szórását kiszámolni:
1000
2000
7000
9000
11500
3500
1000
5000
3000
12000
5000
1500
3000
8000
9000
2500
3000
1500
8500
3000
Itt
Tehát
A szórást nem csak a konkrét értékekből számolhatjuk, hanem a gyakoriságokat tartalmazó táblázatból is. Ezt becsült szórásnak hívjuk. Esetünkben a gyakorisági sor
Vásárlás érétke
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
A becsült szórás képlete gyakorisági sor esetén
Emlékezzünk vissza az átlagra:
Ekkor a szórás
Tehát
Néhány tanulságos gyakorisági sor
Nézzünk meg egy másik példát is, ahol nem egyenletes osztóintervallumok vannak.
Az alábbi táblázat egy város lakásainak méret szerinti megoszlását tartalmazza.
Lakásméret
(négyzetméterben megadva)
Lakások száma
(1000 darabban)
0-19
18
18
20-39
30
48
40-99
66
114
100-199
36
150
200-
10
160
Számítsuk ki itt is a móduszt, mediánt, átlagot és szórást.
Az első észrevétel, hogy az utolsó osztályköz nyitott. Ezt úgy zárjuk le, hogy ugyanolyan hosszúnak vesszük, mint az előtte lévőt.
Lakásméret
(négyzetméterben megadva)
hossz
Lakások száma
(1000 darabban)
0-19
20
18
18
20-39
20
30
48
40-99
60
66
114
100-199
100
36
150
200-299
100
10
160
A második észrevétel, hogy az osztályközök nem egyforma hosszúak.
A módusz, vagyis a leggyakoribb érték most 66 darab és a 40-99 osztályközbe esik.
De csak azért, mert ez az osztályköz jóval hosszabb, háromszor olyan hosszú, mint az előtte lévő. Ha elharmadoljuk, akkor máris nem ide esik a módusz.
Vagyis a módusz kiszámolásához a csalások elkerülése érdekében újra kell osztani az osztályközöket, az újraosztás pedig egy olyan hosszal történik, aminek egész számú többszöröse mindegyik eredeti osztályköz hossza.
Most úgy tűnik az újraosztásnál 20 hosszúságú osztályközök lesznek, vagyis a 40-99 osztályközt elharmadolva három darab 20 hosszú osztályközre bontjuk a 100-199 osztályközt és az utána következőt is öt részre vágva azokból is 20 hosszú osztályközöket csinálunk.
Jól látszik, hogy a modális osztályköz a 20-39 osztályköz lesz, vagyis csak a körülötte lévő osztályközökkel fogjuk az újraosztást ténylegesen elvégezni.
Lakásméret
(négyzetméterben megadva)
hossz
Lakások száma
(1000 darabban)
0-19
20
18
18
20-39
20
30
48
40-59
20
22
74
60-79
20
22
94
80-99
20
22
114
100-199
100
36
150
200-299
100
10
160
Itt
Lakásméret
(négyzetméterben megadva)
hossz
Lakások száma
(1000 darabban)
0-19
20
18
18
20-39
20
30
48
40-99
60
66
114
100-199
100
36
150
200-299
100
10
160
A medián kiszámolásánál nem lesz gond az eltérő hosszúságokkal.
A képlet:
Mivel , aminek a fele 80, a medián is az 50-99 terjedő osztályközben van. Ekkor, , és tehát
Adjuk meg az átlagot és a szórást!
Ezek kiszámolásában tökmindegy, hogy egyenletesek-e az osztályközök vagy sem. Kiszámoljuk az osztályközepeket:
Lakásméret
(négyzetméterben megadva)
osztályközép
Lakások száma
(1000 darabban)
0-19
10
18
18
20-39
30
30
48
40-99
70
66
114
100-199
150
36
150
200-299
250
10
160
Az átlag:
A szórás pedig:
A relatív szórás
ami 74% tehát elég sok.
A szóródás pedig a legnagyobb és a legkisebb érték különbsége, vagyis 250-10=240
2.1. Nézzünk meg még egy gyakorisági sort is!
A statisztika vizsga 5 feladatából a vizsgázók által teljesen megoldott feladatok eloszlása:
Megoldott
feladatok száma
Vizsgázók
száma
0
60
60
1
70
130
2
80
210
3 vagy több
40
250
Itt is számítsuk ki itt is a móduszt, mediánt, átlagot és szórást.
Valójában az osztályközök itt is felfoghatók intervallumoknak, az első 0-0,9 feladatig tart a második 1-1,9 feladatig és így tovább. Az utolsó osztályköz nyitott, ezt gondolatban olyan hosszúnak vesszük, mint az előtte lévőt – bár bizonyára sok vizsgázó meg tudott oldani öt feladatot is.
A módusz, vagyis a leggyakoribb érték most 2 darab.
Itt
A medián kiszámolásánál a képlet:
Mivel , aminek a fele 125, a medián az 1db feladat osztályközében lesz.
Ekkor, , és tehát
Adjuk meg az átlagot és a szórást!
Az átlag:
A szórás pedig:
2.2. Egy újságárus havi lapeladásait tartalmazza a következő táblázat.
Napok
száma
Eladott
mennyiség
2
215
4
217
2
218
5
220
8
222
7
225
3
230
a)Mekkora az átlagos havi lapeladás?
b)Határozzuk meg a mediánt.
c)Mekkora a relatív szórás?
Elsőként azonosítsuk be az osztályközöket, vagyis, hogy minek az átlagát mediánját, stb. fogjuk számolni. Első ránézésre az első oszlop tűnik nyerőnek, de hamar lebuktatja, hogy a számok nem sorban vannak.
Az osztályközök ugyanis mindig növekvő sorrendben kell, hogy legyenek. A feladatban tehát cselesen meg van cserélve a két oszlop.
Erre úgy is rájöhetünk, ha elolvassuk, minek az átlagát kell kiszámolnunk. Na azok lesznek ugyanis az osztályközök. Most a havi eladás átlaga kell, tehát semmi kétség, az osztályközök az eladott mennyiség.
Eladott
Mennyiség
Napok
Száma
215
2
2
217
4
6
218
2
8
220
5
13
222
8
21
225
7
28
230
3
31
Össz.
31
Az átlag a szokásos módon
Az átlagosan eladott lapok száma tehát 221,77
Nézzük a mediánt!
Végül számoljuk ki a szórást.
A relatív szórás tehát 1%.
Módusz, medián, átlag
Egy szupermarket valamelyik pénztáránál fél óra alatt 20-an fizettek az alábbi összegekért:
1000
2000
7000
9000
11500
3500
1000
5000
3000
12000
5000
1500
3000
8000
9000
2500
3000
1500
8500
3000
Állapítsuk meg az adatsor néhány alapvető statisztikai mutatóját. Ezek a módusz, a medián, a kvartilisek, és a számtani átlag.
Ezek után az adatokat elhelyezzük egy gyakorisági sorban 2500 forintonkénti osztályközökkel. Az így kapott gyakorisági sorban szintén kiszámoljuk a becsült móduszt, mediánt és átlagot.
[Szövegdoboz:] [Szövegdoboz: Átlag:] [Szövegdoboz: 1000 1000 1500 1500 2000 2500 3000 3000 3000 3000 3500 5000 5000 7000 8000 8500 9000 9000 11500 12000] [Szövegdoboz: Felső kvartilis] [Szövegdoboz: Medián: A sorbarendezett adatsor középső értéke. Most két középső is van, a tizedik és a tizenegyedik, ilyenkor az átlaguk:] [Szövegdoboz: Alsó kvartilis:] [Szövegdoboz: Módusz =A leggyakoribb érték, most 5000]
A kapott adatokat helyezzük el a gyakorisági sorban. Ez nem más, mint egy táblázat, amely a vásárlások értékét tartalmazza, mondjuk 2500 forintonkénti bontásban.
itt a gyakoriságokat jelenti, vagyis azt, hogy hány darab vásárló tartozik az egyes kategóriákba.
Vásárlás értéke
= gyakoriság (hány darab)
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
5
6
3
4
2
N=összesen
20
És már itt is van az első buktató! Az osztályközök határai ugyanis kicsit megtévesztők.
A 0-2499 valójában azt jelenti, hogy 0-2500. Ez lehet, hogy elsőre kicsit furcsának tűnik, de a helyzet a következő. Ha 2500-forintonkénti bontást csinálunk, az osztályközök valójában így néznének ki, hogy
Vásárlás értéke
0 – 2500
2500 – 5000
5000 – 7500
7500 – 10 000
10 000 – 12 500
5
6
3
4
2
N=összesen
20
[Szövegdoboz: Mindig a bal végpontokat vesszük bele az osztályközbe Ilyenkor a táblázat Vásárlás értéke 0 – 2499 2500 – 4999 5000 – 7500 7500 – 10 000 10 000 – 12 500 5 6 3 4 2 N=összesen 20] Csakhogy, ha valaki mondjuk éppen 2500-ért vásárol, akkor marha nagy gondba lennénk, hogy ezt a 0-2500 osztályközbe, vagy a 2500-5000 osztályközbe rakjuk-e. Éppen ezért megállapodást kell kötnünk, hogy a végpontokat hova tegyük. Erre két lehetőség van.
[Szövegdoboz: Mindig a jobb végpontokat vesszük bele az osztályközbe Ilyenkor a táblázat Vásárlás értéke 0 – 2500 2501 – 5000 5001 – 7500 7501 – 10 000 10 001 – 12 500 5 6 3 4 2 N=összesen 20]
De bármelyiket válasszuk is, ne felejtsük el, hogy nincsenek hézagok a táblázatban, tehát az osztályközök hossza mindig 2500! Ez azért fontos, mert ha kellenek az osztályközök felezőpontjai, az osztályközepek, akkor azok bizony így néznek ki:
és így tovább, nem pedig valami 1250,1 vagy 1249,5 meg hasonló kellemetlen baromságok.
A kapott táblázatunkat kibővíthetjük egy újabb oszloppal, amely azt tartalmazza, hogy az adott kategóriáig hányan vásároltak. Ezt az oszlopot kumulált gyakoriságnak nevezzük.
Vásárlás értéke
= kumulált gyakoriság
(az adott osztályközig hány darab)
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
Megint újabb oszlopot vezetünk be, amely az egyes kategóriák teljes mennyiséghez viszonyított arányát jelentik. Ezt az oszlopot hívjuk relatív gyakoriságnak.
Vásárlás értéke
= relatív gyakoriság
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
Még egy oszlopot iktatunk be, a kumulált relatív gyakoriságot.
Vásárlás érétke
= kumulált relatív gyakoriság
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Még egy oszlopot iktatunk be, az úgynevezett értékösszeget. Ez úgy kell érteni, hogy minden kategóriában összeadogatjuk a vásárlások értékét. Az értékösszeg jele S.
Vásárlás érétke
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Az értékösszeg
Vásárlás érétke
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Az így kapott táblázatban az eredeti adatok már elvesztek, csupán azt tudjuk, hogy az egyes osztályközökben hány darab adat található. De, hogy pontosan mik is ezek az adatok, azt nem. Az első osztályközbe például 5 elem tartozik, ennél többet azonban nem tudunk róluk. Ezeket az elemeket jól jellemezhetjük az osztályköz középső elemével, úgy vesszük, mintha mind az öt elem ugyanez a középső elem volna.
Ha most ki szeretnénk számolni a gyakorisági sor átlagát, akkor a szokásos módon számolunk, vagyis összeadogatjuk az elemeket és elosztjuk a darabszámmal. Csakhogy az elemek most az osztályközepek.
Ami egyszerűbben:
Vagyis a gyakorisági sor számtanit átlaga:
[Szövegdoboz: Számoljuk most ki a móduszt, vagyis a leggyakoribb értéket. A legtöbb elem (egészen pontosan 10 db.) a második osztályközbe tartozik, a módusznak tehát valahol ott kell lennie. jelöli ennek az osztályköznek az alsó határát. A móduszra egy becslést adunk, melynek a képlete: Itt , vagyis a móduszt tartalmazó osztályköz gyakorisága, mínusz az előtte lévő osztályköz gyakorisága. Ezt úgy fogjuk leírni, hogy]
[Szövegdoboz: Vásárlás érétke 0 – 2499 2500 – 4999 5000 – 7499 7500 – 9999 10 000 – 12 499 1250 3750 6250 8750 11250 5 6 3 4 2 5 11 14 18 20 5/20 6/20 3/20 4/20 2/20 mo=2500]
tehát , végül pedig a móduszt tartalmazó osztályköz hossza, így . A módusz tehát:
[Szövegdoboz: Vásárlás érétke 0 – 2499 2500 – 4999 5000 – 7499 7500 – 9999 10 000 – 12 499 1250 3750 6250 8750 11250 5 6 3 4 2 5 11 14 18 20 5/20 6/20 3/20 4/20 2/20]
A medián kiszámolása szintén becsléssel történik. Most a medián a 10. és a 11. elem közt van, vagyis a második osztályközben.
[Szövegdoboz: A képlet:]
Itt = a mediánt tartalmazó osztályköz alsó határa, vagyis , , , ,
tehát
Szórás, relatív szórás
A szórás az átlagtól való eltérést méri. Az átlag ugyanis, csak úgy önmagában
meglehetősen kevés dolgot árul el.
Ha például egy utazási iroda felméri, hogy átlagosan milyen utakat választanak az ügyfeleik és kiderül, hogy az ügyfelek egyik fele 400 eurós ár körül választ utat, a másik felük meg 2000 eurós áron, akkor kiszámolva az átlagot, azt kapjuk, hogy az ügyfeleik átlagosan 1200 euró értékben utaznak. Ha ezek után az utazási iroda innentől 1200 eurós utakat hirdet, mondván, hogy ez az átlagos, csődbe megy. Fontos tehát az átlag, de éppoly fontos látni az átlagtól való eltérések nagyságát is.
Ezt az átlagtól való ingadozást méri a szórás. Jele (szigma). Kiszámolásához venni kell az egyes értékeknek az átlagtól való eltérését.
Előző példánkhoz visszatérve számoljuk ki a vásárlások értékének szórását.
értékek
átlagtól való eltérés
1000
1000
1500
1500
2000
2500
3000
3000
3000
3000
3500
5000
5000
7000
8000
8500
9000
9000
11 500
12 000
1000-5000
1000-5000
1500-5000
1500-5000
2000-5000
2500-5000
3000-5000
3000-5000
3000-5000
3000-5000
3500-5000
5000-5000
5000-5000
7000-5000
8000-5000
8500-5000
9000-5000
9000-5000
11 500-5000
12 000-5000
Ha ezeket az eltéréseket összeadnánk, éppen nulla jönne ki, az átlag ugyanis pont félúton helyezkedik el az adatok között.
Minket azonban most nem érdekel az eltérés iránya, tehát, az hogy az átlagnál több vagy az átlagnál kevesebb, csak maga az eltérés érdekel. Ennek érdekében megszabadulunk az előjelektől úgy, hogy az eltéréseket négyzetre emeljük.
vagyis
Lássuk csak mennyi most a szórás:
A szórás átlaghoz viszonyított értékét relatív szórásnak nevezzük.
Most a relatív szórás
ami 69% tehát elég magas.
Az adatsor legkisebb és legnagyobb értéke közti eltérést szóródásnak nevezzük. Most a szóródás, lássuk csak
12 500 – 1000=11 500
Ha nem az összes elem szórását számoljuk, hanem csak például egy mintáét, akkor a minta szórás képlete:
Például ha az első öt vásárlás esetén akarjuk a minta szórását kiszámolni:
1000
2000
7000
9000
11500
3500
1000
5000
3000
12000
5000
1500
3000
8000
9000
2500
3000
1500
8500
3000
Itt
Tehát
A szórást nem csak a konkrét értékekből számolhatjuk, hanem a gyakoriságokat tartalmazó táblázatból is. Ezt becsült szórásnak hívjuk. Esetünkben a gyakorisági sor
Vásárlás érétke
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
A becsült szórás képlete gyakorisági sor esetén
Emlékezzünk vissza az átlagra:
Ekkor a szórás
Tehát
1.1. Egy iskolai büfé napi vevőszámának alakulása az elmúlt 20 napban az alábbi volt. Határozzuk meg a móduszt és a kvartiliseket.
1000
2000
7000
9000
11500
3500
1000
5000
3000
12000
5000
1500
3000
8000
9000
2500
3000
1500
8500
3000
1.2. Az alábbi táblázat egy város havi gázfogyasztóinak eloszlását tartalmazza, a fogyasztók számát ezer főben megadva.
Havi fogyasztás
(köbméterben megadva)
f
f’
g
g’
0-49
3
50-99
4
100-149
15
150-199
0
200-249
0,25
töltsük ki a hiányzó részeket.
Adjuk meg a móduszt és a mediánt!
Adjuk meg az átlagot és a szórást!
Vegyük a legalább száz köbmétert fogyasztó felhasználókat. Mekkora esetükben az átlag? Mekkora a szórás?
Íme a hiányzó részek.
Havi fogyasztás
(köbméterben megadva)
f
f’
g
g’
0-49
3
3
0,15
0,15
50-99
4
7
0,2
0,35
100-149
8
15
0,4
0,75
150-199
0
15
0
0,75
200-249
5
20
0,25
1
Adjuk meg a móduszt és a mediánt!
A módusz a leggyakoribb érték. Most a legtöbb fogyasztó a
100-149 kategóriába esik, egészen pontosan 8, vagyis 8 ezer fő. A móduszra használt képlet alapján
Havi fogyasztás
(köbméterben)
f
f’
g
g’
0-49
3
3
0,15
0,15
50-99
4
7
0,2
0,35
100-149
8
15
0,4
0,75
150-199
0
15
0
0,75
200-249
5
20
0,25
1
A medián a felező érték, vagyis, ha sorba állítanánk a lakosokat gázfogyasztásuk szerint, akkor a 20 ezer lakosból középen álló lakos gázfogyasztása a medián. A középső lakos most szintén a 100-149 kategóriába esik. A medián képlete alapján:
Havi fogyasztás
(köbméterben)
f
f’
g
g’
0-49
3
3
0,15
0,15
50-99
4
7
0,2
0,35
100-149
8
15
0,4
0,75
150-199
0
15
0
0,75
200-249
5
20
0,25
1
Adjuk meg az átlagot és a szórást
Az átlag kiszámolása azt jelenti, hogy átlagosan hány köbméter gázt fogyasztanak havonta. A 0-49 terjedő fogyasztást szimbolizáljuk az osztályközéppel, vaygis 25 köbméterrel. Ekkor ilyen fogyasztásból van 3 ezer. Az 50-99 terjedő fogyasztást szintén az osztályközéppel reprezentáljuk, ami 75, ilyenből van 4 ezer. És így tovább.
Havi fogyasztás
(köbméterben megadva)
f
f’
g
g’
0-49 M1=25
3
3
0,15
0,15
50-99 M2=75
4
7
0,2
0,35
100-149 M3=125
8
15
0,4
0,75
150-199 M4=175
0
15
0
0,75
200-249 M5=225
5
20
0,25
1
Az átlag
A szórás pedig
Végül vegyük a legalább száz köbmétert fogyasztó felhasználókat. Mekkora esetükben az átlag? Mekkora a szórás?
Ekkor egy mintának kell kiszámolnunk az átlagát és a szórását.
Havi fogyasztás
(köbméterben megadva)
f
f’
g
g’
0-49 M1=25
3
3
0,15
0,15
50-99 M2=75
4
7
0,2
0,35
100-149 M3=125
8
15
0,4
0,75
150-199 M4=175
0
15
0
0,75
200-249 M5=225
5
20
0,25
1
Az átlag
A szórás pedig
1.3. Az alábbi táblázat egy bevásárlóközpont üzlethelyiségeinek alapterület szerinti megoszlását tartalmazza.
alapterület
0-99
4
100-199
9
200-299
12
300-399
34
400-
50
Töltsük ki a hiányzó adatokat!
Mekkora a tipikus üzlethelyiség alapterülete?
Mekkora az átlagos üzlethelyiség alapterülete? Mekkora a szórás?
1.4. Egy évfolyam négy különböző szakán az alábbiak ismertek:
Szak
Nők
100 férfira jutó
nők száma szakonként
A
30%
120
B
20%
130
C
18%
110
D
32%
140
Össz.
100%
-
Mennyi az egész évfolyamon a 100 férfire jutó nők átlagos száma? Mennyi a 100 nőre jutó férfiak száma?
Világos, hogy ha 100 férfira 120 nő jut, akkor 1 férfira 1,2. Ez egy viszonyszám, méghozzá
A=nő B=férfi
Súlyozott átlagot kell számolnunk és súlyoknak a nőket tudjuk csak használni, mert más adatunk nincs. Mivel nő=A ezért az átlagolásnál az A-k a súlyok, vagyis harmonikus átlagra van szükségünk. Akinek ez nem teljesen világos, legjobb lesz, ha megnézi, hogy mit kéne tudnia a VISZONYSZÁMOKról. Lássuk az átlagot.
Átlagosan egy férfira 1,256 nő jut, vagyis 100 férfira átlag 125,6 nő. A 100 nőre jutó férfiak száma ennek reciproka.
ami azt jelenti, hogy egy nőre 0,796 férfi jut, így 100 nőre 79,6 db.
1.5. Egy város lakosainak száma 2009-ben 760 ezer, míg 2011-ben 758 ezer. Az alábbiakat tudjuk:
év
Orvosok száma
2009=100%
Háziorvosok
száma (%)
Egy háziorvosra jutó
lakosok száma (%)
Háziorvosok
részaránya
(%)
2010=100%
2009
100
105
7
2010
100
100
6,8
2011
120
83
6
Töltsük ki a hiányzó részeket!
Legyen A=háziorvos és B=lakos. Ekkor és . Az egy háziorvosra jutó lakosok száma
Tudjuk, hogy mennyi ? Sajna nem, csak annyit tudunk, hogy ez a 2010-es érték 83%-a. Vagyis:
és valamint és .
Most rettenetes dolgok jönnek. Beírjuk a B-k helyére, amit tudunk,
Aztán vesszük a két egyenlet hányadosát.
Jobb oldalon A-k és B-k kiesnek, bal oldalon meg egy hipnózis segítségével elevenítsük föl az általános iskolás időket, amikor törtet törttel osztottunk.
vagyis ami azt jelenti, hogy a 2009-es adat a 2011-es adatnak 79,2%-a. Mivel pedig a 2011-es adat a 2010-es adatnak 120%-a, ezért
és és itt most az egyenleteket szorozni kell, hogy kiessen és maradjanak a nekünk hasznos szereplők.
vagyis
Megtudtuk tehát, hogy 2009-ben a 2010-es háziorvos-állomány 95%-a volt.
Innentől már csak pihentetőleg számoljuk ki a többi hiányzó adatot. A háziorvosok részaránya 2009-ben 7% az egyszerűség kedvéért mondjuk azt, hogy összesen 100 orvos van és 7db házi. 2010-re a 7db háziorvosból lesz
vagyis lesz 7,368db háziorvos, ami az összes orvosnak 6,8%-a így összes orvos van
Ami a 2009-es 100db orvosnak éppen a 108,36%-a.
Ugyanezt megcsináljuk 2011-re is. Ott a 2010-es háziorvos létszám 120%-a van, vagyis
Ez az összes orvos 6,9%-a, így összes orvos van, lássuk csak
év
Orvosok száma
2009=100%
Háziorvosok
száma (%)
Egy háziorvosra jutó
lakosok száma (%)
Háziorvosok
részaránya
2010=100%
2009
100
0,95
105
7
2010
108,36
100
100
6,8
2011
128,10
120
83
6,9
1.6. Egy szupermarket valamelyik pénztáránál fél óra alatt 20-an fizettek az alábbi összegekért:
1100
2000
7300
9200
11500
3500
5000
1000
3000
12000
5000
1600
3000
8000
9000
2500
3000
1500
8500
3000
Állapítsuk meg az adatsor néhány alapvető statisztikai mutatóját. Ezek a módusz, a medián, a kvartilisek, majd helyezzük el az adatokat egy gyakorisági sorban 2500 forintonkénti osztályközökkel. Készítsük el a statisztikai sorok típusait.
[Szövegdoboz:] [Szövegdoboz: Átlag:] [Szövegdoboz: 1000 1100 1500 1600 2000 2500 3000 3000 3000 3000 3500 5000 5000 7300 8000 8500 9000 9200 11500 12000] [Szövegdoboz: Felső kvartilis] [Szövegdoboz: Medián: A sorbarendezett adatsor középső értéke. Most két középső is van, a tizedik és a tizenegyedik, ilyenkor az átlaguk:] [Szövegdoboz: Alsó kvartilis:] [Szövegdoboz: Módusz =A leggyakoribb érték, most 5000]
A kapott adatokat helyezzük el a gyakorisági sorban. Ez nem más, mint egy táblázat, amely a vásárlások értékét tartalmazza most éppen 2500 forintonkénti bontásban. itt a gyakoriságokat jelenti, vagyis azt, hogy az egyes kategóriákba hány darab vásárló tartozik.
Vásárlás értéke
= gyakoriság (hány darab)
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
5
6
3
4
2
N=összesen
20
Itt az első buktató! Az osztályközök határai ugyanis kicsit megtévesztők.
A 0-2499 valójában ugyanis azt jelenti, hogy 0-2500. Ez lehet, hogy elsőre kicsit furcsának tűnik, de a helyzet a következő. Ha 2500-forintonkénti bontást csinálunk, az osztályközök valójában így néznének ki, hogy
Vásárlás értéke
0 – 2500
2500 – 5000
5000 – 7500
7500 – 10 000
10 000 – 12 500
5
6
3
4
2
N=összesen
20
Csakhogy, ha valaki mondjuk éppen 2500-ért vásárol, akkor marha nagy gondba leszünk, hogy ezt a 0-2500 osztályközbe, vagy a 2500-5000 osztályközbe rakjuk-e. Éppen ezért megállapodást kell kötnünk, hogy a végpontokat hova tegyük. Erre két lehetőség van.
[Szövegdoboz: Mindig a jobb végpontokat vesszük bele az osztályközbe Ilyenkor a táblázat Vásárlás értéke 0 – 2499 2500 – 4999 5000 – 7500 7500 – 10 000 10 000 – 12 500 5 6 3 4 2 N=összesen 20] [Szövegdoboz: Mindig a bal végpontokat vesszük bele az osztályközbe Ilyenkor a táblázat Vásárlás értéke 0 – 2500 2501 – 5000 5001 – 7500 7501 – 10 000 10 001 – 12 500 5 6 3 4 2 N=összesen 20]
De bármelyiket válasszuk is, ne felejtsük el, hogy az osztályközök mindkét esetben 0-2500 aztán 2500-5000 és így tovább és az osztályközök hossza mindig 2500! Ez azért fontos, mert ha kellenek az osztályközök felezőpontjai, az osztályközepek, akkor azok bizony
és így tovább, nem pedig valami 1250,1 vagy 1249,5 meg hasonló kellemetlen baromságok.
és így tovább, nem pedig valami 1250,1 vagy 1249,5 meg hasonló kellemetlen baromságok.
A kapott táblázatunkat kibővíthetjük egy újabb oszloppal, amely azt tartalmazza, hogy az adott kategóriáig hányan vásároltak. Ezt az oszlopot kumulált gyakoriságnak nevezzük.
Vásárlás értéke
= kumulált gyakoriság
(az adott osztályközig hány darab)
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
Megint újabb oszlopot vezetünk be, amely az egyes kategóriák teljes mennyiséghez viszonyított arányát jelentik. Ezt az oszlopot hívjuk relatív gyakoriságnak.
Vásárlás értéke
= relatív gyakoriság
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
Még egy oszlopot iktatunk be, a kumulált relatív gyakoriságot.
Vásárlás érétke
= kumulált relatív gyakoriság
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Még egy oszlopot iktatunk be, az úgynevezett értékösszeget. Ez úgy kell érteni, hogy minden kategóriában összeadogatjuk a vásárlások értékét. Az értékösszeg jele S.
Vásárlás érétke
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Az értékösszeg
Vásárlás érétke
0 – 2499
2500 – 4999
5000 – 7499
7500 – 9999
10 000 – 12 499
1250
3750
6250
8750
11250
5
6
3
4
2
5
11
14
18
20
5/20
6/20
3/20
4/20
2/20
5/20
11/20
14/20
18/20
20/20
Az így kapott táblázatban az eredeti adatok már elvesztek, csupán azt tudjuk, hogy az egyes osztályközökben hány darab adat található. De, hogy pontosan mik is ezek az adatok, azt nem. Az első osztályközbe például 5 elem tartozik, ennél többet azonban nem tudunk róluk. Ezeket az elemeket jól jellemezhetjük az osztályköz középső elemével, úgy vesszük, mintha mind az öt elem ugyanez a középső elem volna.
Ha most ki szeretnénk számolni a gyakorisági sor átlagát, akkor a szokásos módon számolunk, vagyis összeadogatjuk az elemeket és elosztjuk a darabszámmal. Csakhogy az elemek most az osztályközepek.
1.7. Az elmúlt 20 évben a villamos által elgázolt járókelők száma évente a következőképpen alakult: 10, 11, 8, 7, 12, 9, 8, 6, 12, 8, 5, 3, 4, 2, 4, 1, 0, 5, 1, 1
Adjuk meg a kvartilis-eloszlást, a kvintilis-eloszlást és a decilis-eloszlást
A kvartilis-eloszlás négy egyenlő csoportra osztja a növekvő sorrendbe rendezett adatokat.
0, 1, 1, 1, 2, 3, 4, 4, 5, 5, 6, 7, 8, 8, 8, 9, 10, 11, 12, 12
Vásárlás érétke
0-2
5
5
0,25
0,25
3-5
5
10
0,25
0,5
6-8
5
15
0,25
0,75
9-12
5
20
0,25
1
A kvintilis eloszlás ötödökre oszt.
0, 1, 1, 1, 2, 3, 4, 4, 5, 5, 6, 7, 8, 8, 8, 9, 10, 11, 12, 12
Vásárlás érétke
0-1
4
4
0,2
0,2
2-4
4
8
0,2
0,4
5-7
4
12
0,2
0,6
8-9
4
16
0,2
0,8
10-12
4
20
0,2
1
A decilis eloszlás tizedekre osztja az elemeket, de ez most nem lesz jó
0, 1, 1, 1, 2, 3, 4, 4, 5, 5, 6, 7, 8, 8, 8, 9, 10, 11, 12, 12
Ekkor ugyanis az 1-esek két különböző osztályközbe kerülnének, ami lehetetlen. Vagyis decilis eloszlás nem létezik.
Jegyezzük meg, hogy ha létezik decilis eloszlás, akkor létezik kvintilis eloszlás is, hiszen a decilis eloszlás osztályait kell összeolvasztani. Ha viszont létezik kvintilis eloszlás, abból még nem következik, hogy létezik decilis eloszlás is, mert az iménti problémák adódhatnak.