A mágikus valószínűségek

Egy játékot fogunk játszani. Három dobozt tesznek le elénk, amelyek közül kettő üres, a harmadikban pedig ajándék van, de kívülről nézve nem tudjuk megmondani, hogy melyikben. A játék úgy indul, hogy megkérnek minket, válasszunk a dobozok közül egyet. Ha üres dobozt választunk, akkor nem kapunk semmit, ha pedig azt választjuk, amiben az ajándék van, akkor megnyerjük. A három doboz közül egy nyerő doboz van, így hát nem túl meglepő, hogy nyerési esélyünk 1/3 vagyis 33,3% bármelyik dobozt választjuk is. Válasszuk ki, mondjuk a második dobozt. Az izgalmak fokozása érdekében azonban, miután kiválasztottuk a második dobozt, megmutatják nekünk, hogy az első doboz üres, és nekünk szegezik a kérdést, hogy ennek fényében maradunk-e a második doboznál, vagy nem választanánk-e inkább a harmadikat. Jelenleg ugye egy nyerő és egy üres doboz maradt játékban, így logikusnak tűnik a gondolat, hogy mindkét megmaradt doboz nyerési esélye 50%. A helyzet azonban az, hogy ez nem így van. Meglepő, de kétszer akkora esélyünk van nyerni, ha ebben a szituációban váltunk és a „másik” megmaradt dobozt választjuk. A kérdés az, hogy miért? Miért lenne kétszer akkora esélye a másik doboznak, ha egyszer két doboz van, egy üres meg egy nyerő és bármelyiket egyformán választhatjuk…

Az 1600-as évektől egyre-másra kezdtek felbukkanni a különböző események valószínűségét firtató kérdések. Az ezekre a kérdésekre adott, néha hibás, de többnyire jó válaszok jelentették a kiindulópontját a matematika egyik egészen új ágának, az 1900-as évek elején Kolmogorov, Csebisev és Markov által precíz alapokra helyezett valószínűségszámításnak. Az egyik ilyen kérdés volt az, hogy ha egy tálban van 40 piros és 60 fekete golyó, és valaki kivesz egyet, de nem tudni milyet, akkor mekkora eséllyel húzunk ezek után pirosat. Mert ugye annak valószínűsége, hogy elsőre pirosat húzunk 40%, de mi a helyzet a második húzással, ha nem tudjuk, hogy milyen színűt vettek ki előttünk. Ez a látszólag teljesen érdektelen és utólag visszatekintve eléggé egyszerű kérdés igencsak megosztotta a témával foglalkozó matematikusokat az 1700-as évek elején. A problémára Thomas Bayes, angol presbiteriánus lelkész adott részletes megoldást, ami azonban csak halála után jelent meg 1763-ban. A Bayes által megalkotott elmélet azóta egy teljesen új ágát teremtette meg a matematikai statisztikának, ám akkoriban sokan úgy vélték, hogy Bayes téved. Visszatérve ugyanis a nyerő dobozok esetéhez, Bayes elmélete pontosan azt a meglepő és nehezen hihető tényt állította, hogy a példánkban megmaradt két doboz nem 50-50% eséllyel nyer. Nézzük meg, hogy miért.

Kezdetben, amikor még mindhárom doboz közül választhatunk, világos, hogy nyerési esélyünk 1/3. Az is világos, hogy ha mielőtt még választanánk, a játékvezető megmutatná az egyik üres dobozt, akkor valóban 50-50% lenne a megmaradt két doboz nyerési esélye. A dolog lényege éppen abban van, hogy az üres dobozt azután mutatják meg, hogy mi már választottunk. Ezáltal pedig befolyásoljuk a játékvezetőt abban, hogy melyik dobozt fogja megmutatni. A történetben mi a második dobozt választottuk ki és ezek után a játékvezető megmutatta, hogy az első doboz üres.

Ha az általunk kiválasztott második doboz nem nyer, a játékvezető pedig megmutatja, hogy az első se, akkor az ajándék csakis a harmadik dobozban lehet. A kérdés mindössze annyi, vajon mekkora az esélye, hogy ez így fog történni. Mármint, hogy mi egy üres dobozt választunk. Nos a válasz az, hogy ennek esélye 2/3, vagyis 66,7%. Tehát az esetek 66,7%-ában választunk kezdetben üres dobozt, ami után a játékvezető megmutatja a másik üres dobozt és így a harmadik doboz nyer. Ha pedig az esetek 66,7%-ában a harmadik nyer, akkor csak az esetek 33,3%-ában nyer az általunk választott második doboz. Nos, íme a magyarázat, hogy miért nem 50-50%. Ha valakiben esetleg maradtak kételyek, megnyugtatásul annyit, hogy Bayes idejében számos matematikus is kételkedett az ilyen gondolatmenetek helyességében és csak jóval később, az 1900-as évek elején alakult ki az a terminológia, ami a feltételes valószínűség fogalmának megszületésével lehetővé tette a Bayes által megalkotott elmélet precíz megfogalmazását és bizonyítását.

VALÓSZÍNŰSÉGEK MINDENÜTT

Az 1800-as évek közepétől a valószínűségszámítás és vele együtt a statisztika, jelentős fejlődésnek indult. A fejlődés fő okai meglehetősen praktikus eredetűek voltak, nevezetesen a spórolás. A 19-ik század elejétől beinduló tömegtermeléssel, a gyártási folyamatok gépesítésével felbukkant egy új probléma, a selejtes termékek problémája. A helyzetet csak rontotta a növekvő nyersanyaghiány, illetve az erőforrások szűkössége és ezért egyre nagyobb lett az igény arra, hogy a termelést matematikai úton szabályozzák annak érdekében, hogy a rendelkezésre álló szűkös erőforrásokból és sokszor rossz minőségű alapanyagokból a lehető legkisebb veszteséggel termelhessenek. Az egyik ilyen híressé és tankönyvi példává vált probléma röviden arról szól, hogy egy üzemben üvegből készült palackokat készítettek. Az olvadt üveg azonban nem igazán volt a legjobb minőségű, kisebb szennyeződéseket tartalmazott. Ez pedig rossz hatással van a megszilárdult üvegpalackra, ugyanis törékennyé teszi azt. Tudjuk, hogy 1000 gramm üveg átlagosan 2 szennyeződés-szemcsét tartalmaz. A kérdés az, hogy ha egy palack elkészítéséhez 100 gramm üvegre van szükség, akkor a palackoknak hány százaléka lesz hibás. Nos, ha 1000 gramm 2 hibát tartalmaz, akkor mivel 10*100=1000 így 1000 gramm üvegből 10 palack készül, amelyek közül átlagosan 2 lesz hibás, ami éppen 20%. Csakhogy a válasz rossz. Azért rossz, mert nem veszi figyelembe azt, hogy a hibák nem egyenletesen helyezkednek el a folyékony üvegben, így megeshet, hogy egy palackba két, vagy akár több hiba is kerül, megmentve ezzel a hibától egy másik vagy akár két másik palackot is. A palackokban előforduló hibák számát leíró matematikai törvényszerűséget valószínűségi eloszlásnak nevezzük. Az eloszlás lényege, hogy megmondja nekünk, mekkora valószínűséggel fordul elő egy hiba, mekkora valószínűséggel kettő, és így tovább. Ugyanilyen eloszlás adja meg például azt is, hogy egy dobókockával dobva mekkora eséllyel dobunk 6-ost, vagy éppen 1-est. Míg a kockadobás egyenletes eloszlású, vagyis minden szám ugyanakkora 1/6 valószínűséggel fordul elő, addig a palackban felbukkanó hibák száma egy egészen másfajta eloszlást követ. Ezt az eloszlást egy francia matematikusról Simeon Denis Poissonról nevezték el Poisson eloszlásnak, és tipikusan olyan esetekre alkalmazható, amikor egy folytonos mennyiségben valamilyen diszkrét bekövetkezések számát akarjuk leírni. Poisson eloszláshoz közelít például egy adott évben előforduló nagyobb viharok száma, vagy egy magazinban egy adott oldalon a sajtóhibák száma, de Poisson eloszlást követ egy üzletbe adott idő alatt betérő vásárlók száma is. A Poisson eloszlás lényege, hogy tudjuk mennyi bekövetkezésnek kéne lennie várhatóan, ezt a számot λ–val jelöljük és a k darab bekövetkezés valószínűségét egy képlet segítségével számíthatjuk ki. A képlet elég bonyolultnak tűnik, de aggodalomra semmi ok, nem fogjuk sokat szerepeltetni. Íme:

P(k)=λke-λ/k!

Most számítsuk ki annak valószínűségét, hogy a példánkban szereplő palack hibátlan. A 10 palackra jutó hibák száma 2, így az 1 palackra jutó hibák száma λ=2/10=0,2. Ha a palack hibátlan, akkor k helyére nullát kell írnunk, és így azt kapjuk, hogy a hibátlan palackok valószínűsége 0,818. Ez azt jelenti, hogy a palackok 81,8%-a hibátlan, vagyis 18,2%-a hibás, és nem 20%, ahogy eredetileg gondoltuk.

A Poisson eloszlás egyike a mérnöki gyakorlatban és informatikában előforduló leggyakoribb eloszlásoknak. Tipikus megjelenési formája, hogy egy bizonyos időszak alatt hány bekövetkezés történik; például egy gép működése során megjelenő meghibásodások száma, de ilyen az úgynevezett sorbaállás-probléma is. Ez utóbbi arról a távközlési-hálózatoknál is felmerülő problémáról szól, hogy ha nincs elegendő kapacitás a hívás fogadására, akkor a hívást egy alternatív útvonalra irányítják, ahol sorbaáll. A sorbaállás alkalmazása lehetővé teszi, hogy a bejövő hívás ne vesszen el, hanem várakozzon mindaddig, amíg lesz szabad útvonal. Ezen az elven kezeli a rázúduló feladatokat a számítástechnikában a számítógépek processzora is, de így szolgálják ki a weboldalak látogatóit is a szerverek.

A Poisson eloszlással rokon eloszlás az úgynevezett exponenciális eloszlás. Mindkét eloszlás ugyanazt a történetet írja le, csak az egyik a bekövetkezések számát vizsgálja, a másik pedig a köztük eltelt időt. A Poisson eloszlás arra a kérdésre ad választ, hogy mekkora valószínűséggel érkezik, mondjuk egy percen belül két hívás, míg az exponenciális eloszlás arról szól, hogy mekkora valószínűséggel telik el adott hosszúságú idő a két hívás között. Jó közelítéssel ilyen exponenciális eloszlású az a várakozással töltött idő is, amit egy szupermarket vagy egy gyorsétterem pénztáránál a sorbaállással töltünk el. És így végre matematikai magyarázatot kaphatunk arra, hogy miért mindig az a sor halad lassabban, amiben éppen állunk. Ennek a tudománytörténeti szempontból nem túl érdekes, ám mindennapjainkban igencsak nagy jelentőséggel bíró kérdésnek a megválaszolásához először meg kell ismerkednünk az exponenciális eloszlás egy különös tulajdonságával. Ezt a tulajdonságot

örökifjú tulajdonságnak nevezték el és arról szól, hogy egy adott pillanattól a bekövetkezésig eltelt idő független az adott pillanatig eltelt időtől. Hogy jobban megértsük mit is jelent mindez, vegyük például Bobot. Ha szeretnénk megtudni mekkora valószínűséggel hal meg Bob egy év leforgása alatt, akkor tudnunk kell, hogy hány éves. Nem ugyanakkora ugyanis egy éven belüli halálának esélye 10 évesen, mint 60 évesen vagy épp 102 évesen. Ahogy az idő múlik, Bob bizony egyre nagyobb eséllyel hal meg, mert nem örökifjú. Az exponenciális eloszlás viszont az. Ez azt jelenti, hogy ha például már 5 percet eltöltöttünk sorbaállással, akkor ugyanakkora eséllyel fogunk sorra kerülni a következő egy percben, mintha éppen most álltunk volna be a sorba.

Az, hogy éppen milyen hosszú lesz a sor, már egy egészen másfajta eloszláson múlik. Ez az eloszlás a statisztikában leggyakrabban alkalmazott és egyik legfontosabb eloszlás, amit normális eloszlásnak nevezünk. A normális eloszlás görbéjét először egy francia matematikus, Abraham de Moivre fedezte fel és tette közzé valószínűségszámításról írt könyvében, ám az egzakt matematikai képlet megalkotása Carl Friedrich Gauss érdeme és így Gauss-görbe néven vált ismertté.

A Gauss-görbe előfordulása a természettudományoktól a csillagászaton és az orvostudományokon át a társadalomtudományokig, a statisztikáig vagy éppen a fizikáig megdöbbentően nagyszámú. Kis túlzással azt mondhatjuk, hogy mindenfelé Gauss-görbékbe botlunk. Ennek oka az, hogy a normális eloszlással azokat a jelenségeket lehet jól modellezni, amiknek a kialakulását nagyon sok, egyenként kis súllyal megjelenő tényező együttes hatása alakítja ki. Ha például Európa teljes felnőtt lakosságát felsorakoztatnánk egy hatalmas téren úgy, hogy magasságuk szerint oszlopokba rendezzük őket, akkor az így kirajzolódó alakzat jó közelítéssel egy Gauss-görbe lenne. Ha ezek után megkérnénk őket, hogy most testsúly szerint álljanak fel oszlopokba, akkor az átrendeződéssel járó zűrzavar elmúltával ismét ugyanaz a harang alakú görbe rajzolódna ki. De a galaxisunkban elhelyezkedő csillagok méretétől a pékségben kapható 1kg-os kenyerek tömegén át az elefántok agyarméretéig minden normális eloszláshoz közelít. Az elnevezés onnan ered, hogy van egy normálisnak tekinthető érték, ami a tipikus értéknek felel meg, ebből van a legtöbb. Például a pékségben az 1kg-os kenyerek többsége valóban 1kg-os. A tipikustól eltérő példányok aránya az eltérés mértékének növekedésével aztán drasztikusan csökken, ebből ered a jellegzetes harang alakú görbe. Vagyis olyan kenyér, ami picit kevesebb, mint 1kg vagy picit több, még viszonylag sok van, de aztán ahogy távolodunk az előírt 1kg-tól, a nem normális egyedek aránya drasztikusan csökken. De pontosan ez figyelhető meg mondjuk bárhol az állatvilágban is. Ha egy állatfaj egyedei 1 méter hosszúra nőnek, akkor példányaik jelentős része csak minimálisan tér el ettől, és minimális azok aránya, akik pozitív vagy negatív irányba nagyobb eltérést mutatnak. Egy kissé talán profánul fogalmazva a természet minden élőlénye egyfajta sorozatgyártás terméke, ahol vannak előre beállított szabványok és ezen szabványoktól, mint normális értékektől, a populációnak csak kis része tér el jelentősebb mértékben.

A PARETO-ELV

A valószínűségszámításnak tehát számos fontos eloszlása kíséri végig egész életünket, néha észrevehetően, sokszor teljesen észrevétlenül. Egy másik, szinte mindenütt felbukkanó eloszlást Pareto-elvnek nevezik Vilfredo Pareto olasz szociológus és közgazdász után. A Pareto-elv lényege egy bűvös 80/20 szabály, ami Vilfredo Pareto azon felismerésén alapult, hogy a Földünkön megtermelt javak 80 százalékát a lakosságnak mindössze 20%-a birtokolja. A Pareto által 1906-ban megalkotott matematikai összefüggésről azóta kiderült, hogy szinte mindenütt jelen van a közgazdaságtanban. A világ GDP-éjnek 80%-át a bolygó lakosságának mindössze 20%-a állítja elő, vagy éppen a világ magánvagyonának 80%-a a teljes népesség mindössze 20%-ának a kezében van. De a Pareto-elv érvényesül rengeteg más területen is. Például egy ország lakosságának 80%-a a települések 20%-ában él (jellemzően nagyvárosokban) vagy bolygónk olajmezőinek 20%-a biztosítja a teljes kitermelés 80%-át és a sort folytathatnánk a végtelenségig.

A 80/20 szabály természetesen csak egy végletes leegyszerűsítése annak az eloszlásnak, amelyet Pareto-eloszlásnak neveznek, és amely ezeket a jelenségeket meglehetősen nagy pontossággal képes leírni. Ilyen Pareto-eloszlású például a biztosítók által viharkárra, vagy éppen a nagy tengerjáró hajókra kötött biztosításainak kifizetései, tehát jó közelítéssel a káresetek 20%-ára fizetik ki a kártérítési összeg közel 80%-át. Ahhoz, hogy a biztosítók megfelelően tudjanak előre kalkulálni ezekkel a kifizetésekkel, fontos ismerniük az adott helyzetre leginkább illeszkedő Pareto-eloszlást.

A Pareto-elv jelen van a nagyvállalatok gazdálkodási és döntéshozatali folyamataiban és a hatékonyan működő minőségmenedzsment egyik fő alapelve. A Pareto-elemzésnek nevezett eljárás segítségével rendkívül hatékony válaszokat lehet kapni az olyan típusú kérdésekre, mint például milyen ágazatok fejlesztése vagy éppen leépítése indokolt egy vállalat működése szempontjából, vagy milyen irányú intézkedések szükségesek a minőség és a vevők elégedettségi szintjének javítása érdekében. Megint egy egyszerű példánál maradva, ha elégedetlenek a vevők egy bizonyos szolgáltatással, akkor az elégedetlenség 80%-a a hibáknak mindössze 20%-ára vezethető vissza. Ha tehát sikerül azt a kevés, de jelentős hibát beazonosítani, akkor viszonylag kis ráfordítással nagyon látványos javulás érhető el, míg ha a hibák kijavítása más szisztéma szerint történik, akkor jelentős erőfeszítésekkel is csak lassan szűnik meg a vevők elégedetlensége. A Pareto-elemzés során az x tengelyen felsoroljuk a létező összes hiba-okot, az y tengelyen pedig egy olyan mértéket használunk, ami a lehető legjobban kifejezi a hiba-ok súlyát, így például pénzben kifejezett kárérték, vagy vevők lemorzsolódási aránya, stb. A hiba-okokat ezután csökkenő sorba rakjuk az y tengelyen elért eredményeik alapján. Az így kapott diagram segítségével a hibákat három típusba sorolhatjuk, melyeket A, B és C típusú hibának nevezünk. Az A típusú hibák azok amelyek a 80/20 szabály értelmében a hiba-okok mindössze 20%-át képezik, de az elégedetlenség 80%-áért felelnek. A B típusú hibák azok, amelyek lényegében ugyanakkora súllyal fordulnak elő, mint amekkora súllyal elégedetlenséget okoznak, míg a C típusú hibák azok, amelyek előfordulása nagyobb arányú, mint amekkora arányban panaszt okoznak. Az A típusú hibák javítása után az elégedetlenség 80%-a elmúlt, a maradék 20%-ra pedig az elemzést újra elvégezve a korábban B típusú hibák közé sorolt problémák közül kapjuk meg azokat, amelyek javításával foglalkozni érdemes. Ez az elv természetesen nem csak vállalatirányítási rendszerekben, hanem akár saját életünk különböző területein is kiválóan alkalmazható. És most, hogy túljutottunk a cikknek azon a 20%-án, amelynek elolvasása a teljes cikk hasznosságának 80%-át teszi ki, azért meg kell említeni, hogy a Pareto-elv sem mindenható.

VISZLÁT PARETO-ELV, ÜDV HOSSZÚ FAROK

2004 októberében Chris Anderson a Wired magazin főszerkesztője használta először a „hosszú farok” elnevezést egy új jelenségre, amely az informatikai forradalom hatására bukkant fel az internetes kereskedelemben. A jelenség lényege, hogy korábban, a hagyományos áruházak csak azokat a termékeket voltak képesek rentábilisan forgalmazni, amelyek a 80/20 szabálynak megfeleltek, vagyis a létező termékpalettának csak azt a 20%-át, amelyre a vevők 80%-a igényt tartott. Kevésbé okozott ugyanis veszteséget néhány csalódott vevőt elveszteni, mint feleslegesen túlduzzasztott raktárkészletekkel fenntarthatatlanul nagyra növelni áruházuk méreteit. Amikor azonban megjelentek a webáruházak, ahol tulajdonképpen végtelenül nagy virtuális raktárkészlettel rendelkezhet még egy viszonylag kis cég is, úgy lehetőség nyílt a Pareto-elv szerint feleslegesnek ítélt termékek árusítására is. És ezzel a pillanattal lépett színre a hosszú farok. A hagyományos áruházakkal szemben ugyanis a webáruházak sokkal kisebb költséghányaddal tudták értékesíteni a korábban feleslegesnek ítélt termékeket – mellesleg nem csak azokat, hanem a nem feleslegeseket is – ami a Pareto-elv felborulását eredményezte. A kisszámú, szétszórt elhelyezkedésű fogyasztó sok apró vásárlása együttesen képes volt kitenni a teljese bevételnek akkora hányadát, amely a hagyományos Pareto-elv szerinti kereskedelemben elképzelhetetlen lett volna. A jelenséget Chris Anderson keresztelte el hosszú faroknak, azonban már jóval korábban, az 1950-es években foglalkoztak vele. Elsőként Benoit Mandelbrot, a 20-ik század talán egyik legsokoldalúbb matematikusa, a fraktál-fogalom megalkotója írt róla. A hosszú farok eloszlás egyébként nem áll távol a Pareto-eloszlástól, mindkettő az eloszlásoknak ugyanabba a nagy családjába sorolható be, amelyek a hatványfüggvények által leírható eloszlások (megjegyzésképpen, a korábban látott exponenciális és normális eloszlás nem ilyen). De míg a Pareto-eloszlás a 80/20 elvet írja le, addig a hosszú farok eloszlását úgy aposztrofálhatjuk, mint az 50/20 szabály. Vagyis az áruházas példánknál maradva, míg a hagyományos áruházak bevételének 80%-a az általuk forgalmazott árufajták 20%-ának eladásából származik, addig a webáruházaknál csak a bevétel 50%-a jön össze az árufajták 20%-ából, a másik 50%-hoz kell, a hosszú farok, vagyis a termékek további 80%-a. Ahogy az internet egyre több területen jelenik meg életünkben, úgy a hosszú farok jelenség is egyre több helyen bukkan fel. Tipikus megjelenési formája az internetes kereskedelem mellett a például a wiki oldalak működése és azon belül ilyen a szinte mindannyiunk által ismert wikipédia is, ahol a hagyományos enciklopédia szerkesztéssel ellentétben nagyon sok, és ezáltal sokféle szerző hozza létre a szócikkeket. De szintén a hosszú farok jelenség figyelhető meg a napjainkban hatalmas indulatokat kiváltó és az egész világ munkaerőpiacát érintő crowdsourcing modellben is. Ennek lényege, a munka közösségi kiszervezése és ilyen elven működik a világ vezető szállodaláncai által is aggódva figyelt Airbnb vagy a taxitársaságok körében nem túl nagy népszerűségnek örvendő Uber. A crowdsourcing modell tulajdonképpen a webáruházak és wiki oldalak elvének átültetése az élet bármely területére, vagyis a közösséget teszik meg szolgáltatóvá és maga a cég csupán a hálózatot birtokolja, ami a vevő és a szolgáltatás közötti kapcsolatot lehetővé teszi, de magának a szolgáltatásnak az eszközeit nem. Az internet megjelenésével felbukkanó hosszú farok jelenség – amely számos matematikai és morális jellegű problémát vet tehát fel – egyfajta új ipari forradalomnak is tekinthető, ahol a munkájuk elvesztése miatt aggódó géprombolók haragjával lépnek fel most a szakmájukat féltők a közösségi szolgáltatásokkal szemben.

MÉG TÖBB ILYEN

Visszajelzés