Průměr není všechno

Další názvy

Arithmetic Mean Fallacy

Kategorizace

Statistický faul

Mluvčí nekriticky předkládá průměr jako reprezentativní hodnotu, i když vůbec reprezentativní být nemusí.

Aritmeticky průměr může a nemusí být vhodným ukazatelem centrální tendence pro soubor dat.

Centrální tendence v tomto případě, intuitivně řečeno, znamená hodnotu, která je určitým způsobem typická pro nějaká číselná data – kterou bychom jaksi „čekali“. Pro tyto účely existuje celá řada různých hodnot – aritmetický průměr, geometrický průměr, medián, modus a další. Nejznámějším a snad i nejpoužívanějším je bezpochyby aritmetický průměr.

Základním problémem s aritmetickým průměrem je skutečnost, že je málo robustní a tudíž velmi citlivý na tzv. outliery.

Outlier je neformálně definovaný, spíše slangový termín pro extrémní hodnoty. Outlieři ovlivňují průměr zejména v situaci, kdy je extrémnost hodnot z jedné strany omezena nějakým limitem.

Je relativně dobře známo, že průměr značně pokulhává při reprezentaci platového ohodnocení. Existuje otřepaná fráze „ale dvě třetiny lidí na průměrný plat nedosáhnou“, která nicméně reflektuje realitu velmi přesně – takže tvrzení, že průměr není ohledně platu reprezentativní hodnota, asi nikoho velmi nepřekvapí.

Plat je totiž proměnná, která je omezená z jedné strany. Většina lidí v ČR vydělává něco mezi minimální mzdou (13 350,- Kč co do 2019) a řekněme 50 000. Problém je v tom, že stále existuje relativně velké množství lidí, kteří mají plat mnohem vyšší než to, i nad sto tisíc. Tito lidé významně ovlivňují průměr. Na druhou stranu neexistuje nikdo, kdo by legálně dostával plat a vydělával méně než 13 350,- – a proto je průměr nereprezentativně posunut o tolik nahoru.

V případě, že jsou outlieři takto asymetricky rozdělení, je lepší se spolehnout na medián nebo na modus.

Medián získáme tak, že seřadíme všechny hodnoty od nejmenší po největší a najdeme tu prostřední. Je-li počet hodnot sudý, vypočítáme aritmetický průměr dvou prostředních hodnot. Jeho hlavní výhodou je, že ho lze použít pro číselná data, kde je každá hodnota unikátní. Nelze ho však použít pro nečíselná data, která nelze smysluplně seřadit.
Modus je nejčastější hodnota v datech. Jeho hlavní nevýhodou je, že jej nelze použít pro data, kde je každá hodnota unikátní. Jeho výhodou ale je, že ho lze použít pro nečíselná data, která nelze smysluplně seřadit.

Hodnot reprezentujících centrální tendenci existuje nepřeberné množství a všechny mají svoje výhody a svoje nevýhody. Neexistuje jedna jediná správná hodnota, kterou lze za všech okolností pro všechny účely přesně reprezentovat určitý soubor dat.

Příklady

„V minulosti se nedožil sedmdesáti skoro nikdo. Vždyť průměrná naděje na dožití byla 35 let!“

Pomiňme skutečnost, že podobná historická čísla bývají do značné míry relativně hrubý odhad, předpokládejme, že jsou z přesných dat. Problém je v tom, že tato data jsou plná outlierů v podobě kojenců a dětí do pěti let umírajících na dnes již banální choroby. V momentě, kdy to člověk dotáhl alespoň na patnáct let, se dalo čekat, že se dostane do i na dnešní dobu relativně pokročilého věku.

„Průměrný příjem za rok je v Portugalsku o 164 dolarů vyšší než u nás. Odstěhujme se tam – bude nám tam jistě lépe.“

Uvedená hodnota je příjem, který je na outliery ještě citlivější než plat, protože zahrnuje i podnikatele, kteří jsou těmi největšími outliery. Tento rozdíl může být způsobený tím, že Portugalsko má o několik málo velmi bohatých lidí více, což je pro posuzování vlastní budoucí životní úrovně v nové zemi jen těžko relevantní.

Toto tvrzení je zároveň faulem následujícím, totiž Sloučením významností – mluvčí totiž předpokládá, že významnost statistická je totéž jako významnost praktická. Přistěhovalec se totiž zpravidla nachází ve velmi specifickém postavení, a tak nemusí být takto malý rozdíl v průměrném příjmu vůbec relevantní.

SLOUČENÍ VÝZNAMNOSTÍ

Argumentační fauly, které vychází ze statistického faulu Průměr není všechno

UNÁHLENÝ ZÁVĚR

Hledáte něco jiného?

Facebook

Twitter