Rozsah dat

Rozbalit box

Obsah boxu

Grafické znázornění rozsahu dat na číselné ose.

Rozsah dat (anglicky range) je v statistice a analýze dat základní míra variability nebo disperze datového souboru. Jedná se o rozdíl mezi nejvyšší a nejnižší hodnotou v daném souboru dat. Poskytuje rychlou a jednoduchou informaci o rozsahu hodnot, které datový soubor pokrývá. I když je snadno spočitatelný, je citlivý na extrémní hodnoty (outliery) a nemusí vždy poskytovat komplexní obrázek o rozložení dat.

---

Definice a výpočet

Rozsah dat se počítá jako rozdíl mezi nejvyšší hodnotou (max) a nejnižší hodnotou (min) v datovém souboru.

Vzorec: $R = \text{max} - \text{min}$

Kde:

$R$ = Rozsah dat
$\text{max}$ = Nejvyšší hodnota v souboru dat
$\text{min}$ = Nejnižší hodnota v souboru dat

Příklad: Mějme soubor dat o věku studentů ve skupině: $18, 20, 19, 22, 21, 18, 25$. 1. Najdeme nejvyšší hodnotu (max): $25$ 2. Najdeme nejnižší hodnotu (min): $18$ 3. Vypočítáme rozsah: $R = 25 - 18 = 7$

Rozsah dat je tedy 7 let. To znamená, že rozdíl mezi nejstarším a nejmladším studentem ve skupině je 7 let.

---

Vlastnosti a interpretace

Jednoduchost: Jedná se o nejjednodušší míru variability, která se snadno počítá a interpretuje.
Citlivost na extrémy: Rozsah dat je extrémně citlivý na extrémní hodnoty (odlehlé hodnoty). Pouhý jeden outlier může výrazně změnit vypočítaný rozsah, což nemusí odpovídat typické variabilitě dat.
Neposkytuje informace o rozložení: Rozsah nám neřekne nic o tom, jak jsou data rozložena mezi minimem a maximem. Zda jsou data rovnoměrně rozložena, shlukují se kolem průměru, nebo mají více shluků.
Použití pro malé soubory: Je užitečný pro rychlý přehled variability v malých datových souborech, kde není přítomnost outlierů příliš pravděpodobná.

---

Rozsah dat vs. jiné míry variability

Rozsah dat je jen jednou z mnoha měr variability. Dalšími, které poskytují komplexnější obrázek, jsou:

Mezikvartilové rozpětí (IQR): Rozdíl mezi třetím kvartilem (Q3) a prvním kvartilem (Q1). Je méně citlivé na extrémní hodnoty než rozsah, protože ignoruje nejnižších 25 % a nejvyšších 25 % dat.
Rozptyl (Variance): Průměrná čtvercová odchylka od průměru. Poskytuje informace o průměrné disperze dat.
Směrodatná odchylka (Standard Deviation): Odmocnina z rozptylu. Je to nejčastěji používaná míra variability, protože je ve stejných jednotkách jako původní data a je snadno interpretovatelná.

Kdy použít rozsah dat:

Pro rychlou orientaci v malých datových souborech.
Při popisné statistice, kde se požaduje jednoduchá a srozumitelná míra variability.
Jako první krok při průzkumové analýze dat před detailnějšími analýzami.

---

Aplikace v informatice a datových vědách

V informatice a datových vědách se termín "rozsah dat" používá v několika kontextech:

Datové typy: Každý datový typ má definovaný rozsah hodnot, které může uchovávat (např. 8bitové celé číslo má rozsah od -128 do 127).
Validace dat: Při validaci dat se často kontroluje, zda data spadají do očekávaného rozsahu.
Normalizace dat: V strojovém učení a zpracování signálu se data často normalizují do určitého rozsahu (např. 0-1 nebo -1 až 1), aby se zlepšila výkonnost algoritmů.
Databáze: V databázích se při dotazování často specifikuje rozsah hodnot pro filtrace záznamů.

---

Rozsah dat pro laiky

Představte si, že máte skupinu kamarádů a chcete vědět, jak moc se lišíte ve výšce. Změříte každého kamaráda a zapíšete si hodnoty.

Řekněme, že nejvyšší kamarád má $190 cm$ a nejnižší $160 cm$.

Rozsah dat je pak jednoduše rozdíl mezi tím nejvyšším a nejnižším. $190 cm - 160 cm = 30 cm$.

Takže rozsah výšky ve vaší skupině je $30 cm$. To vám řekne, jak "roztažená" je ta vaše skupina z hlediska výšky. Je to super jednoduché, ale neřekne vám to třeba, jestli jsou všichni ostatní někde uprostřed, nebo jestli máte hodně lidí u jedné i druhé hranice.

---

Externí odkazy

Britannica - Range (statistics) (anglicky)
Investopedia - Range (Statistics) (anglicky)
Statistics How To - Range (Statistics) (anglicky)
Sociologická encyklopedie - Rozptyl (pro širší kontext variability)

---

Kategorie