Rozsah dat
Obsah boxu
| Rozsah dat |
|---|
Rozsah dat (anglicky range) je v statistice a analýze dat základní míra variability nebo disperze datového souboru. Jedná se o rozdíl mezi nejvyšší a nejnižší hodnotou v daném souboru dat. Poskytuje rychlou a jednoduchou informaci o rozsahu hodnot, které datový soubor pokrývá. I když je snadno spočitatelný, je citlivý na extrémní hodnoty (outliery) a nemusí vždy poskytovat komplexní obrázek o rozložení dat.
---
Definice a výpočet
Rozsah dat se počítá jako rozdíl mezi nejvyšší hodnotou (max) a nejnižší hodnotou (min) v datovém souboru.
Vzorec: $R = \text{max} - \text{min}$
Kde:
- $R$ = Rozsah dat
- $\text{max}$ = Nejvyšší hodnota v souboru dat
- $\text{min}$ = Nejnižší hodnota v souboru dat
Příklad: Mějme soubor dat o věku studentů ve skupině: $18, 20, 19, 22, 21, 18, 25$. 1. Najdeme nejvyšší hodnotu (max): $25$ 2. Najdeme nejnižší hodnotu (min): $18$ 3. Vypočítáme rozsah: $R = 25 - 18 = 7$
Rozsah dat je tedy 7 let. To znamená, že rozdíl mezi nejstarším a nejmladším studentem ve skupině je 7 let.
---
Vlastnosti a interpretace
- Jednoduchost: Jedná se o nejjednodušší míru variability, která se snadno počítá a interpretuje.
- Citlivost na extrémy: Rozsah dat je extrémně citlivý na extrémní hodnoty (odlehlé hodnoty). Pouhý jeden outlier může výrazně změnit vypočítaný rozsah, což nemusí odpovídat typické variabilitě dat.
- Neposkytuje informace o rozložení: Rozsah nám neřekne nic o tom, jak jsou data rozložena mezi minimem a maximem. Zda jsou data rovnoměrně rozložena, shlukují se kolem průměru, nebo mají více shluků.
- Použití pro malé soubory: Je užitečný pro rychlý přehled variability v malých datových souborech, kde není přítomnost outlierů příliš pravděpodobná.
---
Rozsah dat vs. jiné míry variability
Rozsah dat je jen jednou z mnoha měr variability. Dalšími, které poskytují komplexnější obrázek, jsou:
- Mezikvartilové rozpětí (IQR): Rozdíl mezi třetím kvartilem (Q3) a prvním kvartilem (Q1). Je méně citlivé na extrémní hodnoty než rozsah, protože ignoruje nejnižších 25 % a nejvyšších 25 % dat.
- Rozptyl (Variance): Průměrná čtvercová odchylka od průměru. Poskytuje informace o průměrné disperze dat.
- Směrodatná odchylka (Standard Deviation): Odmocnina z rozptylu. Je to nejčastěji používaná míra variability, protože je ve stejných jednotkách jako původní data a je snadno interpretovatelná.
Kdy použít rozsah dat:
- Pro rychlou orientaci v malých datových souborech.
- Při popisné statistice, kde se požaduje jednoduchá a srozumitelná míra variability.
- Jako první krok při průzkumové analýze dat před detailnějšími analýzami.
---
Aplikace v informatice a datových vědách
V informatice a datových vědách se termín "rozsah dat" používá v několika kontextech:
- Datové typy: Každý datový typ má definovaný rozsah hodnot, které může uchovávat (např. 8bitové celé číslo má rozsah od -128 do 127).
- Validace dat: Při validaci dat se často kontroluje, zda data spadají do očekávaného rozsahu.
- Normalizace dat: V strojovém učení a zpracování signálu se data často normalizují do určitého rozsahu (např. 0-1 nebo -1 až 1), aby se zlepšila výkonnost algoritmů.
- Databáze: V databázích se při dotazování často specifikuje rozsah hodnot pro filtrace záznamů.
---
Rozsah dat pro laiky
Představte si, že máte skupinu kamarádů a chcete vědět, jak moc se lišíte ve výšce. Změříte každého kamaráda a zapíšete si hodnoty.
Řekněme, že nejvyšší kamarád má $190 cm$ a nejnižší $160 cm$.
Rozsah dat je pak jednoduše rozdíl mezi tím nejvyšším a nejnižším. $190 cm - 160 cm = 30 cm$.
Takže rozsah výšky ve vaší skupině je $30 cm$. To vám řekne, jak "roztažená" je ta vaše skupina z hlediska výšky. Je to super jednoduché, ale neřekne vám to třeba, jestli jsou všichni ostatní někde uprostřed, nebo jestli máte hodně lidí u jedné i druhé hranice.
---
Externí odkazy
- Britannica - Range (statistics) (anglicky)
- Investopedia - Range (Statistics) (anglicky)
- Statistics How To - Range (Statistics) (anglicky)
- Sociologická encyklopedie - Rozptyl (pro širší kontext variability)
---