Přeskočit na obsah

Data

Z Infopedia
(přesměrováno z Dat)
Rozbalit box

Obsah boxu

Šablona:Různé významy Šablona:Infobox - pojem

Data (z latinského datum, což znamená „něco daného“, v jednotném čísle datum nebo datový prvek) jsou soubory symbolů, znaků nebo hodnot, které reprezentují vlastnosti nebo kvantity objektů, událostí nebo myšlenek. Sama o sobě nemusí mít data žádný význam, ale po zpracování a zařazení do kontextu se stávají informacemi. V moderním světě, zejména v oblasti informatiky a digitálních technologií, jsou data základní surovinou pro veškeré zpracování, komunikaci a ukládání.

Data mohou existovat v různých formách, od jednoduchých čísel a textu až po komplexní soubory jako obrázky, zvukové nahrávky nebo videa. Jsou základem pro vědecký výzkum, obchodní rozhodování, umělou inteligenci a fungování moderní společnosti.

📜 Historie a etymologie

Pojem "data" pochází z latinského slova datum, což je příčestí minulé od slova dare (dát). V antickém Římě označovalo něco, co bylo dáno nebo uděleno. Použití v množném čísle data se rozšířilo v 17. století v Anglii a označovalo fakta nebo důkazy použité jako základ pro úvahy nebo výpočty.

Historie sběru a zpracování dat je stará jako lidská civilizace sama. První formy dat byly záznamy o úrodě, sčítání lidu nebo astronomická pozorování, často zaznamenávané na hliněné tabulky nebo papyrus.

Významný zlom nastal v 19. století s vynálezem děrných štítků Hermanem Hollerithem pro zpracování výsledků sčítání lidu v USA v roce 1890. To byl počátek automatizovaného zpracování dat. Skutečná revoluce však přišla s nástupem počítačů ve 20. století. Data se začala ukládat na magnetické pásky, později na pevné disky a další digitální média, což umožnilo jejich masivní shromažďování, rychlé zpracování a snadné sdílení. S příchodem internetu a digitální revoluce na konci 20. století objem generovaných dat exponenciálně vzrostl, což vedlo ke vzniku konceptu Big data.

⚙️ Definice a vlastnosti

Data jsou surová, neorganizovaná fakta. Aby se stala užitečnými, musí být interpretována a zpracována. Klíčové je rozlišení mezi daty, informacemi, znalostmi a moudrostí, které se často znázorňuje jako tzv. DIKW pyramida.

Data vs. Informace vs. Znalosti

  • Data: Surové, nezpracované symboly. Příklad: číslo `194`.
  • Informace: Data zasazená do kontextu, která odpovídají na otázky "kdo, co, kdy, kde". Příklad: `Tělesná teplota pacienta je 194 °F`. Zde je zřejmé, že jde o chybu měření nebo záznamu, protože taková hodnota je neslučitelná se životem.
  • Znalosti: Aplikace informací a zkušeností, která odpovídá na otázku "jak". Příklad: `Lékař na základě informace o nereálné teplotě ví, že musí měření opakovat spolehlivějším teploměrem.`
  • Moudrost: Hlubší pochopení principů, které odpovídá na otázku "proč". Příklad: `Pochopení, proč je důležité ověřovat extrémní hodnoty a jaké systémové chyby mohou vést k nesprávným datům, aby se předešlo budoucím omylům.`

Typy dat

Data lze dělit podle různých kritérií. Základní dělení je na kvalitativní a kvantitativní.

  • Kvantitativní data: Vyjadřují množství, jsou číselná. Dělí se na diskrétní (celá čísla, např. počet studentů) a spojitá (mohou nabývat jakékoli hodnoty v intervalu, např. výška člověka).
  • Kvalitativní data: Popisují vlastnosti, jsou nečíselná. Příkladem je barva očí nebo slovní hodnocení.

Podle struktury se data v informatice dělí na:

  • Strukturovaná data: Mají pevně daný formát a jsou organizována v tabulkách, typicky v relačních databázích. Příklad: tabulka zákazníků s sloupci Jméno, Příjmení, Adresa.
  • Semistrukturovaná data: Nemají pevnou tabulkovou strukturu, ale obsahují značky a tagy, které oddělují sémantické prvky. Příklad: soubory XML nebo JSON.
  • Nestrukturovaná data: Nemají žádnou předem definovanou strukturu. Tvoří většinu dnes generovaných dat. Příklad: text v knize, obrázek, video, zvukový záznam.

Metadata

Metadata jsou "data o datech". Popisují vlastnosti, původ, kontext a strukturu jiných dat. Například u digitální fotografie jsou metadaty informace o datu pořízení, typu fotoaparátu, nastavení expozice (uložené v EXIF formátu) nebo GPS souřadnice místa pořízení. U hudebního souboru MP3 to mohou být informace o interpretovi, albu a názvu skladby.

💻 Data v informatice

V kontextu počítačů jsou veškerá data reprezentována v binární soustavě pomocí dvou stavů, které se označují jako 0 a 1. Základní jednotkou informace je bit. Osm bitů tvoří jeden bajt (byte), který obvykle reprezentuje jeden znak.

Reprezentace dat

  • Čísla: Jsou ukládána přímo v binární podobě (celá čísla) nebo ve formátu s plovoucí desetinnou čárkou (reálná čísla).
  • Text: Každý znak je reprezentován číselným kódem podle určité znakové sady. Historicky se používal ASCII, dnes je standardem Unicode, který umožňuje reprezentovat znaky všech světových jazyků.
  • Obrázky, zvuk, video: Jsou převedeny do digitální podoby (digitalizovány) procesem vzorkování a kvantizace a následně často komprimovány pomocí algoritmů jako JPEG pro obrázky nebo MPEG pro video.

Ukládání dat

Data se ukládají na různá datová média.

  • Primární úložiště: Operační paměť (RAM), která je rychlá, ale volatilní (po vypnutí napájení se obsah ztratí).
  • Sekundární úložiště: Trvalá úložiště jako pevný disk (HDD), SSD (Solid-State Drive), optický disk (CD, DVD, Blu-ray).
  • Terciární úložiště: Média pro archivaci velkých objemů dat, jako jsou magnetické pásky.
  • Cloudové úložiště: Ukládání dat na vzdálených serverech dostupných přes internet.

Databáze

Pro efektivní správu, ukládání a vyhledávání strukturovaných dat se používají databázové systémy. Nejrozšířenější jsou relační databáze, které pracují s daty v tabulkách a používají dotazovací jazyk SQL. Pro práci s nestrukturovanými a semistrukturovanými daty se stále více prosazují NoSQL databáze.

🌐 Big Data a moderní trendy

S masivním rozvojem internetu, sociálních sítí, Internetu věcí (IoT) a mobilních zařízení zažíváme explozi objemu generovaných dat. Tento fenomén se nazývá Big data.

Charakteristika Big Data (5V)

Big data jsou často definována pomocí několika "V":

  • Volume (Objem): Obrovské množství dat, často v řádu terabajtů, petabajtů nebo i více.
  • Velocity (Rychlost): Data vznikají a musí být zpracovávána ve vysoké rychlosti, často v reálném čase.
  • Variety (Rozmanitost): Data pocházejí z různých zdrojů a mají různé formáty (strukturovaná, nestrukturovaná).
  • Veracity (Věrohodnost): Data mohou být nekonzistentní, neúplná nebo nepřesná. Je nutné zajistit jejich kvalitu.
  • Value (Hodnota): Hlavním cílem je z dat získat cenné informace, které mohou vést k lepším rozhodnutím nebo inovacím.

Zpracování a analýza

Pro analýzu Big data se vyvinuly nové disciplíny a technologie. Věda o datech (Data Science) kombinuje statistiku, informatiku a znalosti z daného oboru. Klíčovými metodami jsou strojové učení (Machine Learning) a datamining (vytěžování dat), které umožňují odhalovat skryté vzorce, trendy a korelace v datech.

Otevřená data (Open Data)

Otevřená data jsou data, která jsou volně dostupná komukoli k použití, opětovnému použití a šíření. Tento koncept podporují vlády a veřejné instituce po celém světě s cílem zvýšit transparentnost, podpořit inovace a umožnit občanům lepší kontrolu nad veřejnou správou. Příkladem jsou data o státních rozpočtech, jízdní řády nebo meteorologická data.

⚖️ Etika a bezpečnost

Masivní sběr a využívání dat přináší řadu etických a bezpečnostních výzev.

Ochrana osobních údajů

Sběr dat o jednotlivcích vyvolává obavy o soukromí. Legislativní rámce, jako je GDPR v Evropské unii, se snaží dát lidem větší kontrolu nad jejich osobními údaji a stanovit pravidla pro jejich zpracování organizacemi.

Bezpečnost dat

Data jsou cenným aktivem a musí být chráněna před neoprávněným přístupem, zneužitím, ztrátou nebo poškozením. Mezi klíčové bezpečnostní opatření patří šifrování, řízení přístupu, pravidelné zálohování a ochrana proti malwaru a hackerským útokům.

Datová gramotnost

V informační společnosti je stále důležitější, aby lidé měli základní datovou gramotnost – schopnost číst, analyzovat, interpretovat a argumentovat pomocí dat. Tato dovednost je klíčová pro orientaci v moderním světě a pro ochranu před dezinformacemi.

🔬 Pro laiky

Představte si data jako jednotlivé kostičky Lega. Jedna modrá kostička (datum) sama o sobě moc neznamená.

  • Když kostičky roztřídíte podle barev a velikostí (zpracování dat), získáte informaci. Najednou víte, že máte 50 modrých kostiček a 30 červených.
  • Když si k tomu vezmete návod, který ukazuje, jak z těchto kostiček postavit auto (aplikace pravidel), získáváte znalost.
  • Když postavíte auto a víte, jak si s ním hrát, jak ho opravit, nebo dokonce jak z dostupných kostiček postavit něco úplně nového a lepšího, dosáhli jste moudrosti.

Big Data si můžete představit tak, jako by na vás někdo místo jedné krabice Lega vysypal obsah celého kamionu. Na třídění a stavění už vám nestačí ruce, ale potřebujete speciální stroje (počítačové programy a algoritmy), které vám pomohou v té obrovské hromadě najít ty správné dílky a postavit z nich něco užitečného.


Šablona:Aktualizováno