Přeskočit na obsah

Velká data: Porovnání verzí

Z Infopedia
založena nová stránka s textem „{{K rozšíření}} {{Infobox věda | název = Velká data | obrázek = Big-Data-Symbol.png | velikost_obrázku = 250px | popisek = Typická vizualizace konceptu velkých dat | obor = Informační technologie, Statistika, Matematika, Datová věda | definice = Termín pro mimořádně rozsáhlé soubory dat, které nelze spravovat, zpracovávat ani analyzovat tradičními databázovými nástroji. | související_pojmy = Datová věd…“
(Žádný rozdíl)

Verze z 27. 5. 2025, 15:41

Rozbalit box

Obsah boxu

Šablona:Infobox věda

Velká data (anglicky Big Data) je souhrnný termín používaný k popisu mimořádně rozsáhlých a složitých souborů dat, které tradiční databázové nástroje a softwary nedokážou efektivně sbírat, ukládat, zpracovávat, analyzovat a vizualizovat v přijatelném čase. Fenomén velkých dat vznikl s prudkým nárůstem digitálních informací generovaných z různých zdrojů.

Charakteristika Velkých dat (3V/5V)

Charakteristika velkých dat je často popisována pomocí "3V", rozšířených na "5V":

  • Volume (Objem): Jedná se o obrovské množství dat, které je generováno každou vteřinou. To zahrnuje terabyty, petabyty nebo i exabyty dat. Příklady zahrnují data ze sociálních sítí, transakční záznamy, senzory v zařízeních, videozáznamy.
  • Velocity (Rychlost): Data jsou generována a musí být zpracovávána s vysokou rychlostí. To se týká jak rychlosti, s jakou data vznikají (např. streamovaná data), tak rychlosti, s jakou je třeba je analyzovat pro rychlé rozhodování (např. online obchodování, detekce podvodů).
  • Variety (Rozmanitost): Data pocházejí z různých zdrojů a mají různé formáty – strukturovaná (databáze), semistrukturovaná (XML, JSON) i nestrukturovaná (textové dokumenty, obrázky, audio, video). Rozmanitost představuje výzvu pro jejich sjednocení a analýzu.
  • Veracity (Důvěryhodnost/Pravdivost): Odkazuje na kvalitu a spolehlivost dat. Velké objemy dat mohou obsahovat šum, nekonzistence nebo chyby, což ovlivňuje výsledky analýz. Zajištění kvality dat je klíčové.
  • Value (Hodnota): Nejdůležitější aspekt – data samotná mají malou hodnotu, dokud nejsou analyzována a přeměněna na užitečné informace, které mohou vést k lepším rozhodnutím, novým poznatkům nebo konkurenční výhodě.

Zdroje Velkých dat

Velká data pocházejí z nepřeberného množství zdrojů:

  • Sociální média: Komentáře, lajky, sdílení, příspěvky (Twitter, Facebook, Instagram).
  • Webová data: Kliknutí, vyhledávání, logy serverů, data z e-commerce.
  • Senzory a IoT: Data z chytrých zařízení, průmyslových senzorů, dopravních systémů, nositelné elektroniky.
  • Transakční data: Záznamy o nákupech, bankovních transakcích, telekomunikační data.
  • Multimediální data: Obrázky, videa, audio soubory.
  • Vědecká data: Data z experimentů, simulací, výzkumu (např. genomika, astronomie).

Technologie a nástroje

Pro práci s velkými daty byly vyvinuty specifické technologie a nástroje, které překonávají omezení tradičních systémů:

  • Hadoop: Open-source framework pro distribuované zpracování velkých datových sad napříč počítačovými clustery.
  • Spark: Rychlejší a flexibilnější alternativa k Hadupu pro zpracování dat v reálném čase.
  • NoSQL databáze: Databáze navržené pro práci s nestrukturovanými a semistrukturovanými daty (např. MongoDB, Cassandra).
  • Cloud computing: Poskytuje flexibilní a škálovatelnou infrastrukturu pro ukládání a zpracování velkých dat (např. AWS, Azure, Google Cloud).
  • Nástroje pro vizualizaci dat: Software pro převod komplexních dat na srozumitelné grafy a vizualizace (např. Tableau, Power BI).
  • Nástroje pro strojové učení a umělou inteligenci: Pro pokročilou analýzu a prediktivní modelování.

Využití a aplikace

Velká data nacházejí uplatnění v široké škále odvětví:

  • Byznys a marketing: Personalizované doporučení, segmentace zákazníků, optimalizace cen, predikce trendů, detekce podvodů.
  • Zdravotnictví: Personalizovaná medicína, výzkum nemocí, optimalizace léčby, monitorování epidemií.
  • Doprava: Optimalizace provozu, chytrá města, predikce údržby vozidel.
  • Finance: Řízení rizik, detekce finančních podvodů, algoritmické obchodování.
  • Věda a výzkum: Zpracování obrovských datových souborů v astronomii, fyzice, biologii.
  • Veřejný sektor: Zlepšení veřejných služeb, plánování měst, sledování kriminality.

Výzvy a etika

Práce s velkými daty přináší i významné výzvy:

  • Ochrana soukromí: Sbírání a analýza obrovského množství osobních dat vyvolává obavy o soukromí a zneužití.
  • Zabezpečení dat: Objem a rozmanitost dat zvyšuje riziko kybernetických útoků.
  • Kvalita dat: Zajištění správnosti, konzistence a relevanci dat je náročné.
  • Nedostatek odborníků: Poptávka po datových vědcích, analyticích a inženýrech přesahuje nabídku.
  • Etické otázky: Diskriminace na základě algoritmů, transparentnost rozhodování AI.

Velká data transformovala způsob, jakým firmy a organizace fungují a rozhodují se, a nadále představují klíčovou oblast inovací a růstu.

Externí odkazy