Velká data: Porovnání verzí
založena nová stránka s textem „{{K rozšíření}} {{Infobox věda | název = Velká data | obrázek = Big-Data-Symbol.png | velikost_obrázku = 250px | popisek = Typická vizualizace konceptu velkých dat | obor = Informační technologie, Statistika, Matematika, Datová věda | definice = Termín pro mimořádně rozsáhlé soubory dat, které nelze spravovat, zpracovávat ani analyzovat tradičními databázovými nástroji. | související_pojmy = Datová věd…“ |
Bez shrnutí editace |
||
| Řádek 5: | Řádek 5: | ||
| velikost_obrázku = 250px | | velikost_obrázku = 250px | ||
| popisek = Typická vizualizace konceptu velkých dat | | popisek = Typická vizualizace konceptu velkých dat | ||
| obor = [[Informační technologie]], [[Statistika]], [[Matematika]], [[Datová věda]] | | obor = [[Informační technologie]], [[Statistika]], [[Matematika (věda)|Matematika]], [[Datová věda]] | ||
| definice = Termín pro mimořádně rozsáhlé soubory dat, které nelze spravovat, zpracovávat ani analyzovat tradičními databázovými nástroji. | | definice = Termín pro mimořádně rozsáhlé soubory dat, které nelze spravovat, zpracovávat ani analyzovat tradičními databázovými nástroji. | ||
| související_pojmy = [[Datová věda]], [[Strojové učení]], [[Umělá inteligence]], [[Internet věcí]], [[Cloud computing]], [[Analýza dat]] | | související_pojmy = [[Datová věda]], [[Strojové učení]], [[Umělá inteligence]], [[Internet věcí]], [[Cloud computing]], [[Analýza dat]] | ||
| Řádek 12: | Řádek 12: | ||
}} | }} | ||
'''Velká data''' (anglicky ''Big Data'') je souhrnný termín používaný k popisu mimořádně rozsáhlých a složitých souborů dat, které tradiční databázové nástroje a softwary nedokážou efektivně sbírat, ukládat, zpracovávat, analyzovat a vizualizovat v přijatelném | '''Velká data''' (anglicky ''Big Data'') je souhrnný [[termín]] používaný k popisu mimořádně rozsáhlých a složitých souborů [[data|dat]], které [[tradiční]] [[databáze|databázové]] [[nástroj|nástroje]] a [[software|softwary]] nedokážou efektivně [[sběr dat|sbírat]], [[ukládání dat|ukládat]], [[zpracování dat|zpracovávat]], [[analýza dat|analyzovat]] a [[vizualizace dat|vizualizovat]] v přijatelném [[čas]]. [[fenomén|Fenomén]] velkých dat vznikl s prudkým [[nárůst|nárůstem]] [[digitální|digitálních]] [[informace|informací]] generovaných z různých [[zdroj|zdrojů]]. | ||
== Charakteristika Velkých dat (3V/5V) == | == Charakteristika Velkých dat (3V/5V) == | ||
Charakteristika velkých dat je často popisována pomocí "3V", rozšířených na "5V": | Charakteristika velkých dat je často popisována pomocí "3V", rozšířených na "5V": | ||
* '''Volume (Objem):''' Jedná se o obrovské množství dat, které je generováno každou vteřinou. To zahrnuje terabyty, petabyty nebo i exabyty dat. Příklady zahrnují data ze sociálních sítí, transakční záznamy, senzory v zařízeních, videozáznamy. | * '''Volume (Objem):''' Jedná se o obrovské [[množství]] [[data|dat]], které je generováno každou [[vteřina|vteřinou]]. To zahrnuje [[terabyte|terabyty]], [[petabyte|petabyty]] nebo i [[exabyte|exabyty]] dat. Příklady zahrnují [[data ze sociálních sítí|data ze sociálních sítí]], [[transakce|transakční]] záznamy, [[senzory]] v [[zařízení|zařízeních]], [[video|videozáznamy]]. | ||
* '''Velocity (Rychlost):''' Data jsou generována a musí být zpracovávána s vysokou rychlostí. To se týká jak rychlosti, s jakou data vznikají (např. streamovaná data), tak rychlosti, s jakou je třeba je analyzovat pro rychlé rozhodování (např. online obchodování, detekce podvodů). | * '''Velocity (Rychlost):''' Data jsou generována a musí být zpracovávána s [[rychlost|vysokou rychlostí]]. To se týká jak rychlosti, s jakou data vznikají (např. [[streamovaná data|streamovaná data]]), tak rychlosti, s jakou je třeba je analyzovat pro [[rychlost|rychlé]] [[rozhodování]] (např. [[online obchodování]], [[detekce podvodů]]). | ||
* '''Variety (Rozmanitost):''' Data pocházejí z různých zdrojů a mají různé formáty – strukturovaná (databáze), semistrukturovaná (XML, JSON) i nestrukturovaná (textové dokumenty, obrázky, audio, video). Rozmanitost představuje výzvu pro jejich sjednocení a analýzu. | * '''Variety (Rozmanitost):''' Data pocházejí z různých [[zdroj|zdrojů]] a mají různé [[formát|formáty]] – [[strukturovaná data|strukturovaná]] ([[databáze]]), [[semistrukturovaná data|semistrukturovaná]] ([[XML]], [[JSON]]) i [[nestrukturovaná data|nestrukturovaná]] ([[textové dokumenty]], [[obrázek|obrázky]], [[audio]], [[video]]). Rozmanitost představuje [[výzva|výzvu]] pro jejich [[sjednocení]] a [[analýza|analýzu]]. | ||
* '''Veracity (Důvěryhodnost/Pravdivost):''' Odkazuje na kvalitu a spolehlivost dat. Velké objemy dat mohou obsahovat šum, | * '''Veracity (Důvěryhodnost/Pravdivost):''' Odkazuje na [[kvalita|kvalitu]] a [[spolehlivost dat|spolehlivost dat]]. Velké [[objem|objemy]] dat mohou obsahovat [[šum (elektronika)|šum]], [[nekonsistence|nekonsistence]] nebo [[chyba|chyby]], což ovlivňuje [[výsledek|výsledky]] [[analýza|analýz]]. Zajištění kvality dat je klíčové. | ||
* '''Value (Hodnota):''' Nejdůležitější aspekt – data samotná mají malou hodnotu, dokud nejsou analyzována a přeměněna na užitečné informace, které mohou vést k lepším rozhodnutím, novým poznatkům nebo konkurenční výhodě. | * '''Value (Hodnota):''' Nejdůležitější [[aspekt]] – [[data|data]] samotná mají malou [[hodnota|hodnotu]], dokud nejsou [[analyzovat|analyzována]] a přeměněna na [[užitečnost|užitečné]] [[informace]], které mohou vést k lepším [[rozhodování|rozhodnutím]], novým [[poznatek|poznatkům]] nebo [[konkurenční výhoda|konkurenční výhodě]]. | ||
== Zdroje Velkých dat == | == Zdroje Velkých dat == | ||
Velká data pocházejí z nepřeberného množství zdrojů: | Velká data pocházejí z nepřeberného [[množství]] [[zdroj|zdrojů]]: | ||
* '''Sociální média:''' Komentáře, lajky, sdílení, příspěvky (Twitter, Facebook, Instagram). | * '''[[Sociální média]]:''' [[Komentář|Komentáře]], [[Like (sociální sítě)|lajky]], [[sdílení]], [[příspěvek|příspěvky]] ([[Twitter]], [[Facebook]], [[Instagram]]). | ||
* '''Webová data:''' Kliknutí, vyhledávání, logy serverů, data z e-commerce. | * '''[[Webová data]]:''' [[kliknutí|Kliknutí]], [[vyhledávání]], [[logy serverů]], [[data]] z [[e-commerce]]. | ||
* '''Senzory a IoT:''' Data z chytrých zařízení, průmyslových senzorů, dopravních systémů, nositelné elektroniky. | * '''[[Senzor|Senzory]] a [[Internet věcí|IoT]]:''' [[Data]] z [[chytré zařízení|chytrých zařízení]], [[průmysl|průmyslových]] senzorů, [[dopravní systémy|dopravních systémů]], [[nositelná elektronika|nositelné elektroniky]]. | ||
* '''Transakční data:''' Záznamy o nákupech, bankovních transakcích, telekomunikační data. | * '''[[Transakční data]]:''' [[Záznam|Záznamy]] o [[nákupy|nákupech]], [[bankovnictví|bankovních]] [[transakce|transakcích]], [[telekomunikace|telekomunikační]] [[data]]. | ||
* '''Multimediální data:''' Obrázky, videa, audio soubory. | * '''[[Multimediální data]]:''' [[Obrázek|Obrázky]], [[video|videa]], [[audio soubory]]. | ||
* '''Vědecká data:''' Data z experimentů, simulací, výzkumu (např. genomika, astronomie). | * '''[[Vědecká data]]:''' [[Data]] z [[experiment (věda)|experimentů]], [[simulace|simulací]], [[výzkum|výzkumu]] (např. [[genomika]], [[astronomie]]). | ||
== Technologie a nástroje == | == Technologie a nástroje == | ||
Pro práci s velkými daty byly vyvinuty specifické technologie a nástroje, které překonávají omezení tradičních systémů: | Pro práci s velkými daty byly vyvinuty specifické [[Technologie|technologie]] a [[nástroj|nástroje]], které překonávají omezení [[tradiční systémy|tradičních systémů]]: | ||
* '''[[Hadoop]]:''' Open-source framework pro distribuované zpracování velkých datových sad napříč počítačovými clustery. | * '''[[Apache Hadoop|Hadoop]]:''' [[Open source|Open-source]] [[framework]] pro [[distribuované zpracování|distribuované zpracování]] velkých [[datová sada|datových sad]] napříč [[počítačový cluster|počítačovými clustery]]. | ||
* '''Spark:''' Rychlejší a flexibilnější alternativa k Hadupu pro zpracování dat v reálném čase. | * '''[[Apache Spark|Spark]]:''' Rychlejší a flexibilnější [[alternativa]] k [[Apache Hadoop|Hadupu]] pro [[zpracování dat v reálném čase|zpracování dat v reálném čase]]. | ||
* '''NoSQL databáze:''' Databáze navržené pro práci s nestrukturovanými a semistrukturovanými daty (např. MongoDB, Cassandra). | * '''[[NoSQL databáze]]:''' [[Databáze]] navržené pro práci s [[nestrukturovaná data|nestrukturovanými]] a [[semistrukturovaná data|semistrukturovanými daty]] (např. [[MongoDB]], [[Cassandra (databáze)|Cassandra]]). | ||
* '''Cloud computing:''' Poskytuje flexibilní a škálovatelnou infrastrukturu pro ukládání a zpracování velkých dat (např. AWS, Azure, Google Cloud). | * '''[[Cloud computing]]:''' Poskytuje flexibilní a [[škálovatelnost|škálovatelnou]] [[infrastruktura|infrastrukturu]] pro [[ukládání dat|ukládání]] a [[zpracování dat|zpracování]] velkých [[data|dat]] (např. [[Amazon Web Services|AWS]], [[Microsoft Azure|Azure]], [[Google Cloud Platform|Google Cloud]]). | ||
* '''Nástroje pro vizualizaci dat:''' Software pro převod komplexních dat na srozumitelné grafy a vizualizace (např. Tableau, Power BI). | * '''[[Nástroje pro vizualizaci dat]]:''' [[Software]] pro [[převod]] komplexních [[data|dat]] na [[srozumitelnost|srozumitelné]] [[grafy]] a [[vizualizace|vizualizace]] (např. [[Tableau Software|Tableau]], [[Microsoft Power BI|Power BI]]). | ||
* '''Nástroje pro strojové učení | * '''[[Nástroje pro strojové učení]]:''' Pro pokročilou [[analýza|analýzu]] a [[prediktivní modelování]]. | ||
== Využití a aplikace == | == Využití a aplikace == | ||
Velká data nacházejí uplatnění v široké škále odvětví: | Velká data nacházejí [[uplatnění]] v široké škále [[odvětví]]: | ||
* '''Byznys a | * '''[[Byznys]] a [[Marketing]]:''' [[Personalizované doporučení]], [[segmentace zákazníků]], [[optimalizace cen]], [[predikce trendů]], [[detekce podvodů]]. | ||
* '''Zdravotnictví:''' Personalizovaná medicína, výzkum nemocí, optimalizace léčby, monitorování epidemií. | * '''[[Zdravotnictví]]:''' [[Personalizovaná medicína]], [[výzkum]] [[nemoc|nemocí]], [[optimalizace léčby]], [[monitorování epidemií]]. | ||
* '''Doprava:''' Optimalizace provozu, chytrá města, predikce údržby vozidel. | * '''[[Doprava]]:''' [[Optimalizace provozu]], [[chytré město|chytrá města]], [[predikce údržby]] [[vozidlo|vozidel]]. | ||
* '''Finance:''' Řízení rizik, detekce finančních podvodů, algoritmické obchodování. | * '''[[Finance]]:''' [[Řízení rizik]], [[detekce finančních podvodů]], [[algoritmické obchodování]]. | ||
* '''Věda a výzkum:''' Zpracování obrovských datových souborů v astronomii, fyzice, biologii. | * '''[[Věda a výzkum]]:''' [[Zpracování]] obrovských [[datová sada|datových souborů]] v [[astronomie|astronomii]], [[fyzika|fyzice]], [[biologie|biologii]]. | ||
* '''Veřejný sektor:''' Zlepšení veřejných služeb, plánování měst, sledování kriminality. | * '''[[Veřejný sektor]]:''' [[Zlepšení]] [[veřejné služby|veřejných služeb]], [[plánování měst]], [[sledování kriminality]]. | ||
== Výzvy a etika == | == Výzvy a etika == | ||
Práce s velkými daty přináší i významné výzvy: | Práce s velkými daty přináší i významné [[výzva|výzvy]]: | ||
* '''Ochrana soukromí:''' Sbírání a analýza obrovského množství osobních dat vyvolává obavy o soukromí a zneužití. | * '''[[Ochrana soukromí]]:''' [[Sbírání]] a [[analýza]] obrovského [[množství]] [[osobní data|osobních dat]] vyvolává [[obava|obavy]] o [[soukromí]] a [[zneužití]]. | ||
* '''Zabezpečení dat:''' Objem a rozmanitost dat zvyšuje riziko kybernetických útoků. | * '''[[Zabezpečení dat]]:''' [[Objem]] a [[rozmanitost]] [[data|dat]] zvyšuje [[riziko]] [[kybernetický útok|kybernetických útoků]]. | ||
* '''Kvalita dat:''' Zajištění správnosti, konzistence a | * '''[[Kvalita dat]]:''' Zajištění [[správnost|správnosti]], [[konzistence]] a [[relevance]] [[data|dat]] je náročné. | ||
* '''Nedostatek | * '''[[Nedostatek kvalifikovaných pracovníků]]:''' Poptávka po [[datový vědec|datových vědcích]], [[analytik|analyticích]] a [[inženýr|inženýrech]] přesahuje [[nabídka]]. | ||
* '''Etické otázky:''' Diskriminace na základě algoritmů, transparentnost rozhodování AI. | * '''[[Etika umělé inteligence|Etické otázky]]:''' [[Diskriminace]] na základě [[algoritmus|algoritmů]], [[transparentnost]] [[rozhodování]] [[umělá inteligence|AI]]. | ||
Velká data transformovala způsob, jakým firmy a organizace fungují a rozhodují se, a nadále představují klíčovou oblast inovací a | Velká data transformovala [[způsob]], jakým [[firma|firmy]] a [[organizace]] [[fungování|fungují]] a [[rozhodování|rozhodují se]], a nadále představují klíčovou [[oblast]] [[inovace|inovací]] a [[růst]]. | ||
== Externí odkazy == | == Externí odkazy == | ||
| Řádek 71: | Řádek 71: | ||
[[Kategorie:Nové technologie]] | [[Kategorie:Nové technologie]] | ||
[[Kategorie:Digitální ekonomika]] | [[Kategorie:Digitální ekonomika]] | ||
[[Kategorie:Data]] | |||
[[Kategorie:Analytika]] | |||
Aktuální verze z 27. 5. 2025, 15:57
Obsah boxu
Velká data (anglicky Big Data) je souhrnný termín používaný k popisu mimořádně rozsáhlých a složitých souborů dat, které tradiční databázové nástroje a softwary nedokážou efektivně sbírat, ukládat, zpracovávat, analyzovat a vizualizovat v přijatelném čas. Fenomén velkých dat vznikl s prudkým nárůstem digitálních informací generovaných z různých zdrojů.
Charakteristika Velkých dat (3V/5V)
Charakteristika velkých dat je často popisována pomocí "3V", rozšířených na "5V":
- Volume (Objem): Jedná se o obrovské množství dat, které je generováno každou vteřinou. To zahrnuje terabyty, petabyty nebo i exabyty dat. Příklady zahrnují data ze sociálních sítí, transakční záznamy, senzory v zařízeních, videozáznamy.
- Velocity (Rychlost): Data jsou generována a musí být zpracovávána s vysokou rychlostí. To se týká jak rychlosti, s jakou data vznikají (např. streamovaná data), tak rychlosti, s jakou je třeba je analyzovat pro rychlé rozhodování (např. online obchodování, detekce podvodů).
- Variety (Rozmanitost): Data pocházejí z různých zdrojů a mají různé formáty – strukturovaná (databáze), semistrukturovaná (XML, JSON) i nestrukturovaná (textové dokumenty, obrázky, audio, video). Rozmanitost představuje výzvu pro jejich sjednocení a analýzu.
- Veracity (Důvěryhodnost/Pravdivost): Odkazuje na kvalitu a spolehlivost dat. Velké objemy dat mohou obsahovat šum, nekonsistence nebo chyby, což ovlivňuje výsledky analýz. Zajištění kvality dat je klíčové.
- Value (Hodnota): Nejdůležitější aspekt – data samotná mají malou hodnotu, dokud nejsou analyzována a přeměněna na užitečné informace, které mohou vést k lepším rozhodnutím, novým poznatkům nebo konkurenční výhodě.
Zdroje Velkých dat
Velká data pocházejí z nepřeberného množství zdrojů:
- Sociální média: Komentáře, lajky, sdílení, příspěvky (Twitter, Facebook, Instagram).
- Webová data: Kliknutí, vyhledávání, logy serverů, data z e-commerce.
- Senzory a IoT: Data z chytrých zařízení, průmyslových senzorů, dopravních systémů, nositelné elektroniky.
- Transakční data: Záznamy o nákupech, bankovních transakcích, telekomunikační data.
- Multimediální data: Obrázky, videa, audio soubory.
- Vědecká data: Data z experimentů, simulací, výzkumu (např. genomika, astronomie).
Technologie a nástroje
Pro práci s velkými daty byly vyvinuty specifické technologie a nástroje, které překonávají omezení tradičních systémů:
- Hadoop: Open-source framework pro distribuované zpracování velkých datových sad napříč počítačovými clustery.
- Spark: Rychlejší a flexibilnější alternativa k Hadupu pro zpracování dat v reálném čase.
- NoSQL databáze: Databáze navržené pro práci s nestrukturovanými a semistrukturovanými daty (např. MongoDB, Cassandra).
- Cloud computing: Poskytuje flexibilní a škálovatelnou infrastrukturu pro ukládání a zpracování velkých dat (např. AWS, Azure, Google Cloud).
- Nástroje pro vizualizaci dat: Software pro převod komplexních dat na srozumitelné grafy a vizualizace (např. Tableau, Power BI).
- Nástroje pro strojové učení: Pro pokročilou analýzu a prediktivní modelování.
Využití a aplikace
Velká data nacházejí uplatnění v široké škále odvětví:
- Byznys a Marketing: Personalizované doporučení, segmentace zákazníků, optimalizace cen, predikce trendů, detekce podvodů.
- Zdravotnictví: Personalizovaná medicína, výzkum nemocí, optimalizace léčby, monitorování epidemií.
- Doprava: Optimalizace provozu, chytrá města, predikce údržby vozidel.
- Finance: Řízení rizik, detekce finančních podvodů, algoritmické obchodování.
- Věda a výzkum: Zpracování obrovských datových souborů v astronomii, fyzice, biologii.
- Veřejný sektor: Zlepšení veřejných služeb, plánování měst, sledování kriminality.
Výzvy a etika
Práce s velkými daty přináší i významné výzvy:
- Ochrana soukromí: Sbírání a analýza obrovského množství osobních dat vyvolává obavy o soukromí a zneužití.
- Zabezpečení dat: Objem a rozmanitost dat zvyšuje riziko kybernetických útoků.
- Kvalita dat: Zajištění správnosti, konzistence a relevance dat je náročné.
- Nedostatek kvalifikovaných pracovníků: Poptávka po datových vědcích, analyticích a inženýrech přesahuje nabídka.
- Etické otázky: Diskriminace na základě algoritmů, transparentnost rozhodování AI.
Velká data transformovala způsob, jakým firmy a organizace fungují a rozhodují se, a nadále představují klíčovou oblast inovací a růst.