Big data
Obsah boxu
Big data (množné číslo, česky též velká data) je termín označující extrémně velké a složité datové soubory, jejichž analýza a zpracování jsou nad rámec možností tradičních databázových a softwarových nástrojů. Nejde jen o samotné množství dat, ale také o rychlost, jakou jsou generována, a o jejich rozmanitost. Cílem analýzy Big data je odhalit skryté vzorce, neznámé korelace, tržní trendy a další užitečné informace, které mohou vést k lepším obchodním rozhodnutím, vědeckým objevům a optimalizaci procesů.
| Big data | |
|---|---|
| Soubor:Big Data visualization.png | |
| Vizualizace datových toků, typický příklad komplexity Big data | |
| Typ | Zpracování a analýza velkých datových souborů |
📝 Definice a charakteristika (Pět V)
Big data jsou nejčastěji definována pomocí několika charakteristik, které se označují jako "V". Původně byly tři, ale postupně se model rozšířil na pět klíčových vlastností[1].
1. Volume (Objem): Jedná se o nejzřejmější charakteristiku – obrovské množství dat. Zatímco v minulosti se jednalo o gigabajty a terabajty, dnes se běžně pracuje s petabajty, exabajty a zettabajty dat. Například sociální sítě, vědecké experimenty (např. v CERNu) nebo senzory v Internetu věcí (IoT) generují nepředstavitelné objemy dat každý den. 2. Velocity (Rychlost): Popisuje rychlost, s jakou jsou nová data generována a s jakou se musí zpracovávat. V mnoha případech je potřeba analyzovat data v reálném čase (nebo téměř v reálném čase), aby měla smysl. Příkladem jsou data z finančních trhů, monitorování dopravy nebo streamované příspěvky na sociálních sítích. 3. Variety (Rozmanitost): Data přicházejí v mnoha různých formátech. Dělí se na tři hlavní typy:
* Strukturovaná data: Mají pevně daný formát a jsou snadno organizovatelná v tabulkách, typicky v relačních databázích (např. data o bankovních transakcích). * Nestrukturovaná data: Nemají žádnou předdefinovanou strukturu. Tvoří většinu Big data. Patří sem texty (e-maily, dokumenty, příspěvky na sociálních sítích), obrázky, audio a video záznamy[2]. * Semistrukturovaná data: Jsou jakýmsi mezistupněm, nemají pevnou tabulkovou strukturu, ale obsahují tagy a značky, které oddělují sémantické prvky (např. data ve formátu XML nebo JSON).
K těmto třem základním "V" se často přidávají další dvě: 4. Veracity (Věrohodnost): Týká se kvality a spolehlivosti dat. Data mohou být neúplná, nepřesná, nekonzistentní nebo zastaralá. Zajištění věrohodnosti je jednou z největších výzev, protože rozhodnutí založená na špatných datech mohou být chybná a škodlivá. 5. Value (Hodnota): Samotná data nemají žádnou hodnotu, dokud nejsou analyzována a přeměněna na užitečnou informaci. Cílem je z obrovského objemu dat "vytěžit" hodnotné poznatky, které lze využít k inovacím, optimalizaci nebo strategickému rozhodování.
⏳ Historický kontext a vznik
Pojem Big data se začal objevovat na začátku 21. století, ale problém zpracování velkých objemů dat je mnohem starší. Exploze dat začala s nástupem digitálního věku a byla poháněna několika klíčovými faktory:
- Rozvoj internetu a World Wide Webu: Na počátku 90. let začaly firmy jako Google a Yahoo čelit problému, jak indexovat a prohledávat obrovské a neustále rostoucí množství webových stránek.
- Sociální média a mobilní zařízení: Nástup platforem jako Facebook, Twitter a YouTube v první dekádě 21. století vedl k exponenciálnímu nárůstu uživatelsky generovaných dat (texty, fotky, videa).
- Internet věcí (IoT): V posledních letech se hlavním zdrojem dat stávají miliardy propojených zařízení – od chytrých hodinek a telefonů přes senzory v automobilech a průmyslových strojích až po chytré domácnosti.
Tradiční relační databázové systémy (založené na jazyce SQL) byly navrženy pro zpracování strukturovaných dat na jednom výkonném serveru. S nástupem Big data se však tento centralizovaný přístup ukázal jako neudržitelný – žádný jednotlivý počítač nedokázal uložit a zpracovat tak obrovské a rozmanité datové soubory dostatečně rychle. Bylo nutné vyvinout nový přístup založený na distribuovaných výpočtech, tedy rozdělení úlohy mezi desítky, stovky nebo i tisíce levnějších, běžných počítačů (komoditní hardware) pracujících paralelně[3]. Průkopníkem v této oblasti byl Google, který na začátku 21. století vyvinul pro vlastní potřebu technologie MapReduce a Google File System, jež se staly inspirací pro open-source projekty, které dnes tvoří jádro ekosystému Big data[4].
🛠️ Technologie a architektura
Zpracování Big data vyžaduje specializované technologie, které jsou navrženy pro práci v distribuovaném prostředí.
Ekosystém Apache Hadoop
Apache Hadoop je open-source softwarový framework, který se stal de facto standardem pro ukládání a dávkové zpracování Big data. Je inspirován technologiemi Googlu a skládá se ze dvou klíčových komponent[5]: 1. Hadoop Distributed File System (HDFS): Je to distribuovaný souborový systém navržený pro ukládání obrovských souborů (terabajty a více) napříč velkým počtem běžných serverů. Data jsou automaticky rozdělena do menších bloků a replikována na více strojů, což zajišťuje vysokou dostupnost a odolnost proti selhání jednotlivých serverů. 2. MapReduce: Je to programovací model a zpracovávací engine pro paralelní zpracování dat uložených v HDFS. Funguje ve dvou fázích:
* Fáze Map: Hlavní úloha je rozdělena na mnoho menších podúloh, které jsou paralelně zpracovány na jednotlivých uzlech clusteru (tam, kde leží data). * Fáze Reduce: Výsledky z fáze Map jsou shromážděny, agregovány a je z nich vytvořen finální výsledek.
Kolem těchto dvou základních pilířů se vyvinul rozsáhlý ekosystém dalších nástrojů, jako jsou Hive (pro SQL-like dotazování), Pig (pro skriptování datových toků) nebo HBase (NoSQL databáze).
Apache Spark
Apache Spark je modernější a rychlejší alternativa k MapReduce. Zatímco MapReduce zapisuje mezivýsledky na disk, Spark provádí většinu výpočtů v operační paměti (in-memory), což ho činí až 100krát rychlejším[6]. Díky své rychlosti a flexibilitě je vhodný nejen pro dávkové zpracování, ale i pro interaktivní analýzu, strojové učení a zpracování dat v reálném čase (streaming).
NoSQL Databáze
Tradiční relační databáze (SQL) jsou pro mnoho typů Big data příliš rigidní a špatně škalovatelné. Proto vznikly NoSQL ("Not Only SQL") databáze, které jsou navrženy pro flexibilitu, škálovatelnost a práci s nestrukturovanými daty. Existuje několik typů[7]:
- Dokumentové databáze (např. MongoDB): Ukládají data ve flexibilních, semistrukturovaných dokumentech (např. JSON).
- Klíč-hodnota databáze (např. Redis): Nejjednodušší typ, ukládá data jako páry klíčů a hodnot.
- Sloupcové databáze (např. Apache Cassandra): Optimalizované pro rychlé čtení a zápis velkých objemů dat.
- Grafové databáze (např. Neo4j): Specializované na ukládání a analýzu vztahů mezi daty, ideální pro sociální sítě nebo doporučovací systémy.
🔄 Životní cyklus Big data
Práce s Big data je komplexní proces, který lze rozdělit do několika fází:
1. Sběr dat (Ingestion): Data jsou shromažďována z různých zdrojů – webových stránek, sociálních médií, senzorů, logů aplikací atd. 2. Uložení (Storage): Obrovské objemy dat jsou uloženy v distribuovaném souborovém systému, jako je HDFS, nebo v cloudových úložištích (např. Amazon S3). 3. Zpracování a čištění (Processing & Cleaning): Surová data jsou často neúplná, nekonzistentní a plná chyb. V této fázi jsou data transformována, čištěna a připravována pro analýzu. Tento proces, často označovaný jako ETL, je jedním z časově nejnáročnějších. 4. Analýza (Analysis): Jádro celého procesu. Na připravená data jsou aplikovány různé analytické metody – od jednoduchých statistických dotazů přes datamining až po složité algoritmy strojového učení a umělé inteligence – s cílem odhalit vzorce a trendy. 5. Vizualizace a interpretace (Visualization & Interpretation): Výsledky analýzy jsou prezentovány v srozumitelné formě, nejčastěji pomocí grafů, dashboardů a reportů, aby jim mohli porozumět i netechničtí uživatelé a mohli na jejich základě činit rozhodnutí.
🏢 Příklady aplikací
Big data transformují téměř každé odvětví.
- Obchod a marketing: Firmy analyzují nákupní chování zákazníků, aby jim mohly nabízet personalizované produkty a reklamu (doporučovací systémy Amazonu, Netflixu). Sledují trendy na sociálních sítích a optimalizují své marketingové kampaně.
- Zdravotnictví: Analýza velkých souborů dat o pacientech, genomických dat a klinických studií pomáhá v personalizované medicíně, predikci šíření nemocí a vývoji nových léků. Chytré hodinky a nositelná elektronika sbírají v reálném čase data o zdravotním stavu uživatelů.
- Finance: Banky a finanční instituce využívají Big data k detekci podvodných transakcí, hodnocení úvěrového rizika a algoritmickému obchodování na burze.
- Doprava a logistika: Analýza dopravních dat v reálném čase umožňuje optimalizovat trasy (např. Google Maps, Waze), řídit dopravní systémy a předcházet zácpám. Logistické firmy jako UPS nebo FedEx optimalizují své doručovací trasy, čímž šetří palivo a čas.
- Věda: Vědecké obory jako astronomie (analýza dat z teleskopů), fyzika částic (zpracování dat ze srážek v urychlovačích) nebo genomika by bez schopnosti zpracovávat masivní datové soubory nemohly existovat.
- Média a zábava: Streamovací služby analyzují sledovanost a chování uživatelů, aby rozhodly, do jakých filmů a seriálů investovat.
⚖️ Výzvy, kritika a etika
Navzdory obrovskému potenciálu přináší éra Big data i řadu závažných výzev a etických problémů.
Soukromí a ochrana dat
Shromažďování obrovského množství osobních údajů vyvolává vážné obavy o soukromí. Data o našem chování na internetu, poloze, nákupních zvyklostech nebo zdravotním stavu mohou být zneužita k manipulaci, diskriminaci nebo sledování. V reakci na tyto hrozby vznikají nové legislativní rámce, jako je Obecné nařízení o ochraně osobních údajů (GDPR) v Evropské unii, které dává jednotlivcům větší kontrolu nad jejich osobními údaji[8].
Bezpečnost
Centralizace obrovského množství citlivých dat na jednom místě (byť distribuovaném) z nich činí atraktivní cíl pro kybernetické útoky. Masivní úniky dat (data breaches) mohou mít katastrofální následky pro miliony lidí. Zabezpečení Big data infrastruktury je proto klíčovou a neustálou výzvou.
Algoritmická zaujatost (Bias) a diskriminace
Algoritmy strojového učení se učí z dat, která jim poskytneme. Pokud tato trénovací data odrážejí existující společenské předsudky (např. rasové nebo genderové), algoritmus se je naučí a může je dokonce i zesílit[9]. To může vést k diskriminaci v oblastech, jako je schvalování úvěrů, nábor zaměstnanců nebo policejní práce, kde "objektivní" rozhodnutí stroje ve skutečnosti jen replikuje lidské předsudky.
Nedostatek odborníků a složitost
Práce s Big data vyžaduje vysoce specializované dovednosti v oblasti informatiky, statistiky a strojového učení. Poptávka po odbornících, jako jsou datoví vědci a datoví inženýři, výrazně převyšuje nabídku, což představuje pro mnoho firem překážku v adopci těchto technologií[10]. Implementace a správa Big data systémů je navíc technicky velmi náročná a nákladná.
🔮 Budoucnost Big data
Oblast Big data se neustále vyvíjí a směřuje k několika klíčovým trendům:
- Integrace s umělou inteligencí: AI a strojové učení se stávají nepostradatelnými pro automatickou analýzu a získávání hodnoty z dat. Budoucí systémy budou schopny nejen analyzovat, co se stalo, ale i předpovídat budoucí trendy a automaticky na ně reagovat.
- Edge Computing: Místo posílání všech dat ze senzorů a zařízení do centrálního cloudu se stále více výpočtů bude odehrávat na "okraji" sítě (edge), tedy přímo v zařízeních. To snižuje latenci a je klíčové pro aplikace vyžadující okamžitou reakci, jako jsou autonomní vozidla[11].
- Explainable AI (XAI): S rostoucím nasazením komplexních AI modelů ("černých skříněk") roste potřeba, aby jejich rozhodnutí byla transparentní a srozumitelná pro člověka. XAI (vysvětlitelná umělá inteligence) se snaží vyvinout metody, jak fungování těchto modelů vysvětlit, což je zásadní pro jejich důvěryhodnost a odpovědnost[12].
- Data as a Service (DaaS): Trh s daty roste. Firmy budou stále více obchodovat s anonymizovanými datovými soubory, které mohou jiné organizace využít pro své analýzy.
💡 Pro laiky
Těžení zlata z hromady písku
Představte si, že máte obrovskou, nekonečnou hromadu písku, která se každou sekundu ještě zvětšuje. V tomto písku jsou ukryty mikroskopické částečky zlata, ale také spousta bezcenných kamínků a odpadu.
- Hromada písku = Big data: Je obrovská (Volume), neustále roste (Velocity) a skládá se z různých věcí – písku, kamínků, hlíny (Variety). Navíc nevíte, která část je čistá a která znečištěná (Veracity).
- Tradiční lopata = Staré databáze: S obyčejnou lopatou a kyblíkem nemáte šanci takovou hromadu prohrabat a zlato najít. Je to příliš pomalé a neefektivní.
- Obří automatizovaný důl = Big data technologie: Místo lopaty postavíte obrovský automatizovaný důlní systém (jako Hadoop a Spark). Má tisíce malých robotických ramen, která pracují najednou. Každé rameno prohrabává svou malou část hromady, odděluje písek od kamínků a hledá cokoli, co se třpytí.
- Nalezené zlato = Hodnota (Value): Roboti sami o sobě zlato nevytvářejí, ale dokážou ho neuvěřitelně rychle najít. Těmito zlatými nugety jsou užitečné informace: například odhalení, že zákazníci, kteří kupují produkt A, si s 80% pravděpodobností koupí i produkt B, nebo zjištění, že určitá kombinace příznaků u pacientů spolehlivě předpovídá nástup nemoci.
Cílem Big data tedy není jen sbírat "písek", ale mít technologii, která z něj dokáže včas vytěžit cenné "zlato" – tedy poznatky, které by jinak zůstaly navždy skryté.
Reference
- ↑ https://www.ibm.com/topics/big-data
- ↑ https://www.techtarget.com/searchdatamanagement/definition/unstructured-data
- ↑ https://cs.wikipedia.org/wiki/Distribuovan%C3%BD_syst%C3%A9m
- ↑ https://www.mongodb.com/big-data-explained/history-of-big-data
- ↑ https://hadoop.apache.org/
- ↑ https://spark.apache.org/
- ↑ https://www.mongodb.com/nosql-explained
- ↑ https://gdpr.eu/
- ↑ https://www.technologyreview.com/2019/02/04/137602/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/
- ↑ https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-data-scientist-shortage-and-how-to-fix-it
- ↑ https://www.ibm.com/cloud/what-is-edge-computing
- ↑ https://www.ibm.com/watson/what-is-explainable-ai