Big data: Porovnání verzí

Big data
	Soubor:Big Data visualization.png
	Vizualizace datových toků, typický příklad komplexity Big data
Typ	Zpracování a analýza velkých datových souborů

VizuálníWikitext

Aktuální verze z 7. 10. 2025, 01:33

Rozbalit box

Obsah boxu

Big data (množné číslo, česky též velká data) je termín označující extrémně velké a složité datové soubory, jejichž analýza a zpracování jsou nad rámec možností tradičních databázových a softwarových nástrojů. Nejde jen o samotné množství dat, ale také o rychlost, jakou jsou generována, a o jejich rozmanitost. Cílem analýzy Big data je odhalit skryté vzorce, neznámé korelace, tržní trendy a další užitečné informace, které mohou vést k lepším obchodním rozhodnutím, vědeckým objevům a optimalizaci procesů.

📝 Definice a charakteristika (Pět V)

Big data jsou nejčastěji definována pomocí několika charakteristik, které se označují jako "V". Původně byly tři, ale postupně se model rozšířil na pět klíčových vlastností^[1].

1. Volume (Objem): Jedná se o nejzřejmější charakteristiku – obrovské množství dat. Zatímco v minulosti se jednalo o gigabajty a terabajty, dnes se běžně pracuje s petabajty, exabajty a zettabajty dat. Například sociální sítě, vědecké experimenty (např. v CERNu) nebo senzory v Internetu věcí (IoT) generují nepředstavitelné objemy dat každý den. 2. Velocity (Rychlost): Popisuje rychlost, s jakou jsou nová data generována a s jakou se musí zpracovávat. V mnoha případech je potřeba analyzovat data v reálném čase (nebo téměř v reálném čase), aby měla smysl. Příkladem jsou data z finančních trhů, monitorování dopravy nebo streamované příspěvky na sociálních sítích. 3. Variety (Rozmanitost): Data přicházejí v mnoha různých formátech. Dělí se na tři hlavní typy:

   *   Strukturovaná data: Mají pevně daný formát a jsou snadno organizovatelná v tabulkách, typicky v relačních databázích (např. data o bankovních transakcích).
   *   Nestrukturovaná data: Nemají žádnou předdefinovanou strukturu. Tvoří většinu Big data. Patří sem texty (e-maily, dokumenty, příspěvky na sociálních sítích), obrázky, audio a video záznamy^[2].
   *   Semistrukturovaná data: Jsou jakýmsi mezistupněm, nemají pevnou tabulkovou strukturu, ale obsahují tagy a značky, které oddělují sémantické prvky (např. data ve formátu XML nebo JSON).

K těmto třem základním "V" se často přidávají další dvě: 4. Veracity (Věrohodnost): Týká se kvality a spolehlivosti dat. Data mohou být neúplná, nepřesná, nekonzistentní nebo zastaralá. Zajištění věrohodnosti je jednou z největších výzev, protože rozhodnutí založená na špatných datech mohou být chybná a škodlivá. 5. Value (Hodnota): Samotná data nemají žádnou hodnotu, dokud nejsou analyzována a přeměněna na užitečnou informaci. Cílem je z obrovského objemu dat "vytěžit" hodnotné poznatky, které lze využít k inovacím, optimalizaci nebo strategickému rozhodování.

⏳ Historický kontext a vznik

Pojem Big data se začal objevovat na začátku 21. století, ale problém zpracování velkých objemů dat je mnohem starší. Exploze dat začala s nástupem digitálního věku a byla poháněna několika klíčovými faktory:

Rozvoj internetu a World Wide Webu: Na počátku 90. let začaly firmy jako Google a Yahoo čelit problému, jak indexovat a prohledávat obrovské a neustále rostoucí množství webových stránek.
Sociální média a mobilní zařízení: Nástup platforem jako Facebook, Twitter a YouTube v první dekádě 21. století vedl k exponenciálnímu nárůstu uživatelsky generovaných dat (texty, fotky, videa).
Internet věcí (IoT): V posledních letech se hlavním zdrojem dat stávají miliardy propojených zařízení – od chytrých hodinek a telefonů přes senzory v automobilech a průmyslových strojích až po chytré domácnosti.

Tradiční relační databázové systémy (založené na jazyce SQL) byly navrženy pro zpracování strukturovaných dat na jednom výkonném serveru. S nástupem Big data se však tento centralizovaný přístup ukázal jako neudržitelný – žádný jednotlivý počítač nedokázal uložit a zpracovat tak obrovské a rozmanité datové soubory dostatečně rychle. Bylo nutné vyvinout nový přístup založený na distribuovaných výpočtech, tedy rozdělení úlohy mezi desítky, stovky nebo i tisíce levnějších, běžných počítačů (komoditní hardware) pracujících paralelně^[3]. Průkopníkem v této oblasti byl Google, který na začátku 21. století vyvinul pro vlastní potřebu technologie MapReduce a Google File System, jež se staly inspirací pro open-source projekty, které dnes tvoří jádro ekosystému Big data^[4].

🛠️ Technologie a architektura

Zpracování Big data vyžaduje specializované technologie, které jsou navrženy pro práci v distribuovaném prostředí.

Ekosystém Apache Hadoop

Apache Hadoop je open-source softwarový framework, který se stal de facto standardem pro ukládání a dávkové zpracování Big data. Je inspirován technologiemi Googlu a skládá se ze dvou klíčových komponent^[5]: 1. Hadoop Distributed File System (HDFS): Je to distribuovaný souborový systém navržený pro ukládání obrovských souborů (terabajty a více) napříč velkým počtem běžných serverů. Data jsou automaticky rozdělena do menších bloků a replikována na více strojů, což zajišťuje vysokou dostupnost a odolnost proti selhání jednotlivých serverů. 2. MapReduce: Je to programovací model a zpracovávací engine pro paralelní zpracování dat uložených v HDFS. Funguje ve dvou fázích:

   *   Fáze Map: Hlavní úloha je rozdělena na mnoho menších podúloh, které jsou paralelně zpracovány na jednotlivých uzlech clusteru (tam, kde leží data).
   *   Fáze Reduce: Výsledky z fáze Map jsou shromážděny, agregovány a je z nich vytvořen finální výsledek.

Kolem těchto dvou základních pilířů se vyvinul rozsáhlý ekosystém dalších nástrojů, jako jsou Hive (pro SQL-like dotazování), Pig (pro skriptování datových toků) nebo HBase (NoSQL databáze).

Apache Spark

Apache Spark je modernější a rychlejší alternativa k MapReduce. Zatímco MapReduce zapisuje mezivýsledky na disk, Spark provádí většinu výpočtů v operační paměti (in-memory), což ho činí až 100krát rychlejším^[6]. Díky své rychlosti a flexibilitě je vhodný nejen pro dávkové zpracování, ale i pro interaktivní analýzu, strojové učení a zpracování dat v reálném čase (streaming).

NoSQL Databáze

Tradiční relační databáze (SQL) jsou pro mnoho typů Big data příliš rigidní a špatně škalovatelné. Proto vznikly NoSQL ("Not Only SQL") databáze, které jsou navrženy pro flexibilitu, škálovatelnost a práci s nestrukturovanými daty. Existuje několik typů^[7]:

Dokumentové databáze (např. MongoDB): Ukládají data ve flexibilních, semistrukturovaných dokumentech (např. JSON).
Klíč-hodnota databáze (např. Redis): Nejjednodušší typ, ukládá data jako páry klíčů a hodnot.
Sloupcové databáze (např. Apache Cassandra): Optimalizované pro rychlé čtení a zápis velkých objemů dat.
Grafové databáze (např. Neo4j): Specializované na ukládání a analýzu vztahů mezi daty, ideální pro sociální sítě nebo doporučovací systémy.

🔄 Životní cyklus Big data

Práce s Big data je komplexní proces, který lze rozdělit do několika fází:

1. Sběr dat (Ingestion): Data jsou shromažďována z různých zdrojů – webových stránek, sociálních médií, senzorů, logů aplikací atd. 2. Uložení (Storage): Obrovské objemy dat jsou uloženy v distribuovaném souborovém systému, jako je HDFS, nebo v cloudových úložištích (např. Amazon S3). 3. Zpracování a čištění (Processing & Cleaning): Surová data jsou často neúplná, nekonzistentní a plná chyb. V této fázi jsou data transformována, čištěna a připravována pro analýzu. Tento proces, často označovaný jako ETL, je jedním z časově nejnáročnějších. 4. Analýza (Analysis): Jádro celého procesu. Na připravená data jsou aplikovány různé analytické metody – od jednoduchých statistických dotazů přes datamining až po složité algoritmy strojového učení a umělé inteligence – s cílem odhalit vzorce a trendy. 5. Vizualizace a interpretace (Visualization & Interpretation): Výsledky analýzy jsou prezentovány v srozumitelné formě, nejčastěji pomocí grafů, dashboardů a reportů, aby jim mohli porozumět i netechničtí uživatelé a mohli na jejich základě činit rozhodnutí.

🏢 Příklady aplikací

Big data transformují téměř každé odvětví.

Obchod a marketing: Firmy analyzují nákupní chování zákazníků, aby jim mohly nabízet personalizované produkty a reklamu (doporučovací systémy Amazonu, Netflixu). Sledují trendy na sociálních sítích a optimalizují své marketingové kampaně.
Zdravotnictví: Analýza velkých souborů dat o pacientech, genomických dat a klinických studií pomáhá v personalizované medicíně, predikci šíření nemocí a vývoji nových léků. Chytré hodinky a nositelná elektronika sbírají v reálném čase data o zdravotním stavu uživatelů.
Finance: Banky a finanční instituce využívají Big data k detekci podvodných transakcí, hodnocení úvěrového rizika a algoritmickému obchodování na burze.
Doprava a logistika: Analýza dopravních dat v reálném čase umožňuje optimalizovat trasy (např. Google Maps, Waze), řídit dopravní systémy a předcházet zácpám. Logistické firmy jako UPS nebo FedEx optimalizují své doručovací trasy, čímž šetří palivo a čas.
Věda: Vědecké obory jako astronomie (analýza dat z teleskopů), fyzika částic (zpracování dat ze srážek v urychlovačích) nebo genomika by bez schopnosti zpracovávat masivní datové soubory nemohly existovat.
Média a zábava: Streamovací služby analyzují sledovanost a chování uživatelů, aby rozhodly, do jakých filmů a seriálů investovat.

⚖️ Výzvy, kritika a etika

Navzdory obrovskému potenciálu přináší éra Big data i řadu závažných výzev a etických problémů.

Soukromí a ochrana dat

Shromažďování obrovského množství osobních údajů vyvolává vážné obavy o soukromí. Data o našem chování na internetu, poloze, nákupních zvyklostech nebo zdravotním stavu mohou být zneužita k manipulaci, diskriminaci nebo sledování. V reakci na tyto hrozby vznikají nové legislativní rámce, jako je Obecné nařízení o ochraně osobních údajů (GDPR) v Evropské unii, které dává jednotlivcům větší kontrolu nad jejich osobními údaji^[8].

Bezpečnost

Centralizace obrovského množství citlivých dat na jednom místě (byť distribuovaném) z nich činí atraktivní cíl pro kybernetické útoky. Masivní úniky dat (data breaches) mohou mít katastrofální následky pro miliony lidí. Zabezpečení Big data infrastruktury je proto klíčovou a neustálou výzvou.

Algoritmická zaujatost (Bias) a diskriminace

Algoritmy strojového učení se učí z dat, která jim poskytneme. Pokud tato trénovací data odrážejí existující společenské předsudky (např. rasové nebo genderové), algoritmus se je naučí a může je dokonce i zesílit^[9]. To může vést k diskriminaci v oblastech, jako je schvalování úvěrů, nábor zaměstnanců nebo policejní práce, kde "objektivní" rozhodnutí stroje ve skutečnosti jen replikuje lidské předsudky.

Nedostatek odborníků a složitost

Práce s Big data vyžaduje vysoce specializované dovednosti v oblasti informatiky, statistiky a strojového učení. Poptávka po odbornících, jako jsou datoví vědci a datoví inženýři, výrazně převyšuje nabídku, což představuje pro mnoho firem překážku v adopci těchto technologií^[10]. Implementace a správa Big data systémů je navíc technicky velmi náročná a nákladná.

🔮 Budoucnost Big data

Oblast Big data se neustále vyvíjí a směřuje k několika klíčovým trendům:

Integrace s umělou inteligencí: AI a strojové učení se stávají nepostradatelnými pro automatickou analýzu a získávání hodnoty z dat. Budoucí systémy budou schopny nejen analyzovat, co se stalo, ale i předpovídat budoucí trendy a automaticky na ně reagovat.
Edge Computing: Místo posílání všech dat ze senzorů a zařízení do centrálního cloudu se stále více výpočtů bude odehrávat na "okraji" sítě (edge), tedy přímo v zařízeních. To snižuje latenci a je klíčové pro aplikace vyžadující okamžitou reakci, jako jsou autonomní vozidla^[11].
Explainable AI (XAI): S rostoucím nasazením komplexních AI modelů ("černých skříněk") roste potřeba, aby jejich rozhodnutí byla transparentní a srozumitelná pro člověka. XAI (vysvětlitelná umělá inteligence) se snaží vyvinout metody, jak fungování těchto modelů vysvětlit, což je zásadní pro jejich důvěryhodnost a odpovědnost^[12].
Data as a Service (DaaS): Trh s daty roste. Firmy budou stále více obchodovat s anonymizovanými datovými soubory, které mohou jiné organizace využít pro své analýzy.

💡 Pro laiky

Těžení zlata z hromady písku

Představte si, že máte obrovskou, nekonečnou hromadu písku, která se každou sekundu ještě zvětšuje. V tomto písku jsou ukryty mikroskopické částečky zlata, ale také spousta bezcenných kamínků a odpadu.

Hromada písku = Big data: Je obrovská (Volume), neustále roste (Velocity) a skládá se z různých věcí – písku, kamínků, hlíny (Variety). Navíc nevíte, která část je čistá a která znečištěná (Veracity).
Tradiční lopata = Staré databáze: S obyčejnou lopatou a kyblíkem nemáte šanci takovou hromadu prohrabat a zlato najít. Je to příliš pomalé a neefektivní.
Obří automatizovaný důl = Big data technologie: Místo lopaty postavíte obrovský automatizovaný důlní systém (jako Hadoop a Spark). Má tisíce malých robotických ramen, která pracují najednou. Každé rameno prohrabává svou malou část hromady, odděluje písek od kamínků a hledá cokoli, co se třpytí.
Nalezené zlato = Hodnota (Value): Roboti sami o sobě zlato nevytvářejí, ale dokážou ho neuvěřitelně rychle najít. Těmito zlatými nugety jsou užitečné informace: například odhalení, že zákazníci, kteří kupují produkt A, si s 80% pravděpodobností koupí i produkt B, nebo zjištění, že určitá kombinace příznaků u pacientů spolehlivě předpovídá nástup nemoci.

Cílem Big data tedy není jen sbírat "písek", ale mít technologii, která z něj dokáže včas vytěžit cenné "zlato" – tedy poznatky, které by jinak zůstaly navždy skryté.

Reference

[1] ttps://www.ibm.com/topics/big-data

[2] ttps://www.techtarget.com/searchdatamanagement/definition/unstructured-data

[3] ttps://cs.wikipedia.org/wiki/Distribuovan%C3%BD_syst%C3%A9m

[4] ttps://www.mongodb.com/big-data-explained/history-of-big-data

[5] ttps://hadoop.apache.org/

[6] ttps://spark.apache.org/

[7] ttps://www.mongodb.com/nosql-explained

[8] ttps://gdpr.eu/

[9] ttps://www.technologyreview.com/2019/02/04/137602/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/

[10] ttps://www.mckinsey.com/capabilities/quantumblack/our-insights/the-data-scientist-shortage-and-how-to-fix-it

[11] ttps://www.ibm.com/cloud/what-is-edge-computing

[12] ttps://www.ibm.com/watson/what-is-explainable-ai

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

@@ Řádek 1: / Řádek 1: @@
 {{K rozšíření}}
-'''Big data''' (množné číslo, česky též '''velká data''') je termín označující extrémně velké a složité datové soubory, jejichž analýza a zpracování jsou nad rámec možností tradičních databázových a softwarových nástrojů. Nejde jen o samotné množství dat, ale také o rychlost, jakou jsou generována, a o jejich rozmanitost. Cílem analýzy Big data je odhalit skryté vzorce, neznámé korelace, tržní trendy a další užitečné informace, které mohou vést k lepším obchodním rozhodnutím, vědeckým objevům a optimalizaci procesů.
+'''Big data''' (množné číslo, česky též '''velká data''') je termín označující extrémně velké a složité datové soubory, jejichž [[analýza|analýza]] a [[zpracování dat|zpracování]] jsou nad rámec možností tradičních [[databáze|databázových]] a [[software|softwarových nástrojů]]. Nejde jen o samotné množství dat, ale také o rychlost, jakou jsou generována, a o jejich rozmanitost. Cílem analýzy Big data je odhalit skryté vzorce, neznámé [[korelace|korelace]], [[tržní trend|tržní trendy]] a další užitečné informace, které mohou vést k lepším obchodním [[rozhodování|rozhodnutím]], [[vědecký objev|vědeckým objevům]] a [[optimalizace|optimalizaci]] procesů.
 {{Infobox Technologie
@@ Řádek 8: / Řádek 8: @@
 | popisek = Vizualizace datových toků, typický příklad komplexity Big data
 | typ = Zpracování a analýza velkých datových souborů
-| klíčové koncepty = Pět V (Volume, Velocity, Variety, Veracity, Value), Distribuované výpočty, [[Strojové učení]], [[Umělá inteligence]]
+| klíčové koncepty = Pět V (Volume, Velocity, Variety, Veracity, Value), [[Distribuované výpočty]], [[Strojové učení]], [[Umělá inteligence]]
 | klíčové technologie = [[Apache Hadoop]], [[Apache Spark]], [[NoSQL]] databáze
 | související obory = [[Informatika]], [[Statistika]], [[Ekonomie]], [[Sociologie]]
@@ Řádek 16: / Řádek 16: @@
 Big data jsou nejčastěji definována pomocí několika charakteristik, které se označují jako "V". Původně byly tři, ale postupně se model rozšířil na pět klíčových vlastností<ref>https://www.ibm.com/topics/big-data</ref>.
-.  '''Volume (Objem):''' Jedná se o nejzřejmější charakteristiku – obrovské množství dat. Zatímco v minulosti se jednalo o gigabajty a terabajty, dnes se běžně pracuje s petabajty, exabajty a zettabajty dat. Například sociální sítě, vědecké experimenty (např. v CERNu) nebo senzory v [[Internet věcí|Internetu věcí]] (IoT) generují nepředstavitelné objemy dat každý den.
+.  '''Volume (Objem):''' Jedná se o nejzřejmější charakteristiku – obrovské množství dat. Zatímco v minulosti se jednalo o [[gigabajt]]y a [[terabajt]]y, dnes se běžně pracuje s [[petabajt]]y, [[exabajt]]y a [[zettabajt]]y dat. Například [[sociální síť|sociální sítě]], [[vědecký experiment|vědecké experimenty]] (např. v [[CERN|CERNu]]) nebo [[senzor|senzory]] v [[Internet věcí|Internetu věcí]] (IoT) generují nepředstavitelné objemy dat každý den.
-.  '''Velocity (Rychlost):''' Popisuje rychlost, s jakou jsou nová data generována a s jakou se musí zpracovávat. V mnoha případech je potřeba analyzovat data v reálném čase (nebo téměř v reálném čase), aby měla smysl. Příkladem jsou data z finančních trhů, monitorování dopravy nebo streamované příspěvky na sociálních sítích.
+.  '''Velocity (Rychlost):''' Popisuje rychlost, s jakou jsou nová data generována a s jakou se musí zpracovávat. V mnoha případech je potřeba analyzovat data v [[reálný čas|reálném čase]] (nebo téměř v reálném čase), aby měla smysl. Příkladem jsou data z [[finanční trh|finančních trhů]], monitorování [[doprava|dopravy]] nebo [[streamování|streamované]] příspěvky na sociálních sítích.
 .  '''Variety (Rozmanitost):''' Data přicházejí v mnoha různých formátech. Dělí se na tři hlavní typy:
-     *   '''Strukturovaná data:''' Mají pevně daný formát a jsou snadno organizovatelná v tabulkách, typicky v relačních databázích (např. data o bankovních transakcích).
+     *   '''Strukturovaná data:''' Mají pevně daný [[datový formát|formát]] a jsou snadno organizovatelná v [[tabulka (informace)|tabulkách]], typicky v [[relační databáze|relačních databázích]] (např. data o [[bankovní transakce|bankovních transakcích]]).
-     *   '''Nestrukturovaná data:''' Nemají žádnou předdefinovanou strukturu. Tvoří většinu Big data. Patří sem texty (e-maily, dokumenty, příspěvky na sociálních sítích), obrázky, audio a video záznamy<ref>https://www.techtarget.com/searchdatamanagement/definition/unstructured-data</ref>.
+     *   '''Nestrukturovaná data:''' Nemají žádnou předdefinovanou strukturu. Tvoří většinu Big data. Patří sem [[text]]y ([[e-mail|e-maily]], [[dokument|dokumenty]], příspěvky na sociálních sítích), [[obrázek|obrázky]], [[audio]] a [[video]] záznamy<ref>https://www.techtarget.com/searchdatamanagement/definition/unstructured-data</ref>.
-     *   '''Semistrukturovaná data:''' Jsou jakýmsi mezistupněm, nemají pevnou tabulkovou strukturu, ale obsahují tagy a značky, které oddělují sémantické prvky (např. data ve formátu XML nebo JSON).
+     *   '''Semistrukturovaná data:''' Jsou jakýmsi mezistupněm, nemají pevnou tabulkovou strukturu, ale obsahují [[tag (metadata)|tagy]] a [[značka (informatika)|značky]], které oddělují sémantické prvky (např. data ve formátu [[XML]] nebo [[JSON]]).
 K těmto třem základním "V" se často přidávají další dvě:
 .  '''Veracity (Věrohodnost):''' Týká se kvality a spolehlivosti dat. Data mohou být neúplná, nepřesná, nekonzistentní nebo zastaralá. Zajištění věrohodnosti je jednou z největších výzev, protože rozhodnutí založená na špatných datech mohou být chybná a škodlivá.
-.  '''Value (Hodnota):''' Samotná data nemají žádnou hodnotu, dokud nejsou analyzována a přeměněna na užitečnou informaci. Cílem je z obrovského objemu dat "vytěžit" hodnotné poznatky, které lze využít k inovacím, optimalizaci nebo strategickému rozhodování.
+.  '''Value (Hodnota):''' Samotná data nemají žádnou hodnotu, dokud nejsou analyzována a přeměněna na užitečnou informaci. Cílem je z obrovského objemu dat "vytěžit" hodnotné poznatky, které lze využít k [[inovace|inovacím]], [[optimalizace|optimalizaci]] nebo strategickému [[rozhodování]].
 == ⏳ Historický kontext a vznik ==
-Pojem Big data se začal objevovat na začátku 21. století, ale problém zpracování velkých objemů dat je mnohem starší. Exploze dat začala s nástupem digitálního věku a byla poháněna několika klíčovými faktory:
+Pojem Big data se začal objevovat na začátku 21. století, ale problém zpracování velkých objemů dat je mnohem starší. Exploze dat začala s nástupem [[digitální věk|digitálního věku]] a byla poháněna několika klíčovými faktory:
-*   '''Rozvoj internetu a World Wide Webu:''' Na počátku 90. let začaly firmy jako Google a Yahoo čelit problému, jak indexovat a prohledávat obrovské a neustále rostoucí množství webových stránek.
+*   '''Rozvoj internetu a World Wide Webu:''' Na počátku 90. let začaly firmy jako [[Google]] a [[Yahoo]] čelit problému, jak [[indexování (vyhledávače)|indexovat]] a prohledávat obrovské a neustále rostoucí množství [[webová stránka|webových stránek]].
-*   '''Sociální média a mobilní zařízení:''' Nástup platforem jako Facebook, Twitter a YouTube v první dekádě 21. století vedl k exponenciálnímu nárůstu uživatelsky generovaných dat (texty, fotky, videa).
+*   '''Sociální média a mobilní zařízení:''' Nástup platforem jako [[Facebook]], [[Twitter]] a [[YouTube]] v první dekádě 21. století vedl k exponenciálnímu nárůstu uživatelsky generovaných dat (texty, fotky, videa).
-*   '''Internet věcí (IoT):''' V posledních letech se hlavním zdrojem dat stávají miliardy propojených zařízení – od chytrých hodinek a telefonů přes senzory v automobilech a průmyslových strojích až po chytré domácnosti.
+*   '''Internet věcí (IoT):''' V posledních letech se hlavním zdrojem dat stávají miliardy propojených zařízení – od [[chytré hodinky|chytrých hodinek]] a [[chytrý telefon|telefonů]] přes [[senzor|senzory]] v [[automobil|automobilech]] a průmyslových strojích až po [[chytrá domácnost|chytré domácnosti]].
-Tradiční '''relační databázové systémy''' (založené na jazyce [[SQL]]) byly navrženy pro zpracování strukturovaných dat na jednom výkonném serveru. S nástupem Big data se však tento centralizovaný přístup ukázal jako neudržitelný – žádný jednotlivý počítač nedokázal uložit a zpracovat tak obrovské a rozmanité datové soubory dostatečně rychle. Bylo nutné vyvinout nový přístup založený na '''distribuovaných výpočtech''', tedy rozdělení úlohy mezi desítky, stovky nebo i tisíce levnějších, běžných počítačů (komoditní hardware) pracujících paralelně<ref>https://cs.wikipedia.org/wiki/Distribuovan%C3%BD_syst%C3%A9m</ref>. Průkopníkem v této oblasti byl Google, který na začátku 21. století vyvinul pro vlastní potřebu technologie MapReduce a Google File System, jež se staly inspirací pro open-source projekty, které dnes tvoří jádro ekosystému Big data<ref>https://www.mongodb.com/big-data-explained/history-of-big-data</ref>.
+Tradiční '''[[relační databázový systém|relační databázové systémy]]''' (založené na jazyce [[SQL]]) byly navrženy pro zpracování strukturovaných dat na jednom výkonném [[server]]u. S nástupem Big data se však tento centralizovaný přístup ukázal jako neudržitelný – žádný jednotlivý počítač nedokázal uložit a zpracovat tak obrovské a rozmanité datové soubory dostatečně rychle. Bylo nutné vyvinout nový přístup založený na '''[[distribuované výpočty|distribuovaných výpočtech]]''', tedy rozdělení úlohy mezi desítky, stovky nebo i tisíce levnějších, běžných počítačů ([[komoditní hardware]]) pracujících paralelně<ref>https://cs.wikipedia.org/wiki/Distribuovan%C3%BD_syst%C3%A9m</ref>. Průkopníkem v této oblasti byl Google, který na začátku 21. století vyvinul pro vlastní potřebu technologie [[MapReduce]] a [[Google File System]], jež se staly inspirací pro [[open-source]] projekty, které dnes tvoří jádro ekosystému Big data<ref>https://www.mongodb.com/big-data-explained/history-of-big-data</ref>.
 == 🛠️ Technologie a architektura ==
@@ Řádek 39: / Řádek 39: @@
 === Ekosystém Apache Hadoop ===
-'''[[Apache Hadoop]]''' je open-source softwarový framework, který se stal de facto standardem pro ukládání a dávkové zpracování Big data. Je inspirován technologiemi Googlu a skládá se ze dvou klíčových komponent<ref>https://hadoop.apache.org/</ref>:
+'''[[Apache Hadoop]]''' je [[open-source]] [[softwarový framework]], který se stal de facto standardem pro ukládání a [[dávkové zpracování|dávkové zpracování]] Big data. Je inspirován technologiemi Googlu a skládá se ze dvou klíčových komponent<ref>https://hadoop.apache.org/</ref>:
-.  '''Hadoop Distributed File System (HDFS):''' Je to distribuovaný souborový systém navržený pro ukládání obrovských souborů (terabajty a více) napříč velkým počtem běžných serverů. Data jsou automaticky rozdělena do menších bloků a replikována na více strojů, což zajišťuje vysokou dostupnost a odolnost proti selhání jednotlivých serverů.
+.  '''Hadoop Distributed File System (HDFS):''' Je to [[distribuovaný souborový systém]] navržený pro ukládání obrovských souborů ([[terabajt]]y a více) napříč velkým počtem běžných serverů. Data jsou automaticky rozdělena do menších bloků a [[replikace (informatika)|replikována]] na více strojů, což zajišťuje [[vysoká dostupnost|vysokou dostupnost]] a odolnost proti selhání jednotlivých serverů.
-.  '''MapReduce:''' Je to programovací model a zpracovávací engine pro paralelní zpracování dat uložených v HDFS. Funguje ve dvou fázích:
+.  '''MapReduce:''' Je to [[programovací model]] a zpracovávací engine pro paralelní zpracování dat uložených v HDFS. Funguje ve dvou fázích:
-     *   '''Fáze Map:''' Hlavní úloha je rozdělena na mnoho menších podúloh, které jsou paralelně zpracovány na jednotlivých uzlech clusteru (tam, kde leží data).
+     *   '''Fáze Map:''' Hlavní úloha je rozdělena na mnoho menších podúloh, které jsou paralelně zpracovány na jednotlivých uzlech [[počítačový cluster|clusteru]] (tam, kde leží data).
-     *   '''Fáze Reduce:''' Výsledky z fáze Map jsou shromážděny, agregovány a je z nich vytvořen finální výsledek.
+     *   '''Fáze Reduce:''' Výsledky z fáze Map jsou shromážděny, [[agregace|agregovány]] a je z nich vytvořen finální výsledek.
-Kolem těchto dvou základních pilířů se vyvinul rozsáhlý ekosystém dalších nástrojů, jako jsou Hive (pro SQL-like dotazování), Pig (pro skriptování datových toků) nebo HBase (NoSQL databáze).
+Kolem těchto dvou základních pilířů se vyvinul rozsáhlý ekosystém dalších nástrojů, jako jsou [[Apache Hive|Hive]] (pro SQL-like dotazování), [[Apache Pig|Pig]] (pro skriptování datových toků) nebo [[HBase]] (NoSQL databáze).
 === Apache Spark ===
-'''[[Apache Spark]]''' je modernější a rychlejší alternativa k MapReduce. Zatímco MapReduce zapisuje mezivýsledky na disk, Spark provádí většinu výpočtů v operační paměti (in-memory), což ho činí až 100krát rychlejším<ref>https://spark.apache.org/</ref>. Díky své rychlosti a flexibilitě je vhodný nejen pro dávkové zpracování, ale i pro interaktivní analýzu, strojové učení a zpracování dat v reálném čase (streaming).
+'''[[Apache Spark]]''' je modernější a rychlejší alternativa k MapReduce. Zatímco MapReduce zapisuje mezivýsledky na [[pevný disk|disk]], Spark provádí většinu výpočtů v [[operační paměť|operační paměti]] (in-memory), což ho činí až 100krát rychlejším<ref>https://spark.apache.org/</ref>. Díky své rychlosti a flexibilitě je vhodný nejen pro dávkové zpracování, ale i pro interaktivní analýzu, [[strojové učení]] a zpracování dat v reálném čase ([[streamování|streaming]]).
 === NoSQL Databáze ===
-Tradiční relační databáze (SQL) jsou pro mnoho typů Big data příliš rigidní a špatně škálovatelné. Proto vznikly '''[[NoSQL]]''' ("Not Only SQL") databáze, které jsou navrženy pro flexibilitu, škálovatelnost a práci s nestrukturovanými daty. Existuje několik typů<ref>https://www.mongodb.com/nosql-explained</ref>:
+Tradiční [[relační databáze|relační databáze]] (SQL) jsou pro mnoho typů Big data příliš rigidní a špatně [[škálovatelnost|škalovatelné]]. Proto vznikly '''[[NoSQL]]''' ("Not Only SQL") databáze, které jsou navrženy pro flexibilitu, škálovatelnost a práci s nestrukturovanými daty. Existuje několik typů<ref>https://www.mongodb.com/nosql-explained</ref>:
-*   '''Dokumentové databáze''' (např. MongoDB): Ukládají data ve flexibilních, semistrukturovaných dokumentech (např. JSON).
+*   '''Dokumentové databáze''' (např. [[MongoDB]]): Ukládají data ve flexibilních, semistrukturovaných dokumentech (např. [[JSON]]).
-*   '''Klíč-hodnota databáze''' (např. Redis): Nejjednodušší typ, ukládá data jako páry klíčů a hodnot.
+*   '''Klíč-hodnota databáze''' (např. [[Redis]]): Nejjednodušší typ, ukládá data jako páry [[asociativní pole|klíčů a hodnot]].
-*   '''Sloupcové databáze''' (např. Apache Cassandra): Optimalizované pro rychlé čtení a zápis velkých objemů dat.
+*   '''Sloupcové databáze''' (např. [[Apache Cassandra]]): Optimalizované pro rychlé čtení a zápis velkých objemů dat.
-*   '''Grafové databáze''' (např. Neo4j): Specializované na ukládání a analýzu vztahů mezi daty, ideální pro sociální sítě nebo doporučovací systémy.
+*   '''Grafové databáze''' (např. [[Neo4j]]): Specializované na ukládání a analýzu vztahů mezi daty, ideální pro [[sociální síť|sociální sítě]] nebo [[doporučovací systém|doporučovací systémy]].
 == 🔄 Životní cyklus Big data ==
 Práce s Big data je komplexní proces, který lze rozdělit do několika fází:
-.  '''Sběr dat (Ingestion):''' Data jsou shromažďována z různých zdrojů – webových stránek, sociálních médií, senzorů, logů aplikací atd.
+.  '''Sběr dat (Ingestion):''' Data jsou shromažďována z různých zdrojů – [[webová stránka|webových stránek]], sociálních médií, senzorů, [[log|logů]] aplikací atd.
-.  '''Uložení (Storage):''' Obrovské objemy dat jsou uloženy v distribuovaném souborovém systému, jako je HDFS, nebo v cloudových úložištích (např. Amazon S3).
+.  '''Uložení (Storage):''' Obrovské objemy dat jsou uloženy v distribuovaném souborovém systému, jako je HDFS, nebo v [[cloudové úložiště|cloudových úložištích]] (např. [[Amazon S3]]).
-.  '''Zpracování a čištění (Processing & Cleaning):''' Surová data jsou často neúplná, nekonzistentní a plná chyb. V této fázi jsou data transformována, čištěna a připravována pro analýzu. Tento proces, často označovaný jako '''ETL''' (Extract, Transform, Load), je jedním z časově nejnáročnějších.
+.  '''Zpracování a čištění (Processing & Cleaning):''' Surová data jsou často neúplná, nekonzistentní a plná chyb. V této fázi jsou data transformována, čištěna a připravována pro analýzu. Tento proces, často označovaný jako '''[[ETL]]''', je jedním z časově nejnáročnějších.
-.  '''Analýza (Analysis):''' Jádro celého procesu. Na připravená data jsou aplikovány různé analytické metody – od jednoduchých statistických dotazů přes datamining až po složité algoritmy [[strojové učení|strojového učení]] a [[umělá inteligence|umělé inteligence]] – s cílem odhalit vzorce a trendy.
+.  '''Analýza (Analysis):''' Jádro celého procesu. Na připravená data jsou aplikovány různé analytické metody – od jednoduchých statistických dotazů přes [[datamining]] až po složité [[algoritmus|algoritmy]] [[strojové učení|strojového učení]] a [[umělá inteligence|umělé inteligence]] – s cílem odhalit vzorce a trendy.
-.  '''Vizualizace a interpretace (Visualization & Interpretation):''' Výsledky analýzy jsou prezentovány v srozumitelné formě, nejčastěji pomocí grafů, dashboardů a reportů, aby jim mohli porozumět i netechničtí uživatelé a mohli na jejich základě činit rozhodnutí.
+.  '''Vizualizace a interpretace (Visualization & Interpretation):''' Výsledky analýzy jsou prezentovány v srozumitelné formě, nejčastěji pomocí [[graf|grafů]], [[dashboard|dashboardů]] a [[report|reportů]], aby jim mohli porozumět i netechničtí uživatelé a mohli na jejich základě činit rozhodnutí.
 == 🏢 Příklady aplikací ==
 Big data transformují téměř každé odvětví.
-*   '''Obchod a marketing:''' Firmy analyzují nákupní chování zákazníků, aby jim mohly nabízet personalizované produkty a reklamu (doporučovací systémy Amazonu, Netflixu). Sledují trendy na sociálních sítích a optimalizují své marketingové kampaně.
+*   '''Obchod a marketing:''' Firmy analyzují nákupní chování zákazníků, aby jim mohly nabízet [[personalizace|personalizované produkty]] a [[reklama|reklamu]] (doporučovací systémy [[Amazon (společnost)|Amazonu]], [[Netflix|Netflixu]]). Sledují trendy na sociálních sítích a optimalizují své marketingové kampaně.
-*   '''Zdravotnictví:''' Analýza velkých souborů dat o pacientech, genomických dat a klinických studií pomáhá v personalizované medicíně, predikci šíření nemocí a vývoji nových léků. Chytré hodinky a nositelná elektronika sbírají v reálném čase data o zdravotním stavu uživatelů.
+*   '''Zdravotnictví:''' Analýza velkých souborů dat o pacientech, [[genomika|genomických dat]] a [[klinická studie|klinických studií]] pomáhá v [[personalizovaná medicína|personalizované medicíně]], predikci šíření nemocí a vývoji nových léků. Chytré hodinky a [[nositelná elektronika|nositelná elektronika]] sbírají v reálném čase data o zdravotním stavu uživatelů.
-*   '''Finance:''' Banky a finanční instituce využívají Big data k detekci podvodných transakcí, hodnocení úvěrového rizika a algoritmickému obchodování na burze.
+*   '''Finance:''' [[Banka|Banky]] a finanční instituce využívají Big data k detekci [[podvod|podvodných transakcí]], hodnocení [[úvěrové riziko|úvěrového rizika]] a [[algoritmické obchodování|algoritmickému obchodování]] na [[burza|burze]].
-*   '''Doprava a logistika:''' Analýza dopravních dat v reálném čase umožňuje optimalizovat trasy (např. Google Maps, Waze), řídit dopravní systémy a předcházet zácpám. Logistické firmy jako UPS nebo FedEx optimalizují své doručovací trasy, čímž šetří palivo a čas.
+*   '''Doprava a logistika:''' Analýza dopravních dat v reálném čase umožňuje optimalizovat trasy (např. [[Google Maps]], [[Waze]]), řídit dopravní systémy a předcházet [[dopravní zácpa|zácpám]]. Logistické firmy jako [[United Parcel Service|UPS]] nebo [[FedEx]] optimalizují své doručovací trasy, čímž šetří [[palivo]] a čas.
-*   '''Věda:''' Vědecké obory jako astronomie (analýza dat z teleskopů), fyzika částic (zpracování dat ze srážek v urychlovačích) nebo genomika by bez schopnosti zpracovávat masivní datové soubory nemohly existovat.
+*   '''Věda:''' Vědecké obory jako [[astronomie]] (analýza dat z [[teleskop|teleskopů]]), [[částicová fyzika|fyzika částic]] (zpracování dat ze srážek v [[urychlovač částic|urychlovačích]]) nebo genomika by bez schopnosti zpracovávat masivní datové soubory nemohly existovat.
-*   '''Média a zábava:''' Streamovací služby analyzují sledovanost a chování uživatelů, aby rozhodly, do jakých filmů a seriálů investovat.
+*   '''Média a zábava:''' Streamovací služby analyzují [[sledovanost]] a chování uživatelů, aby rozhodly, do jakých filmů a seriálů investovat.
 == ⚖️ Výzvy, kritika a etika ==
@@ Řádek 79: / Řádek 79: @@
 === Soukromí a ochrana dat ===
-Shromažďování obrovského množství osobních údajů vyvolává vážné obavy o soukromí. Data o našem chování na internetu, poloze, nákupních zvyklostech nebo zdravotním stavu mohou být zneužita k manipulaci, diskriminaci nebo sledování. V reakci na tyto hrozby vznikají nové legislativní rámce, jako je '''[[Obecné nařízení o ochraně osobních údajů|Obecné nařízení o ochraně osobních údajů]]''' (GDPR) v Evropské unii, které dává jednotlivcům větší kontrolu nad jejich osobními údaji<ref>https://gdpr.eu/</ref>.
+Shromažďování obrovského množství [[osobní údaj|osobních údajů]] vyvolává vážné obavy o [[soukromí]]. Data o našem chování na internetu, [[geografická poloha|poloze]], nákupních zvyklostech nebo zdravotním stavu mohou být zneužita k [[manipulace|manipulaci]], [[diskriminace|diskriminaci]] nebo [[sledování]]. V reakci na tyto hrozby vznikají nové legislativní rámce, jako je '''[[Obecné nařízení o ochraně osobních údajů]]''' (GDPR) v [[Evropská unie|Evropské unii]], které dává jednotlivcům větší kontrolu nad jejich osobními údaji<ref>https://gdpr.eu/</ref>.
 === Bezpečnost ===
-Centralizace obrovského množství citlivých dat na jednom místě (byť distribuovaném) z nich činí atraktivní cíl pro kybernetické útoky. Masivní úniky dat (data breaches) mohou mít katastrofální následky pro miliony lidí. Zabezpečení Big data infrastruktury je proto klíčovou a neustálou výzvou.
+Centralizace obrovského množství citlivých dat na jednom místě (byť distribuovaném) z nich činí atraktivní cíl pro [[kybernetický útok|kybernetické útoky]]. Masivní [[únik dat|úniky dat]] (data breaches) mohou mít katastrofální následky pro miliony lidí. Zabezpečení Big data infrastruktury je proto klíčovou a neustálou výzvou.
 === Algoritmická zaujatost (Bias) a diskriminace ===
-Algoritmy strojového učení se učí z dat, která jim poskytneme. Pokud tato trénovací data odrážejí existující společenské předsudky (např. rasové nebo genderové), algoritmus se je naučí a může je dokonce i zesílit<ref>https://www.technologyreview.com/2019/02/04/137602/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/</ref>. To může vést k diskriminaci v oblastech, jako je schvalování úvěrů, nábor zaměstnanců nebo policejní práce, kde "objektivní" rozhodnutí stroje ve skutečnosti jen replikuje lidské předsudky.
+[[Algoritmus|Algoritmy]] strojového učení se učí z dat, která jim poskytneme. Pokud tato trénovací data odrážejí existující společenské [[předsudek|předsudky]] (např. rasové nebo genderové), algoritmus se je naučí a může je dokonce i zesílit<ref>https://www.technologyreview.com/2019/02/04/137602/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/</ref>. To může vést k diskriminaci v oblastech, jako je schvalování [[úvěr]]ů, [[nábor]] zaměstnanců nebo policejní práce, kde "objektivní" rozhodnutí stroje ve skutečnosti jen replikuje lidské předsudky.
 === Nedostatek odborníků a složitost ===
-Práce s Big data vyžaduje vysoce specializované dovednosti v oblasti informatiky, statistiky a strojového učení. Poptávka po odbornících, jako jsou '''datoví vědci''' (data scientists) a datoví inženýři, výrazně převyšuje nabídku, což představuje pro mnoho firem překážku v adopci těchto technologií<ref>https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-data-scientist-shortage-and-how-to-fix-it</ref>. Implementace a správa Big data systémů je navíc technicky velmi náročná a nákladná.
+Práce s Big data vyžaduje vysoce specializované dovednosti v oblasti informatiky, statistiky a strojového učení. Poptávka po odbornících, jako jsou '''[[datový vědec|datoví vědci]]''' a '''[[datový inženýr|datoví inženýři]]''', výrazně převyšuje nabídku, což představuje pro mnoho firem překážku v adopci těchto technologií<ref>https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-data-scientist-shortage-and-how-to-fix-it</ref>. Implementace a správa Big data systémů je navíc technicky velmi náročná a nákladná.
 == 🔮 Budoucnost Big data ==
 Oblast Big data se neustále vyvíjí a směřuje k několika klíčovým trendům:
-*   '''Integrace s umělou inteligencí:''' AI a strojové učení se stávají nepostradatelnými pro automatickou analýzu a získávání hodnoty z dat. Budoucí systémy budou schopny nejen analyzovat, co se stalo, ale i předpovídat budoucí trendy a automaticky na ně reagovat.
+*   '''Integrace s umělou inteligencí:''' [[Umělá inteligence|AI]] a [[strojové učení]] se stávají nepostradatelnými pro automatickou analýzu a získávání hodnoty z dat. Budoucí systémy budou schopny nejen analyzovat, co se stalo, ale i předpovídat budoucí trendy a automaticky na ně reagovat.
-*   '''Edge Computing:''' Místo posílání všech dat ze senzorů a zařízení do centrálního cloudu se stále více výpočtů bude odehrávat na "okraji" sítě (''edge''), tedy přímo v zařízeních. To snižuje zpoždění (latenci) a je klíčové pro aplikace vyžadující okamžitou reakci, jako jsou autonomní vozidla<ref>https://www.ibm.com/cloud/what-is-edge-computing</ref>.
+*   '''Edge Computing:''' Místo posílání všech dat ze senzorů a zařízení do centrálního [[cloud computing|cloudu]] se stále více výpočtů bude odehrávat na "okraji" sítě (''edge''), tedy přímo v zařízeních. To snižuje [[latence (informatika)|latenci]] a je klíčové pro aplikace vyžadující okamžitou reakci, jako jsou [[autonomní vozidlo|autonomní vozidla]]<ref>https://www.ibm.com/cloud/what-is-edge-computing</ref>.
-*   '''Explainable AI (XAI):''' S rostoucím nasazením komplexních AI modelů ("černých skříněk") roste potřeba, aby jejich rozhodnutí byla transparentní a srozumitelná pro člověka. XAI (vysvětlitelná umělá inteligence) se snaží vyvinout metody, jak fungování těchto modelů vysvětlit, což je zásadní pro jejich důvěryhodnost a odpovědnost<ref>https://www.ibm.com/watson/what-is-explainable-ai</ref>.
+*   '''Explainable AI (XAI):''' S rostoucím nasazením komplexních AI modelů ("[[černá skříňka (kybernetika)|černých skříněk]]") roste potřeba, aby jejich rozhodnutí byla transparentní a srozumitelná pro člověka. XAI (vysvětlitelná umělá inteligence) se snaží vyvinout metody, jak fungování těchto modelů vysvětlit, což je zásadní pro jejich [[důvěryhodnost]] a odpovědnost<ref>https://www.ibm.com/watson/what-is-explainable-ai</ref>.
-*   '''Data as a Service (DaaS):''' Trh s daty roste. Firmy budou stále více obchodovat s anonymizovanými datovými soubory, které mohou jiné organizace využít pro své analýzy.
+*   '''Data as a Service (DaaS):''' Trh s daty roste. Firmy budou stále více obchodovat s [[anonymizace|anonymizovanými]] datovými soubory, které mohou jiné organizace využít pro své analýzy.
 == 💡 Pro laiky ==
@@ Řádek 102: / Řádek 102: @@
 *   '''Hromada písku = Big data:''' Je obrovská ('''Volume'''), neustále roste ('''Velocity''') a skládá se z různých věcí – písku, kamínků, hlíny ('''Variety'''). Navíc nevíte, která část je čistá a která znečištěná ('''Veracity''').
-*   '''Tradiční lopata = Staré databáze:''' S obyčejnou lopatou a kyblíkem nemáte šanci takovou hromadu prohrabat a zlato najít. Je to příliš pomalé a neefektivní.
+*   '''Tradiční lopata = Staré databáze:''' S obyčejnou [[lopata|lopatou]] a [[kbelík|kyblíkem]] nemáte šanci takovou hromadu prohrabat a zlato najít. Je to příliš pomalé a neefektivní.
-*   '''Obří automatizovaný důl = Big data technologie:''' Místo lopaty postavíte obrovský automatizovaný důlní systém (jako '''Hadoop''' a '''Spark'''). Má tisíce malých robotických ramen, která pracují najednou. Každé rameno prohrabává svou malou část hromady, odděluje písek od kamínků a hledá cokoli, co se třpytí.
+*   '''Obří automatizovaný důl = Big data technologie:''' Místo lopaty postavíte obrovský automatizovaný [[důl|důlní systém]] (jako '''Hadoop''' a '''Spark'''). Má tisíce malých robotických ramen, která pracují najednou. Každé rameno prohrabává svou malou část hromady, odděluje písek od kamínků a hledá cokoli, co se třpytí.
-*   '''Nalezené zlato = Hodnota (Value):''' Roboti sami o sobě zlato nevytvářejí, ale dokážou ho neuvěřitelně rychle najít. Těmito zlatými nugety jsou '''užitečné informace''': například odhalení, že zákazníci, kteří kupují produkt A, si s 80% pravděpodobností koupí i produkt B, nebo zjištění, že určitá kombinace příznaků u pacientů spolehlivě předpovídá nástup nemoci.
+*   '''Nalezené zlato = Hodnota (Value):''' [[Robot|Roboti]] sami o sobě zlato nevytvářejí, ale dokážou ho neuvěřitelně rychle najít. Těmito zlatými [[nuget (zlato)|nugety]] jsou '''užitečné informace''': například odhalení, že zákazníci, kteří kupují produkt A, si s 80% pravděpodobností koupí i produkt B, nebo zjištění, že určitá kombinace příznaků u pacientů spolehlivě předpovídá nástup nemoci.
 Cílem Big data tedy není jen sbírat "písek", ale mít technologii, která z něj dokáže včas vytěžit cenné "zlato" – tedy poznatky, které by jinak zůstaly navždy skryté.