Klastrování: Porovnání verzí

Aktuální verze z 27. 5. 2025, 19:24

Rozbalit box

Obsah boxu

Šablona:Infobox Statistika Klastrování (anglicky clustering), česky též shlukování, je technika strojového učení spadající do kategorie učení bez učitele. Jejím cílem je seskupovat sadu objektů nebo datových bodů tak, aby objekty v jednom shluku (tzv. klastru) byly navzájem co nejpodobnější, zatímco objekty v různých shlucích byly co nejméně podobné. Na rozdíl od klasifikace nejsou pro klastrování předem dány žádné kategorie nebo označení; algoritmus si je "objevuje" sám na základě vnitřní struktury dat.

---

Princip a cíle klastrování

Základním principem klastrování je maximalizace vnitřní homogenity shluků (tj. podobnost objektů uvnitř jednoho klastru) a vnější heterogenity shluků (tj. nepodobnost objektů mezi různými klastry). Cíle klastrování jsou různé:

Objevování skrytých struktur: Identifikace přirozených skupin v datech.
Zjednodušení dat: Redukce složitosti velkých datových sad jejich seskupením.
Segmentace: Rozdělení populace nebo dat do smysluplných segmentů.
Detekce anomálií: Objekty, které se nevejdou do žádného klastru nebo jsou do klastru zařazeny jen volně, mohou být anomálie.

---

Metody klastrování

Existuje mnoho algoritmů pro klastrování, které se liší v přístupu k definici klastru a způsobu jejich vytváření. Mezi nejběžnější patří:

K-means:
- Princip: Jeden z nejpopulárnějších a nejjednodušších algoritmů. Cílem je rozdělit data do k předem definovaných klastrů. Každý datový bod je přiřazen k nejbližšímu centru klastru (centroidu). Centroidy se iterativně přesouvají na průměr všech bodů v daném klastru, dokud se klastry nestabilizují.
- Výhody: Rychlý, efektivní pro velké datové sady.
- Nevýhody: Vyžaduje předem znát počet klastrů (k), citlivý na odlehlé hodnoty, pracuje nejlépe s kulatými klastry.

Hierarchické shlukování (Hierarchical Clustering):
- Princip: Vytváří hierarchii klastrů, která může být reprezentována dendrogramem (stromovou strukturou). Existují dva hlavní přístupy:
  - Aglomerativní (zdola nahoru): Každý datový bod začíná jako samostatný klastr, a poté jsou postupně spojovány nejbližší klastry.
  - Divizivní (shora dolů): Všechny datové body začínají v jednom klastru, který je postupně rozdělován na menší klastry.
- Výhody: Nevyžaduje předem znát počet klastrů, vizuálně interpretovatelné dendrogramem.
- Nevýhody: Výpočetně náročné pro velké datové sady, jednou vytvořené spojení/rozdělení nelze vrátit.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise):
- Princip: Seskupuje datové body, které jsou blízko u sebe (mají vysokou hustotu), a označuje objekty v oblastech s nízkou hustotou jako šum nebo odlehlé hodnoty.
- Výhody: Nevyžaduje předem znát počet klastrů, dokáže najít klastry nepravidelných tvarů, odolný vůči šumu.
- Nevýhody: Citlivý na parametry (hustotu), má problémy s daty s různou hustotou.

Gaussian Mixture Models (GMM):
- Princip: Předpokládá, že datové body pocházejí z kombinace několika Gaussových (normálních) rozdělení. Algoritmus se snaží najít parametry těchto rozdělení (střed, rozptyl), které nejlépe vysvětlují daná data.
- Výhody: Může modelovat klastry různých tvarů a velikostí, poskytuje pravděpodobnost, že bod patří do určitého klastru.
- Nevýhody: Náročnější na interpretaci, náchylný k přeučení, pokud se nepoužije správná regularizace.

Spektrální shlukování (Spectral Clustering):
- Princip: Převádí problém klastrování do grafové reprezentace, kde jsou datové body uzly a podobnosti mezi nimi jsou hrany. Následně používá algoritmy z teorie grafů pro rozdělení grafu.
- Výhody: Dobré pro nalezení komplexních, nelineárních klastrů.
- Nevýhody: Výpočetně náročné pro velké datové sady, vyžaduje volbu počtu klastrů.

---

Metriky podobnosti (vzdálenosti)

Klastrovací algoritmy se spoléhají na definici podobnosti (nebo vzdálenosti) mezi datovými body. Mezi běžné metriky patří:

Eukleidovská vzdálenost: Nejčastější, pro numerická data.
Manhattan vzdálenost: Součet absolutních rozdílů souřadnic.
Kosinusová podobnost: Často pro textová data nebo vysokodimenzionální data, měří úhel mezi vektory.

---

Aplikace klastrování

Klastrování má široké uplatnění v mnoha oblastech:

Marketing: Segmentace zákazníků pro cílené kampaně, analýza trhu.
Bioinformatika: Seskupování genových expresních dat, klasifikace proteinů.
Počítačové vidění: Segmentace obrázků, rozpoznávání objektů.
Zpracování přirozeného jazyka (NLP): Seskupování dokumentů podle tématu, shlukování slov s podobným významem.
Sociální sítě: Identifikace komunit uživatelů, analýza vlivných skupin.
Medicína: Seskupování pacientů s podobnými symptomy nebo reakcemi na léky.
Detekce podvodů: Identifikace neobvyklých vzorců chování.

---

Klastrování pro laiky

Představte si, že máte obrovskou hromadu různých ponožek (to jsou vaše data). Všechny jsou pomíchané – některé jsou modré, některé červené, některé s pruhy, některé puntíkované, některé dlouhé, některé krátké. Vaším úkolem je je roztřídit.

Klastrování (nebo shlukování) je, jako když ty ponožky začnete třídit do hromádek, aniž byste předem věděli, kolik hromádek bude, nebo jaké typy hromádek budou. Prostě se snažíte dát k sobě ty, které jsou si nejpodobnější.

Třeba dáte všechny modré s pruhy dohromady.
Všechny červené a krátké na jinou hromádku.
A ty s puntíky na třetí.

Počítač se při klastrování chová podobně. Dostane spoustu informací (dat) a jeho cílem je najít v nich přirozené skupiny (klastry) tak, aby věci v jedné skupině byly co nejpodobnější, a od věcí v jiné skupině se co nejvíce lišily. A to vše dělá sám, bez toho, aby mu někdo řekl, jaké skupiny má hledat.

Díky klastrování se dají v obrovských množstvích dat objevit zajímavé věci, třeba jaké skupiny zákazníků máte, jaké typy dokumentů se objevují nejčastěji, nebo jak se shlukují geny.

---

Viz také

---

Odkazy

Britannica – Cluster analysis (anglicky)
IBM – What is clustering? (anglicky)
Javatpoint – Machine Learning Clustering (anglicky)