Velký jazykový model

Rozbalit box

Obsah boxu

Velký jazykový model (zkráceně LLM z anglického large language model) je typ pokročilého jazykového modelu, který využívá hluboké učení, zejména transformerovou architekturu, k porozumění a generování přirozeného jazyka. Tyto modely jsou trénovány na rozsáhlých textových korpusech o velikosti miliard až bilionů slov a obsahují stovky milionů až stovky miliard parametrů.

LLM se používají k řešení celé řady úloh z oblasti zpracování přirozeného jazyka (NLP), jako je generování textu, překlad, shrnování, dotazování na informace, konverzační rozhraní, analýza sentimentu nebo automatické doplňování textu. Díky své velikosti a tréninkové metodice jsou schopné tzv. few-shot nebo zero-shot učení, tedy vykonávat úlohy bez nutnosti specifického doladění.

Mezi známé příklady velkých jazykových modelů patří:

GPT-3 a GPT-4 od OpenAI
Claude (AI) od Anthropic
Gemini (AI) od Google DeepMind
LLaMA od Meta Platforms
PaLM (Pathways Language Model)
Mistral (model), BLOOM, Cohere Command R a další

Velké jazykové modely jsou typicky předtrénovány na obrovských souborech textu z veřejně dostupných zdrojů, následně doladěny pro konkrétní aplikace. Některé z nich jsou otevřené (např. BLOOM, LLaMA 2), jiné uzavřené a dostupné jen formou API nebo v rámci služby jako ChatGPT.

Velké jazykové modely představují technologický průlom, ale současně i výzvu – vyvolávají diskuse o etice, předsudcích v modelech, soukromí, autorském právu a šíření dezinformací. Jejich schopnosti a dopad na společnost, vzdělávání, trh práce či vědecký výzkum jsou předmětem intenzivního zájmu.

Kategorie