Rád sleduju, že se Martin Stokhof, můj amsterdamský vedoucí diplomky a wittgensteinovský guru, už pár let na odpočinku, opět rozepsal. V jeho článku On Travelling Concepts, jinak poněkud akademicky rozvláčném, zaznívají některé zajímavé věci ve vztahu ke generativním textovým modelům umělé inteligence. Stokhof tu aplikuje wittgensteinovskou myšlenku heterogeneity našich jazykových praktik na pojem rozumění a toho, něco umět. Konkrétně pak ve vztahu k debatám o tom, zda ten nebo onen generativní model už to či ono umí, zda tomu či onomu rozumí. A říká mimo jiné jednu podstatnou věc: k náležitému ovládání jazyka patří určité standardy zdůvodňování, stání si za tvrzením, ale taky přijetí opravy a reflexe své vlastní epistemické pozice. To je něco, v čem třeba aktuální googlovský model AI (vyzkoušeno k 23. 1. 2026) selhává: co neví, to si vymyslí, a při opakovaném upozornění na chybu to bude dělat opakovaně, a pořád a pořád. Sice s omluvou, ale bez její náležité „eskalace“. Skutečný mluvčí, kterého bereme vážně, se může splést, může se splést i opakovaně, ale po odhalení si musí stále více „sypat popel na hlavu“. Uvádět stále pádnější důvody pro opakované uvádění adresáta v omyl. Pátá chyba není tatáž jako první; skutečný mluvčí je vědom, že se při ní už povážlivě otřásá jeho status racionální, rozumějící, spolupracující osoby. Googlovská generativní AI to neví. Asistentovi s touto kombinací inteligence a stupidity nelze svěřit žádnou ani okrajově důležitou práci.
Možná že to souvisí i s dalším Stokhofovým motivem: lidská komunikační kompetence se utváří fundamentálně jinak než ta strojová. Jádro té lidské totiž v raném dětství vzniká za absolutní důvěry v autoritu, v blízké mluvící osoby. Vůči batoleti nelžeme, nejsme ironičtí, spolehlivě mu vštěpujeme naprosté základy. Teprve v další fázi učení nastává zpochybňování, dítě objevuje nepravdu a nespolehlivost. Generativní textové modely nezačínají své učení od bezpečného jádra, ale jsou rovnou vrženy do oceánu textů rozličné epistemické jakosti.
Do třetice je tu i vtělenost, taktéž Stokhofem připomínaná: vztaženost našeho jazyka k naší tělesné zkušenosti a schopnosti tělesně jednat. Tělesná zkušenost umožňuje mimo jiné i bazální ověřování toho, co je sdělováno. Vychází-li generativní modely z obrovitého množství čistého textu, nemusí být nakonec jejich pravda tak úplně odlišitelná od toho, co se typicky říká a píše.
To vše jsou směry, odkud se zřejmě dá napadat tvrzení, že generativní textové modely už dnes plně dorovnávají lidskou jazykovou kompetenci.
P. S. Kdosi mi navrhl rozumnou teorii ohledně výše zmíněné „střelby do prázdna“, které se googlovský chatbot dopouští v reakci na nelehký dotaz. V pozadí prý by se podobný dotaz mohl položit mnohonásobně, a epistemicky reflektovanější odpověď by chatbot mohl snadno poskytnout po vyhodnocení shody nebo neshody dílčích výsledků. Jenže to by zároveň mnohonásobně prodražilo dotaz, který prý už tak spotřebovává na neplacenou službu neúměrně mnoho zdrojů (především elektrické energie na straně vyhodnocujícího serveru). Čili, aspoň pro tento velmi dílčí typ použití, ještě to zdaleka nefunguje a už je příliš drahé to provozovat… Možná že i v něčem takovém spočívá šance vzdělaných lidí a kvalitních online či offline informačních zdrojů: bude prostě moc drahé věnovat rozšiřovat a provozovat počítačové kapacity světa na to, aby pro uživatele stále dokola generovaly recepty na bábovku, přehledy sportovních výsledků nebo jednoduchou aritmetiku ve funkci kalkulačky.