3 Minuty
Přehled: Výrazný start zastíněný nepřesnými vizuály
OpenAI představila svou nejnovější verzi jazykového modelu – GPT-5, který nyní pohání ChatGPT. Samotné představení však přineslo nečekaně trapný moment: vizuály prezentující výkon modelu a výsledky generování obrázků neobstály ani při základní kontrole. Akce, jež měla symbolizovat velký krok k AGI, upoutala pozornost hlavně díky chybným grafům srovnávajícím výsledky a chybujícímu generování obrázků – což rozproudilo diskuzi ohledně spolehlivosti a hodnocení modelů.
Co se v ukázce pokazilo
Nejnápadnější byla chyba ve sloupcovém grafu, zobrazujícím skóre v benchmarku programovacích úloh pro různé generace modelů. Graf přiřadil GPT-5 skóre 52,8 %, přičemž jeho sloupec byl téměř dvakrát vyšší než u staršího modelu o3 se 69,1 %. Ještě zvláštnější bylo, že sloupce s hodnotou 69,1 % a 30,8 % (pro GPT‑4o) měly stejnou výšku. Tuto nekonzistenci rychle zaznamenala komunita na sociálních sítích i technologická média a záběry zůstaly dostupné v archivu živého přenosu, i když v blogovém zápisu již byly opraveny.
Reakce ředitele a okamžité kroky
Sam Altman, CEO OpenAI, zareagoval na virální přešlap odlehčeným tweetem, který přiznal „mega průšvih v grafu“, a společnost následně opravila vizuály v blogovém článku. Zatím však nebylo veřejně upřesněno, zda šlo o chybu lidského návrhu, nebo o selhání automatizované generace grafů.
Funkce a schopnosti modelu
GPT-5 přináší tradiční pokroky odpovídající nové generaci velkých jazykových modelů: větší kontextová okna, lepší zpracování multimodálních vstupů a přesnější generování kódu. Model je propagován jako schopný poskytnout lepší porozumění přirozenému jazyku, hladší integraci obrazových a textových informací i vyšší rychlost odezvy v nasazení. Přesto však předvedená ukázka odhalila přetrvávající slabiny v grafickém a diagramovém výstupu a opakující se fenomén „halucinací“.

Srovnání a hodnocení výkonu
Na papíře nabízí GPT-5 jasné zlepšení oproti GPT-4o i dřívějším modelům, prezentace ale ukázala, jak důležité je správné zpracování a srovnání výsledků. Pro seriózní posuzování výkonu modelu je totiž zásadní přesná vizualizace, zpětně ověřitelné testovací sady i transparentní metodologie – zejména tam, kde malé rozdíly mohou ovlivnit firemní rozhodnutí či směřování výzkumu.
Výhody a omezení
- Výhody: lepší propojení textového a multimodálního zpracování, větší kontext pro dlouhé úvahy a rozšířené nástroje pro vývojáře při integraci funkcí AI do aplikací.
- Omezení: mezi ukázkovými výstupy se stále objevuje nesmyslné označování obrázků (například mapy s vymyšlenými místními názvy) a některé studie upozorňují, že novější modely s lepším odůvodňováním mohou za určitých okolností ještě více halucinovat.
Praktické využití a význam ve světě
Silné stránky GPT-5 mohou najít uplatnění v oblasti konverzační AI, asistence při psaní kódu, generování obsahu či správě znalostí ve firmách. Konkrétní příklady použití zahrnují automatizovanou zákaznickou podporu, asistenty pro code review, shrnování odborných studií či tvorbu multimodálního obsahu. V regulovaných odvětvích a v bezpečnostně kritických aplikacích je však nutná zvýšená kontrola, neboť výskyt halucinací a vizuálních chyb vyžaduje pečlivý dohled lidských expertů a přísnější validační procesy.
Dopad na trh a důvěra
Tento přešlap OpenAI není pouze PR problém – v oblasti AI je důvěra naprosto zásadní. Společnost nyní působí v takové velikosti a hodnotě, kde na důvěryhodnosti ukázek závisí uzavírání firemních smluv, důvěra vývojářů i vnímání veřejnosti. Událost znovu nastartovala diskuzi o kvalitě trénovacích dat, zarovnání modelů a také o tom, jestli samotné navyšování měřítka zaručuje lepší výsledky, nebo naopak přináší nové selhávající scénáře.
Závěr: Poučení pro AI produktové týmy
Start GPT-5 jasně ukázal, že i špičkoví poskytovatelé AI musí klást důraz na důkladné ověřování, čitelné srovnávací testy a obezřetné zpřístupňování nových funkcí. Pro praktiky z toho plyne jasné doporučení: integrovat robustní testování, ponechávat člověka v procesu zejména u obrazového či odborného výstupu a žádat po tvůrcích modelů jasnou dokumentaci použitých metrik a metod při srovnávání velkých jazykových systémů.
Zdroj: futurism

Komentáře