Debata o schopnostech AI: Opravdu současné jazykové modely neumí logicky uvažovat? | Mobin.cz- Știri Auto din România | Mașini, Lansări, Teste și Noutăți
Debata o schopnostech AI: Opravdu současné jazykové modely neumí logicky uvažovat?

Debata o schopnostech AI: Opravdu současné jazykové modely neumí logicky uvažovat?

2025-06-15
0 Komentáře Petr Novotný

3 Minuty

Tým pro strojové učení společnosti Apple nedávno zveřejnil provokativní vědecký článek nazvaný „Iluze myšlení“, který vyvolal intenzivní diskuzi v komunitě zabývající se umělou inteligencí. V této studii Apple argumentuje, že dnešní velké jazykové modely ve skutečnosti neprovádějí samostatné logické uvažování. Nová odpověď z AI výzkumné komunity však tato rozsáhlá tvrzení zpochybňuje a otevírá živou debatu o skutečných limitech a potenciálu moderních AI modelů.

Hlavní argumenty: Jsou současné AI modely skutečně omezené?

Ellen Lason, výzkumnice z Open Philanthropy, publikovala oponentní práci s názvem „Iluze iluze myšlení“, která přímo reaguje na závěry Applu. Lason se odkazuje na pokročilý model Claude Opus od společnosti Anthropic a tvrdí, že zjištění Applu jsou důsledkem možných nedostatků v návrhu testů, nikoliv inherentních omezení schopností AI uvažování. Podle ní byly zdánlivé slabiny AI modelů především výsledkem technických a konfiguračních limitů, nikoliv skutečných chyb v procesu logického myšlení.

Hlavní kritika metodologie Applu

Lason upozornila na tři zásadní problémy při hodnocení:

  • Ignorování tokenových omezení: Lason tvrdí, že modely Applu selhávaly v některých logických hádankách nikoliv kvůli nedostatku uvažování, ale kvůli přísným omezením výstupních tokenů, které zkracovaly odpovědi modelů.
  • Nespravedlivé hodnocení neřešitelných úloh: U různých variant úlohy typu „Přechod přes řeku“ byly některé scénáře neřešitelné, přesto Apple tyto případy započítal jako chyby modelu, což vedlo ke zkreslenému výsledku.
  • Omezení hodnotící pipeline: Automatizovaný hodnotící systém Applu odměňoval pouze úplné, krok za krokem vyargumentované řešení. Částečné nebo strategicky správné odpovědi byly označeny za nesprávné, i když byly logické.

Aby svá tvrzení podpořila, Lason zopakovala Apple testy bez výstupních omezení. Výsledky ukázaly, že testované AI modely dokázaly složité logické úlohy vyřešit, když umělé bariéry zmizely, což naznačuje, že schopnost logického myšlení skutečně mají — pokud jsou systémy správně nakonfigurovány.

Testování AI pomocí klasických logických hádanek

Původní výzkum Applu hodnotil schopnost AI uvažovat využitím čtyř klasických logických úkolů: věž z Hanoje (obrázek výše), blokový svět, přechod přes řeku a skákání figurkou v dámě. Tyto úlohy, známé z oblasti kognitivních věd a vývoje AI, se s rostoucím počtem kroků a omezení stávají náročnějšími a kladou vysoké nároky na vícestupňové plánování každého modelu umělé inteligence.

Tým Applu vyžadoval, aby AI modely nejen poskytly správné odpovědi, ale také jasně popsaly svůj „řetězec myšlenek“ u každého zadání, což testování ještě zpřísnilo.

Pokles výkonu s rostoucí složitostí

Podle studie Applu klesala přesnost jazykových modelů s rostoucí obtížností úloh, u těch nejtěžších úkolů dosahovala téměř nuly. Apple to prezentoval jako důkaz základního selhání schopnosti těchto modelů logicky uvažovat.

Reakce komunity: Jde o problém uvažování, nebo jen výstupů?

Odborná i širší AI komunita na sociálních sítích rychle poukázala na obsahové nedostatky závěrů Applu. Kritici zdůraznili, že nedokončený výstup v důsledku tokenových limitů není totéž co neschopnost logicky myslet. V mnoha případech modely nabídly správnou strategii řešení, ale byly přerušeny dříve, než odpověď dokončily. Navíc Apple hodnotil negativně i neřešitelné úlohy, což zpochybnilo objektivitu hodnocení.

Dopady a význam pro trh AI

Probíhající debata má zásadní dopad na další vývoj generativní AI, velkých jazykových modelů a pokročilých AI asistentů. Technologické firmy soupeří o vytváření AI systémů, které zvládnou skutečné více-krokové logické úkoly — což je klíčové pro autonomní systémy, chytré vyhledávání, programování a další využití. Porozumění reálným možnostem a slabinám jazykových modelů je proto klíčové.

Závěry jak studie Applu, tak práce Ellen Lason zdůrazňují důležitost správně zvolených hodnotících metod a pečlivě navrženého testovacího prostředí. Jak se generativní umělá inteligence dále vyvíjí, bude férové, transparentní a robustní testování zásadní pro měření a skutečné zlepšení schopností AI řešit složité úkoly.

Zdroj: arxiv

Jsem Petr, věčný nadšenec do AI a videoher. Rád analyzuji novinky, testuji aplikace a sdílím své postřehy o tom, kam směřuje budoucnost digitálního světa.

Komentáře

Zanechte komentář