2 Minuty
Studie Apple ukazuje, kde generativní AI selhává při složitých úkolech
Nejnovější výzkum společnosti Apple odhalil výrazná omezení v schopnosti generativních AI modelů řešit náročné problémy. Studie ukazuje, že zatímco tyto AI systémy zvládají úkoly střední obtížnosti, při komplexnějších výzvách selhávají, což zdůrazňuje zásadní rozdíl mezi strojovým zpracováním a lidským uvažováním.
Hodnocení výkonu AI podle úrovně složitosti úkolu
Výzkumný tým Apple analyzoval výkonnost velkých modelů určených pro logické úlohy (LRM), například Claude 3.7 Sonnet Thinking a DeepSeek-R1. Modely byly testovány v kontrolovaných podmínkách s využitím tradičních hádanek jako Věž z Hanoje či úlohy s převozem přes řeku. Cílem bylo posoudit nejen finální odpovědi poskytnuté jazykovými modely, ale také jejich vnitřní logiku a způsob uvažování.
Výsledky ukázaly, že u jednodušších úloh dosahovaly klasické jazykové modely (LLM), které nevyužívají explicitní mechanismy uvažování, vyšších úspěšností a efektivity při menší náročnosti na výpočetní výkon. S rostoucí obtížností se lépe osvědčily modely se strukturovaným uvažováním, například využívající metodu "řetězení myšlenek". Nicméně při opravdu složitých problémech došlo ke zcela zásadnímu poklesu přesnosti u všech hodnocených modelů – a to i v případě dostatku výpočetních zdrojů.
Překvapivé vzorce v logice AI systémů
Podrobná analýza způsobu uvažování AI modelů odhalila překvapivé tendence. Zpočátku se s rostoucí obtížností prodlužoval čas potřebný pro řešení, avšak těsně před selháním modely naopak zkracovaly dobu svého uvažování, i když měly stále k dispozici další výpočetní kapacity.
Navíc i při zadání přesných postupných instrukcí měly modely v komplexních situacích problémy s jejich správným provedením. To naznačuje zásadní slabinu ve schopnosti logického usuzování. Výrazně lepší výsledky AI vykazovala u známých hádanek, což upozorňuje na silnou závislost na tréninkových datech namísto opravdových, zobecnitených dovedností v logickém myšlení.
Závěr
Výzkum Apple zvýrazňuje současná omezení generativních modelů umělé inteligence v oblasti lidského uvažování, především při řešení složitých problémů. Zjištění podtrhují potřebu dalšího rozvoje AI, aby bylo možné překlenout propast mezi strojovým zpracováním úloh a kognitivními schopnostmi člověka.

Komentáře