16 Minuty
Čtyři hlavní modely. Devět kategorií. Jeden celkový vítěz. Toto není laboratorní benchmark s nejasnými žebříčky — jde o praktické, end‑to‑end porovnání postavené na úlohách, na kterých lidem skutečně záleží: řešení reálných problémů pod časovým tlakem, generování obrázků a videa, ověřování faktů bez internetu, analýza neuspořádaných vstupů, kreativita na požádání, přirozená hlasová komunikace a hloubkové výzkumy, které obstojí v prověrce. Každou podúlohu jsme hodnotili 0–4 body a vedli průběžný součet. Na konci jsme korunovali šampiona a — důležitější — přiřadili každý model k práci, pro kterou se hodí nejvíce.
Krátká odpověď hned na začátku: vítězem je Gemini s 46 body. ChatGPT končí těsně druhý s 39 body. Grok je třetí se 35 body. DeepSeek zaostává s 17 body. To ale neznamená, že byste měli vždy volit vítěze. Různé kategorie zvýhodňují různé silné stránky a vhodný model závisí na tom, jakou práci potřebujete vykonat. Toto hodnocení ukazuje přesně, kde který model vyniká a kde chybí, s konkrétními příklady a plně transparentním skórováním.
Jak jsme testovali
- Modely v porovnání: ChatGPT, Gemini, Grok, DeepSeek.
- Kategorie: devět celkem. Některé zahrnují více kol nebo promptů.
- Hodnocení: každé kolo 0–4 bodů. Když zdrojové porovnání specifikovalo explicitní skóre nebo pořadí, použili jsme je; jinak jsme se řídili stejnými pravidly a rubrikou.
- Omezení: v kolech, kde byl zakázán přístup k internetu, jsme toto omezení dodrželi. Pokud schopnost neexistovala (např. generování obrázků nebo videa u DeepSeek), model dostal v daném kole nulu.
- Rychlost: zaznamenána popisně, nebyla skórována jako samostatná kategorie, aby celkové součty odpovídaly původní soutěži.
Naším cílem nebylo vytvářet laciné pastičky. Šlo o zkoumání chování v reálném světě, včetně režimů selhání, jako je vymýšlení detailů při analýze obrázků nebo povrchní rozpočtová matematika, která scénář ignoruje.
Kategorie 1: Řešení problémů
Dvě realistické výzvy. Hodnoceny zvlášť a pak sečetány.
Kolo 1: Máte 10 dolarů, vybitý telefon, žádnou mapu a 45 minut na to, abyste se dostali na centrální vlakové nádraží v cizím městě. Dejte pětikrokový plán.
- Rychlost: DeepSeek odpoví za 7 sekund, Grok za 11, Gemini za 21, ChatGPT za 62.
- Kvalita: všechny čtyři modely dodávají strukturované, použitelné pětikrokové plány.
- Peer review twist: poté jsme všechny čtyři odpovědi ukázali jednotlivě modelům a požádali je, aby vybraly nejlepší. Každý model nezávisle vybral odpověď ChatGPT.
Skóre, kolo 1
ChatGPT 4, Gemini 3, Grok 2, DeepSeek 1.
Kolo 2: Po zaplacení nájmu máte 400 dolarů na potraviny, dopravu a internet. Potraviny stojí 50 týdně, doprava 80 měsíčně, internet 60 měsíčně. Příští měsíc chcete jít na akci za 200 dolarů. Jak rozpočtovat?
Úskalí při uvažování. ChatGPT, Grok a DeepSeek se rozhodli odložit pouze 60 dolarů nyní a „šetřit více příští měsíc“, což je příliš pozdě. Gemini byl jediný, kdo plán upravil okamžitě: snížit výdaje na potraviny o 15 dolarů týdně pomocí nákupu ve slevách a přísného plánování jídel, aby se schodek vyřešil už tento měsíc.
Skóre, kolo 2
Gemini 4, ChatGPT 3, Grok 3, DeepSeek 2.
Souhrn: Řešení problémů
Interpretace: ChatGPT ukázal silné krokové plánování a vyhrál hlasování peer review; Gemini ukázal lepší adaptaci scénáře při omezeních. Oba tak skončily na prvním místě v této kategorii.
Kategorie 2: Generování obrázků
Dva promptu. DeepSeek nedokáže generovat obrázky a v této části má tudíž nulu.
Prompt 1: Fotorealistická Mona Lisa jako frustrovaná pouliční protestující na Times Square s kartonovým nápisem „Make Florence great again“ tučným červeným písmem.
- Grok: nejrychlejší, ale zjevně umělý výsledek. Postava vypadá špatně, i s dalšími prsty či rukama.
- Gemini: dobrá kompozice a prostředí; subjekt však má stále tři ruce.
- ChatGPT: nejpřirozenější postava s přesvědčivým zázemím Times Square; cedule a póza odpovídají zadání.
Skóre
ChatGPT 4, Gemini 3, Grok 1, DeepSeek 0.
Prompt 2: Fotorealistická třída s hippie učitelem u tabule, kde je celé abecední písmo křídou se zmenšujícími se písmeny.
- Grok: třída a rukopis působí autenticky, ale samotná abeceda je chybná a neúplná.
- Gemini: esteticky líbivé, ale více stylizované než fotorealistické; písmo je příliš dokonalé.
- ChatGPT: celkově nejpřesvědčivější; osvětlení, detaily třídy a učitelka vypadají věrohodně. Rukopis je možná až příliš perfektní.
Původní soutěž omezila nejvyšší skóre na 3 pro toto konkrétní kolo.
Skóre
ChatGPT 3, Gemini 2, Grok 2, DeepSeek 0.
Interpretace: ChatGPT je nejspolehlivější pro fotorealistické podněty. Gemini se většinou dostane blízko, zatímco Grok má potíže s jemnou anatomií a věrností textu v obrazech.
Kategorie 3: Ověřování faktů bez internetu
Tři otázky s výběrem odpovědí. Zaznamenali jsme i skóre důvěry, ale neměnilo rubricu.
Otázka 1: V roce 2018 přibližně kolik kuřat bylo poraženo pro produkci masa?
Možnosti: 690 milionů, 6,9 miliardy, 69 miliard, 690 miliard.
Správně: 69 miliard.
- Grok odpoví rovnou 69 miliard.
- ChatGPT dává rozsah, který správnou hodnotu zahrnuje.
- Gemini a DeepSeek se pohybují mírně níže kolem 65 miliard.
Skóre
Grok 4, ChatGPT 3, Gemini 1, DeepSeek 1.
Otázka 2: K roku 2020, přibližně jaký roční příjem vás řadí mezi nejbohatší 1 % globálně?
Možnosti: 200k, 75k, 35k, 15k.
Správně: 35k (35 000 USD).
- Gemini uvádí 34k.
- ChatGPT navrhuje 200k, Grok 60k, DeepSeek 75–85k.
Skóre
Gemini 4, ostatní 0.
Otázka 3: V roce 2019, jaký podíl elektrické energie v USA pocházel z fosilních paliv?
Možnosti: 83 %, 63 %, 43 %, 23 %.
Správně: 63 %.
- Gemini přesně 63 %.
- ChatGPT 63–65 %, Grok 62 %, DeepSeek 60–65 %.
Skóre
Gemini 4, ChatGPT 3, Grok 3, DeepSeek 3.
Interpretace: Gemini vyhrává na přesnost a konzistenci. Grok zvládl první otázku skvěle, ale u hranice příjmu udělal chybu. ChatGPT poskytuje rozsahy, což pomáhá, ale v těchto kvízech je důležitá přesnost.
Kategorie 4: Multimodální analýza
Dvě kola: foto z lednice a ilustrace typu "Kde je Waldo" (Where’s Waldo).
Kolo 1: Co je v lednici a navrhněte tři jídla z těchto surovin.
- DeepSeek nedokáže identifikovat objekty a vypadává.
- ChatGPT přehlédne tři položky, nevycucá nic z prstu a navrhne rozumná jídla, která odpovídají inventáři.
- Gemini minulo sedm položek a vymyslelo citrusy, které tam nejsou.
- Grok minulo tři položky, ale vynalezl dlouhý seznam dalších ingrediencí a pak napsal recepty, které tyto fiktivní položky vyžadují.
Skóre
ChatGPT 4, Gemini 3, Grok 2, DeepSeek 0.
Kolo 2: Najděte Walda v rušné ilustraci.
Žádný z modelů Walda správně nenašel. DeepSeek četl náhodný text v obrázku a nabídl neodpověď.
Skóre
Všichni 0.
Interpretace: halucinované objekty jsou smrtící pro reálnou použitelnost. ChatGPT odolává pokušení vymýšlet si a tato zdrženlivost vyhrává kolo.
Kategorie 5: Generování videa
Dva klasické záběry. DeepSeek nedokáže generovat video a opět má nulu.
Kolo 1: Image‑to‑video ze slavné fotografie Neila Armstronga na Měsíci
Některé systémy odmítly přímo animovat osoby, takže jsme přeformulovali prompt přes textový popis. Zvuk byl překvapivě dobrý.
- Gemini: nejvíce filmový dojem a nejlepší sladění zvuku; fyzikální chyba: vlajka vlní, což ve vakuu není možné.
- Grok: solidní, ale měřítko lodi je mimo a je tam „vítr“.
- ChatGPT: přijatelný výsledek, ale méně poutavý než u dvou předešlých.
Skóre
Gemini 4, Grok 3, ChatGPT 2, DeepSeek 0.
Kolo 2: Dělníci na ocelových nosnících vysoko nad městem
- Gemini: nejlepší pohyb kamery a paralaxa; cigarety vypadají trochu mimo.
- Grok: silné napětí se houpajícím nosníkem; noviny se v průběhu scény nerealisticky transformují.
- ChatGPT: slušné, ale není na špici.
Skóre
Gemini 4, Grok 3, ChatGPT 2, DeepSeek 0.
Interpretace: Gemini jasně vede v kvalitě pohybu a zvukovém designu. Grok je těsně za ním, ale dělá chyby v realističnosti. ChatGPT je stabilní, ale méně filmový.
Kategorie 6: Kreativní generace
Dva krátké promptu na slovní hříčky a "dad jokes" (tatínkovské vtipy).
Prompt 1: Tři originální tech slovní hříčky a jednověté vysvětlení ke každé
Všechny čtyři modely vyhověly hladce. Oblíbenec týmu:
„Snažil jsem se udělat vtip o USB, ale prostě se to nepřipojilo.“
Skóre
ChatGPT 3, Gemini 3, Grok 3, DeepSeek 3.
Prompt 2: Tři originální "dad jokes", které mě fakt rozesmějí
- Grok se nedaří držet obecné téma a neustále žertuje o smartphonech a Wi‑Fi.
- ChatGPT, Gemini, DeepSeek dodávají skutečné obecné tatínkovské vtipy. Oblíbenec týmu:
„Pekařovi shořela pekárna včera v noci. Teď má podnikání toast.“
Skóre
ChatGPT 4, Gemini 4, DeepSeek 4, Grok 1.
Interpretace: nerozhodný trojboj o prvním místě; DeepSeek ukazuje, že rychlý lehký humor je jeho silná stránka.
Kategorie 7: Hlasový mód
Nastavili jsme tři zařízení vedle sebe a provedli strukturované mini debaty. DeepSeek nemá hlasový mód a má nulu.
- ChatGPT začíná s podivnými pauzami a náhlými změnami tónu uprostřed věty.
- Gemini je hladší a přirozenější s konzistentním rytmem.
- Grok je rychlý, sebejistý a trochu ostřejší; v přímém srovnání s Gemini zní oba silně a hodnotíme to jako remízu.
Skóre
Gemini 4, Grok 4, ChatGPT 2, DeepSeek 0.
Interpretace: pokud chcete přirozený hlasový rozhovor, Gemini a Grok jsou momentálně nejlepší volby.
Kategorie 8: Hloubkový výzkum
Prompt: porovnejte iPhone 17 Pro Max vs Galaxy S25 Ultra pro fotografy; použijte recenze a oficiální specifikace, rozhodněte, který telefon je lepší, buďte struční.
- DeepSeek mylně tvrdí 5× telefoto u iPhonu, kde je 4×, a nesprávně uvádí ultrawide u Galaxy jako 12 MP místo 50; opakovaně odkazuje na 10× teleobjektiv, který od S24 zmizel.
- ChatGPT opomene dvojité teleobjektivy u Galaxy a vynechá přední kamery, ale zahrne cenu.
- Gemini uvádí správné uspořádání kamer u Galaxy a vytváří vyvážené závěry.
- Grok poskytne nejúplnější a nejpřesnější přehled specifikací.
Společný závěr: všechny čtyři konvergují na stejném verdiktu — iPhone vede v konzistenci a kvalitě videa; Galaxy vítězí v dlouhém zoomu a pokročilých AI nástrojích. To odpovídá praktickým zkušenostem, i když některé drobné specifikace je třeba ověřit.
Skóre
Grok 4, Gemini 3, ChatGPT 2, DeepSeek 1.
Interpretace: Grok vychází jako vítěz v úkolech hloubkového výzkumu, Gemini těsně za ním; ChatGPT je užitečný, ale přehlédl klíčová fakta o kamerách; DeepSeek potřebuje přísnější kontrolu specifik.
Kategorie 9: Rychlost (pozorováno, neskórováno)
- ChatGPT působí nejrychleji u prostého textu, ale zpomaluje u obrazových a hloubkových výzkumů.
- Gemini je konzistentní téměř ve všem; málokdy je nejrychlejší a téměř nikdy nejpomalejší.
- Grok je obecně svižný, ale může se zaseknout v analýze a výzkumu.
- DeepSeek často odpovídá pod 10 sekund, ale tato rychlost často obětuje kontext a přesnost.
Rychlost jsme jako samostatnou kategorii nehodnotili, aby výsledné body zůstaly v souladu s originální soutěží.
Kompletní žebříček
Pro transparentnost zde uvádíme kompletní tabulku bodů podle kategorií, odpovídající konečným součtům zdrojové soutěže.
Celkové pořadí: vítěz Gemini (46 bodů). Druhý ChatGPT (39). Třetí Grok (35). Čtvrtý DeepSeek (17).
Silné stránky, slabiny a režimy selhání
Porovnání dává smysl jen tehdy, když vysvětluje proč se modely chovají tak, jak se chovají. Toto jsou konzistentní vzory, které jsme pozorovali.
ChatGPT
- Silné stránky: vysoce strukturované uvažování v omezeních; konzervativnější analýza obrázků s menší tendencí halucinovat; nečekaně silné fotorealistické generování obrázků; spolehlivé kreativní psaní.
- Slabiny: zpomaluje u těžkých multimodálních úloh; občas vynechá specifikace ve výzkumu; hlasová produkce potřebuje stabilnější prosodii.
- Režimy selhání: malé, ale důležité faktické mezery v porovnání více zařízení; poddimenzované odpovědi, pokud je prompt příliš stručný.
Pro koho je ChatGPT vhodný: když potřebujete generování obrázků, které přesně dodržuje zadání, krokové plány nebo kreativní text, který má přesnou formulaci. Hodí se i pro logiku receptů a potravin při neúplném inventáři.
Gemini
- Silné stránky: nejlepší celková rovnováha; přesný při ověřování faktů bez prohlížení; nejpřesvědčivější video a zvukové vyznění; adaptivní řešení problémů; nejhladší hlasový projev.
- Slabiny: občas přepoliturované obrázky; může přidat pěkné, ale smyšlené detaily v analýze obrazu; málokdy nejrychlejší.
- Režimy selhání: fotorealistické promptu náročné na typografii nebo dokonalost anatomie mohou Gemini potrápit; v promptu jasně stanovte omezení jako fyziku ve videu.
Pro koho je Gemini vhodný: ideální výchozí model pro většinu úloh, zvláště když práce míchá uvažování a multimodální generování a záleží vám na správnosti a konzistenci.
Grok
- Silné stránky: výborný pro hloubkové výzkumy; výrazná hlasová osobnost; rychlé první průchody; pevné chápání struktury debat.
- Slabiny: halucinace v analýze obrazu; prolomení realismu ve videu; občasné tunelové vidění v kreativních prompty.
- Režimy selhání: vymyšlené položky na fotografiích; sebejisté, avšak chybné specifické údaje; lpění na opuštěném tématu, když se prompt změnil.
Pro koho je Grok vhodný: pokud potřebujete ostrého pomocníka pro sběr specifikací a recenzí nebo výrazné hlasové vystoupení. Kombinujte s manuální kontrolou, když záleží na přesnosti.
DeepSeek
- Silné stránky: rychlý u textu; překvapivě dobrý v krátkém humorném obsahu; solidní v následování jednoduchých kreativních zadání.
- Slabiny: bez generování obrázků a videa; nedokáže identifikovat objekty na obrázcích; volnější faktická přesnost ve výzkumu.
- Režimy selhání: sebejisté, ale zkreslené číselné údaje; čtení textu v obrázcích při ignorování scény.
Pro koho je DeepSeek vhodný: chcete‑li levný, velmi rychlý textový výstup pro jednoduché úlohy, vtipy nebo návrhy, které hodláte upravit sami.
Praktická doporučení podle použití
- Fotorealistické generování obrázků s důrazem na přesnost promptu: ChatGPT
- Analýza obrázků bez halucinací: ChatGPT
- Generování videa s lepším pohybem a zvukem: Gemini
- Náročné ověřování faktů bez browsingu: Gemini
- Řešení problémů v omezených podmínkách: Gemini a ChatGPT
- Přirozená, stabilní hlasová konverzace: Gemini a Grok
- Srovnání specifikací a souhrny produktového výzkumu: Grok
- Rychlý, lehký kreativní text: DeepSeek
Proč vítěz méně záleží než správná volba
Gemini získal nejvíce bodů, protože kombinuje přesnost, adaptabilitu a multimodální kvalitu. Tato rovnováha vítězí v soutěžích. V reálné práci je však důležitější shoda na konkrétní úloze. Pokud váš denní provoz stojí na statických obrazech, ChatGPT může pro vás reálně vydělat víc, než naznačují skóre. Pokud sestavujete tabulky specifikací, Grok může být nejrychlejší cestou k publikovatelné verzi. Potřebujete‑li levný rychlý punchline nebo hrubý návrh, rychlost DeepSeek je výhoda, ne vada.
Přemýšlejte o těchto modelech jako o objektivech v brašně fotoaparátu. „Nejlepší“ objektiv na papíře není ten, který vždy potřebujete. Zvolte ohniskovou vzdálenost, která sedí k záběru.
Omezení a poznámky k reprodukovatelnosti
- Kola bez internetu: všechny modely pracovaly z uloženého vědění, které stárne. Pokud test zopakujete o měsíce později, faktická čísla se mohou posunout s aktualizacemi modelů nebo tréninkových dat.
- Generativní variabilita: náhodnost mezi běhy může změnit přesné znění nebo malé detaily. Kontrolovali jsme to tím, že jsme se zaměřili na správnost a dodržení zadání, ne na stylovou jiskru.
- Rychlost: zaznamenaná kvalitativně. Infrastruktura a zatížení ovlivňují latenci; model, který je dnes nejrychlejší, může být zítra pomalejší.
- Mezery v modalitách: tam, kde schopnost chybí (DeepSeek pro obrázky a video), nula není kritika textové schopnosti; odráží pouze rozsah produktu.
Verdikt
- Vítěz: Gemini (46 bodů). Nejlepší všestranný model pro rok 2025 s výraznými výsledky v ověřování faktů, generování videa a adaptivním řešení problémů, navíc s nejplynulejším hlasem.
- Druhý: ChatGPT (39 bodů). Vedoucí v fotorealistickém generování obrázků, strukturovaném řešení problémů, spolehlivý kreativní partner a nejopatrnější při analýze obrázků.
- Třetí: Grok (35 bodů). Eso ve výzkumu se výraznou hlasovou osobností. Ověřujte specifika, když je třeba přesnost.
- Čtvrtý: DeepSeek (17 bodů). Rychlý, jednoduchý a překvapivě zábavný pro lehký kreativní obsah, ale postrádá multimodální hloubku konkurentů.
Pokud chcete jeden model, který zvládne nejširší škálu běžných úkolů s nejmenším počtem překvapení, vyberte Gemini. Pokud váš pracovní tok závisí na obrázcích a oceníte pečlivé, krokové uvažování, ChatGPT bude pohodlnou volbou. Pro zadání s množstvím specifikací a úderné mluvené debaty je Grok přitažlivý. Pro rychlý, nízkonákladový text tam, kde je důležitá cena a rychlost více než šíře, DeepSeek splní účel.
Devět kategorií. Jeden žebříček. Spousta prostoru pro nuance. Zvolte správný nástroj a kterýkoliv z těchto modelů může být nejchytřejším kolegou v místnosti.
Zanechte komentář