DeepSeek čelí podezření z využití neveřejných dat pro trénink AI modelu R1 | Mobin.cz- Știri Auto din România | Mașini, Lansări, Teste și Noutăți
DeepSeek čelí podezření z využití neveřejných dat pro trénink AI modelu R1

DeepSeek čelí podezření z využití neveřejných dat pro trénink AI modelu R1

2025-06-04
0 Komentáře Petr Novotný

2 Minuty

DeepSeek, dynamicky se rozvíjející AI startup, nedávno představil svůj nejnovější model umělé inteligence R1, jenž vykazuje vynikající výsledky v matematickém uvažování a programovacích úlohách. Přestože výkon tohoto AI modelu vzbuzuje pozornost, společnost DeepSeek dosud nezveřejnila konkrétní zdroje trénovacích dat pro R1, což mezi výzkumníky v oblasti umělé inteligence vyvolává spekulace o možném využití dat z modelů Gemini od Googlu.

Obvinění z využití dat

Sam Peach, vývojář z Melbourne, známý svým testováním „emoční inteligence“ AI systémů, tvrdí, že má důkazy naznačující, že model DeepSeek R1-0528 preferuje slova a struktury typické pro Gemini 2.5 Pro. Ve svém příspěvku na sociální síti X Peach poukazuje na podobnost jazykových vzorců mezi modelem DeepSeek R1-0528 a Gemini 2.5 Pro.

Přestože samotné tvrzení Peache není jednoznačným důkazem, další vývojář vystupující pod přezdívkou SpeechMap, který se zaměřuje na testování „svobody projevu“ v AI modelech, uvádí, že způsob uvažování a zpracování odpovědí u DeepSeek velmi připomíná postupy používané u modelů Gemini.

Historické souvislosti a předchozí obvinění

Nejde o první případ, kdy je DeepSeek obviňován z nejasných trénovacích metod. Již dříve si někteří vývojáři všimli, že model DeepSeek V3 se často identifikoval jako ChatGPT, což může naznačovat použití konverzačních záznamů z ChatGPT při tréninku. Společnost OpenAI již dříve upozorňovala, že existují známky toho, že DeepSeek používá metodu zvanou „distilace“, při níž jsou data získávána ze silnějších AI modelů pro vylepšení tréninku menších modelů.

Výzvy v oblasti trénování AI modelů

Odborníci na strojové učení připouštějí, že mnoho AI modelů může nevědomky přijímat podobné jazykové vzorce nebo se špatně identifikovat, zejména kvůli obrovskému množství AI generovaného obsahu na internetu, který je klíčovým trénovacím zdrojem. Taková situace ztěžuje rozlišení mezi samostatně vyvinutými modely a modely ovlivněnými existujícími řešeními.

Závěr

Obvinění kolem modelu DeepSeek R1 podtrhují složitost a etické otázky spojené s tréninkem umělé inteligence. Jak se oblast AI dále vyvíjí, transparentnost ohledně zdrojů dat i trénovacích metod zůstává zásadní pro udržení důvěry a integrity v AI komunitě. Průběžná veřejná kontrola a odborná diskuze jsou nezbytné pro zajištění odpovědného rozvoje technologií umělé inteligence.

Zdroj: smarti

Jsem Petr, věčný nadšenec do AI a videoher. Rád analyzuji novinky, testuji aplikace a sdílím své postřehy o tom, kam směřuje budoucnost digitálního světa.

Komentáře

Zanechte komentář