6 Minuty
Hlasová umělá inteligence má tendenci na papíře působit působivě, zatímco v praxi bývá nápadně bez života. Xiaomi tvrdí, že na to našlo řešení. Společnost uvolnila s otevřeným zdrojovým kódem OmniVoice, nový model převodu textu na řeč navržený pro hlasové klonování, vícejazyčnou generaci řeči a jemné řízení toho, jak syntetický hlas skutečně zní.
Co toto vydání odlišuje, není jen obvyklý slib čistšího projevu nebo rychlejšího výstupu. Xiaomi prezentuje OmniVoice jako model, který dokáže pracovat ve stovkách jazyků, včetně jazyků s omezenými datovými zdroji, jež hlavní systémy pro řeč často přehlížejí. Pokud se toto tvrzení potvrdí i mimo laboratorní ukázky, může to mít dopad daleko za hranice vlajkových telefonů a chytrých asistentů.
Oznámení přišlo přes oficiální WeChat kanál Xiaomi, kde společnost uvedla, že OmniVoice podává silné výsledky jak v čínštině, tak v angličtině a v některých vícejazyčných úlohách dokáže vyrovnat nebo dokonce překonat komerční alternativy. To je odvážné prohlášení. Podrobnosti však naznačují, že Xiaomi cílí na skutečný problém v technologii řeči: většina systémů převodu textu na řeč stále funguje nejlépe v několika hlavních jazycích, zatímco ostatní jazyky dostávají ochuzenou zkušenost.
Kde může OmniVoice změnit konverzaci
Xiaomi uvádí, že OmniVoice byl navržen s důrazem na vícejazyčnou syntézu řeči. Společnost ho popisuje jako model převodu textu na řeč pro hlasové klonování, který podporuje stovky jazyků, včetně těch s velmi omezeným tréninkovým materiálem online. V praktickém pojetí to znamená, že systém má produkovat srozumitelnou, přirozeně znějící řeč i při nedostatku dat, což je výzva, která dlouho zpomalovala rozvoj hlasové umělé inteligence pro regionální a specializované jazyky.
Podle Xiaomi model v testech překonal několik komerčních systémů v rámci 24 jazyků, zejména v podobnosti hlasu a srozumitelnosti, přestože byl trénován výhradně na datech s otevřeným zdrojovým kódem. V širším hodnocení zahrnujícím 102 jazyků společnost tvrdí, že OmniVoice se přiblížil lidské úrovni srozumitelnosti a v některých případech ji dokonce překonal. Takové tvrzení samozřejmě zaslouží nezávislé ověření, ale signalizuje, jak agresivně Xiaomi chce model umístit do globálního závodu v oblasti AI.
Jednou z nejzajímavějších částí oznámení je důraz na trénink s malým množstvím dat. Xiaomi uvádí, že i jazyky s méně než deseti hodinami dostupného materiálu mohou dosáhnout vysoce kvalitní syntézy řeči. Pro komunity a vývojáře pracující s nedostatečně zastoupenými jazyky může být tohle skutečně zásadní. Model, který snižuje datovou bariéru, mění, kdo může vůbec vytvářet nástroje pro řeč.
Uvnitř systému OmniVoice zvolil jinou cestu než mnoho dnešních složitých pipeline převodu textu na řeč. Místo skládání více modulů a predikčních stupňů Xiaomi uvádí, že používá jedinou bidirekční Transformer síť, která přeměňuje text přímo na řeč. Jednodušší architektura. Méně součástí. Potenciálně méně úzkých hrdel.
Tento návrh je také spojen s rychlostí. Xiaomi tvrdí, že OmniVoice lze natrénovat na 100 000 hodinách dat za jediný den, a při inferenci může běžet až čtyřicetkrát reálnou rychlostí v prostředí PyTorch. Pro vývojáře to má velký význam. Rychlá inferenční doba je často rozdíl mezi efektním dema a řešením, které se dá integrovat do spotřebitelských produktů, zákaznických systémů, nástrojů pro přístupnost nebo obsahových platforem.
Společnost poukazuje na dvě technická rozhodnutí stojící za těmito zisky. Prvním je tzv. úplná strategie náhodného maskování kódové tabulky, která má podle popisu zlepšit jak efektivitu, tak celkový výkon modelu během tréninku. Druhým je použití velkého jazykového modelu v předtréninku, krok, který podle Xiaomi pomáhá zlepšit výslovnost a srozumitelnost v neautoregresivním rámci převodu textu na řeč. Jednoduše řečeno, model se nesnaží jen působit plynule. Snaží se porozumět struktuře jazyka natolik, aby obtížná slova vyslovoval přirozeněji.
To je obzvláště důležité v reálném světě, kde syntéza řeči často selhává u jmen, přízvuků, přejatých slov nebo textu smíšeného z více jazyků. Xiaomi uvádí, že OmniVoice zde uživatelům poskytuje více kontroly. Obtížné výslovnosti, včetně čínských polyfonních znaků a anglických vlastních jmen, lze manuálně upravit pro zlepšení spolehlivosti.
Spotřebitelské funkce jsou tím, kde OmniVoice přestává působit jako výzkumná práce a začíná se chovat jako platforma. Uživatelé si mohou generovat vlastní hlasy popisem rysů jako věk, pohlaví, výška tónu, přízvuk, dialekt a mluvní styl. Dokáže také vytvářet šeptavé hlasy a další specializované vokální styly bez nutnosti referenčního audio klipu, což představuje významný skok v pružnosti použití.
Xiaomi také uvádí, že model umí vyčistit hlučný referenční audio záznam před klonováním hlasu, čímž extrahuje jasnější rysy mluvčího z nahrávek pořízených v neideálních podmínkách. To může znít jako malý detail, ale každý, kdo pracoval s reálným audio materiálem, ví, jak neuspořádaný bývá zdrojový materiál. Systém klonování, který obstojí i při šumu v pozadí, je daleko užitečnější než ten, který funguje pouze ve studiových podmínkách.
A pak je tu expresivita. OmniVoice podporuje ovládání intonace, včetně efektů jako smích a povzdech, což by mohlo syntetické řeči dodat méně robotický a více konverzační nádech. Tím se trh ubírá. Další generace hlasové umělé inteligence není jen o přesném čtení textu nahlas. Jde o výkon, osobnost a emocionální nuance.
Xiaomi není první společností, která si tento cíl klade, a nebude ani poslední. Ale tím, že OmniVoice zveřejnila s otevřeným zdrojovým kódem, vsází strategicky na to, že širší přístup vývojářů pomůže prosadit její technologii řeči do více produktů, na více trhů a do více jazyků. Pokud model splní i část ze slíbeného, může se OmniVoice stát jedním z nejzajímavějších vydání s otevřeným zdrojovým kódem v oblasti hlasové AI tohoto roku.
Zanechte komentář