Nástroj umělé inteligence generuje vysoce kvalitní obrázky rychleji než špičkové metody
Schopnost rychle generovat vysoce kvalitní obrázky je klíčová pro tvorbu realistických simulovaných prostředí, která se používají k trénování autonomních vozidel, aby se vyhýbala nepředvídatelným nebezpečím a byla tak bezpečnější na skutečných silnicích.
Generativní techniky umělé inteligence, které se stále častěji používají k tvorbě takových obrázků, však mají své nevýhody. Jeden populární typ modelu, tzv. difúzní model, dokáže vytvářet úžasně realistické obrázky, ale je příliš pomalý a výpočetně náročný pro mnoho aplikací. Na druhou stranu, autoregresní modely, které pohánějí LLMy jako ChatGPT, jsou mnohem rychlejší, ale produkují obrázky horší kvality, které jsou často plné chyb.
Vědci z MIT a NVIDIA vyvinuli nový přístup, který spojuje to nejlepší z obou metod. Jejich hybridní nástroj pro generování obrázků využívá autoregresní model k rychlému zachycení celkového obrazu a poté malý difúzní model k vylepšení detailů obrázku.
Jejich nástroj, známý jako HART (zkratka pro hybridní autoregresní transformátor), dokáže generovat obrázky, které se vyrovnají nebo překračují kvalitu špičkových difúzních modelů, ale dělá to asi devětkrát rychleji.
Generační proces spotřebovává méně výpočetních zdrojů než typické difúzní modely, což umožňuje HARTu běžet lokálně na běžném notebooku nebo smartphonu. Uživatel pouze zadá jeden dotaz v přirozeném jazyce do rozhraní HARTu, aby vygeneroval obrázek.
HART by mohl mít širokou škálu aplikací, například pomoc výzkumníkům při trénování robotů k provádění komplexních úkolů v reálném světě a pomoc designérům při tvorbě poutavých scén pro videohry.
„Pokud malujete krajinu a celou plochu plátna vymalujete najednou, nemusí to vypadat moc dobře. Ale pokud nejprve namalujete hlavní obrázek a poté obraz vylepšíte menšími tahy štětcem, může váš obraz vypadat mnohem lépe. To je základní myšlenka HARTu,“ říká Haotian Tang SM '22, PhD '25, spoluautor nové studie o HARTu.
Je mu přidělen spoluautor Yecheng Wu, vysokoškolský student na Tsinghua University; vedoucí autor Song Han, docent na katedře elektrotechniky a informatiky MIT (EECS), člen MIT-IBM Watson AI Lab a významný vědec NVIDIA; stejně jako další na MIT, Tsinghua University a NVIDIA. Výzkum bude představen na Mezinárodní konferenci o reprezentaci učení.
To nejlepší z obou světů
Populární difúzní modely, jako Stable Diffusion a DALL-E, jsou známé tím, že produkují vysoce detailní obrázky. Tyto modely generují obrázky iterativním procesem, kde předpovídají určité množství náhodného šumu na každém pixelu, odečtou šum a poté opakují proces předpovídání a „odšumování“ několikrát, dokud nevygenerují nový obrázek, který je zcela bez šumu.
Protože difúzní model odšumuje všechny pixely na obrázku v každém kroku a může být 30 nebo více kroků, proces je pomalý a výpočetně nákladný. Ale protože model má několik šancí opravit detaily, které se mu nepovedly, jsou obrázky vysoce kvalitní.
Autoregresní modely, běžně používané pro predikci textu, mohou generovat obrázky předpovídáním částí obrázku sekvenčně, po několika pixelech najednou. Nemohou se vrátit a opravit své chyby, ale sekvenční predikční proces je mnohem rychlejší než difúze.
Tyto modely používají reprezentace známé jako tokeny k provádění predikcí. Autoregresní model využívá autoencoder k kompresi surových pixelů obrázku do diskrétních tokenů a také k rekonstrukci obrázku z předpovězených tokenů. Zatímco to zvyšuje rychlost modelu, ztráta informací, ke které dochází během komprese, způsobuje chyby, když model generuje nový obrázek.
S HARTem vědci vyvinuli hybridní přístup, který využívá autoregresní model k predikci komprimovaných, diskrétních tokenů obrázku a poté malý difúzní model k predikci zbytkových tokenů. Zbytkové tokeny kompenzují ztrátu informací modelu tím, že zachycují detaily vynechané diskrétními tokeny.
„Můžeme dosáhnout obrovského zlepšení v kvalitě rekonstrukce. Naše zbytkové tokeny se učí detaily s vysokou frekvencí, jako jsou hrany objektu nebo vlasy, oči nebo ústa osoby. To jsou místa, kde mohou diskrétní tokeny dělat chyby,“ říká Tang.
Protože difúzní model předpovídá pouze zbývající detaily poté, co autoregresní model udělal svou práci, může úkol splnit v osmi krocích, namísto obvyklých 30 nebo více, které standardní difúzní model potřebuje k vygenerování celého obrázku. Toto minimální zatížení dodatečného difúzního modelu umožňuje HARTu zachovat rychlostní výhodu autoregresního modelu, zatímco výrazně zlepšuje jeho schopnost generovat složité detaily obrázku.
„Difúzní model má snazší práci, což vede k větší efektivitě,“ dodává.
Překonání větších modelů
Během vývoje HARTu se vědci setkali s výzvami v efektivní integraci difúzního modelu pro vylepšení autoregresního modelu. Zjistili, že začlenění difúzního modelu v raných fázích autoregresního procesu vedlo k hromadění chyb. Místo toho jejich konečný návrh použití difúzního modelu k predikci pouze zbytkových tokenů v posledním kroku výrazně zlepšil kvalitu generování.
Jejich metoda, která používá kombinaci autoregresního transformačního modelu se 700 miliony parametrů a lehkých difúzních modelů s 37 miliony parametrů, dokáže generovat obrázky stejné kvality jako ty, které vytváří difúzní model s 2 miliardami parametrů, ale dělá to asi devětkrát rychleji. Používá asi o 31 procent méně výpočtů než špičkové modely.
Navíc, protože HART používá autoregresní model k provedení většiny práce – stejného typu modelu, který pohání LLMy – je kompatibilnější pro integraci s novou třídou sjednocených vizuálně-jazykových generativních modelů. V budoucnu by člověk mohl interagovat se sjednoceným vizuálně-jazykovým generativním modelem, například když ho požádá, aby ukázal mezikroky potřebné k sestavení kusu nábytku.
„LLMy jsou dobrým rozhraním pro všechny druhy modelů, jako jsou multimodální modely a modely, které dokáží uvažovat. To je způsob, jak posunout inteligenci na novou úroveň. Efektivní model generování obrázků by odemkl mnoho možností,“ říká.
V budoucnu chtějí vědci jít touto cestou a budovat vizuálně-jazykové modely na vrcholu architektury HART. Vzhledem k tomu, že HART je škálovatelný a zobecnitelný na více modalit, chtějí jej také aplikovat na úlohy generování videa a predikce zvuku.
Tento výzkum byl částečně financován MIT-IBM Watson AI Lab, MIT a Amazon Science Hub, MIT AI Hardware Program a U.S. National Science Foundation. Infrastruktura GPU pro trénování tohoto modelu byla darována společností NVIDIA.
Související články
Vědci učí velké jazykové modely řešit komplexní plánovací úlohy
Umělá inteligence umožňuje ochrnutému muži ovládat robotickou ruku pomocí mozkových signálů
Pattie Maes obdržela celoživotní ocenění ACM SIGCHI za výzkum
Sdílet na sociálních sítích:
Komentáře