Vytvořte si AI tutoriál na míru! Vyzkoušejte generátor tutoriálů a ušetřete čas.

Nový způsob optimalizace komplexních koordinovaných systémů

Sdílet na sociálních sítích:
Napsal: Jan Kubice
Umělá inteligence

Vědci z MIT vyvinuli novou metodu optimalizace softwaru pomocí jednoduchých diagramů, která zjednodušuje řešení komplexních problémů v oblasti hlubokého učení.

Obrázek novinky

Nový způsob optimalizace komplexních koordinovaných systémů

Koordinace složitých interaktivních systémů, ať už se jedná o různé druhy dopravy ve městě nebo o jednotlivé komponenty, které musí spolupracovat pro efektivní fungování robota, je pro softwarové vývojáře stále důležitějším úkolem. Vědci z MIT vyvinuli zcela nový přístup k řešení těchto komplexních problémů – využívají jednoduché diagramy k odhalení lepších metod optimalizace softwaru v modelech hlubokého učení.

Tvrdí, že nová metoda je tak jednoduchá, že se dá znázornit i na zadní straně ubrousku.

Nový přístup je popsán v časopise Transactions of Machine Learning Research v článku příchozího doktoranda Vincenta Abbotta a profesora Gioele Zardiniho z MIT Laboratory for Information and Decision Systems (LIDS).

„Navrhli jsme nový jazyk pro popis těchto systémů,“ říká Zardini. Tento nový diagram-založený „jazyk“ je silně založen na tzv. teorii kategorií.

Vše se točí kolem návrhu základní architektury počítačových algoritmů – programů, které budou skutečně snímat a řídit různé části optimalizovaného systému. „Komponenty jsou různé části algoritmu a musí spolu komunikovat, vyměňovat si informace, ale také zohledňovat spotřebu energie, využití paměti a tak dále.“ Takové optimalizace jsou notoricky obtížné, protože každá změna v jedné části systému může způsobit změny v jiných částech, což může dále ovlivnit další části, a tak dále.

Výzkumníci se zaměřili na konkrétní třídu algoritmů hlubokého učení, které jsou v současné době předmětem intenzivního výzkumu. Hluboké učení je základem velkých modelů umělé inteligence, včetně velkých jazykových modelů, jako je ChatGPT, a modelů generujících obrázky, jako je Midjourney. Tyto modely manipulují s daty pomocí „hluboké“ série násobení matic proložených dalšími operacemi. Čísla v maticích jsou parametry a aktualizují se během dlouhých tréninků, což umožňuje nalézt komplexní vzorce. Modely se skládají z miliard parametrů, což činí výpočet nákladným, a proto je vylepšené využití zdrojů a optimalizace velmi cenné.

Diagramy mohou znázorňovat podrobnosti paralelizovaných operací, ze kterých se skládají modely hlubokého učení, odhalují vztahy mezi algoritmy a paralelizovaným grafickým procesorem (GPU), dodávaným společnostmi jako NVIDIA. „Jsem z toho velmi nadšený,“ říká Zardini, protože „zdá se, že jsme našli jazyk, který velmi dobře popisuje algoritmy hlubokého učení, výslovně reprezentující všechny důležité věci, jako jsou použité operátory,“ například spotřebu energie, přidělení paměti a další parametry, které se snažíte optimalizovat.

Velká část pokroku v oblasti hlubokého učení pramení z optimalizace využití zdrojů. Nejnovější model DeepSeek ukázal, že malý tým může konkurovat špičkovým modelům z OpenAI a dalších velkých laboratoří tím, že se zaměří na efektivitu zdrojů a vztah mezi softwarem a hardwarem. Obvykle, při odvozování těchto optimalizací, říká, „lidi potřebují hodně pokusů a omylů k objevování nových architektur.“ Například široce používaný optimalizační program FlashAttention trval více než čtyři roky vývoje. Ale s novým rámec, který vyvinuli, „můžeme k tomuto problému přistupovat formálnějším způsobem.“ A to vše je vizuálně znázorněno v přesně definovaném grafickém jazyce.

Metody, které se používaly k nalezení těchto zlepšení, „jsou velmi omezené,“ říká. „Myslím si, že to ukazuje, že existuje velká mezera v tom, že nemáme formální systematickou metodu pro vztažení algoritmu k jeho optimálnímu provedení, nebo dokonce pro pochopení toho, kolik zdrojů bude jeho spuštění vyžadovat.“ Ale nyní, s novou diagram-založenou metodou, kterou vymysleli, takový systém existuje.

Teorie kategorií, která je základem tohoto přístupu, je způsob matematického popisu různých komponent systému a jejich interakce zobecněným, abstraktním způsobem. Lze vzájemně propojit různé perspektivy. Například matematické vzorce lze spojit s algoritmy, které je implementují a využívají zdroje, nebo popisy systémů lze spojit s robustními „monoidálními strunnými diagramy“. Tyto vizualizace vám umožňují přímo experimentovat s tím, jak se různé části spojují a interagují. To, co vyvinuli, říká, představuje „strunné diagramy na steroidech“, které zahrnují mnohem více grafických konvencí a vlastností.

„Teorii kategorií lze považovat za matematiku abstrakce a kompozice,“ říká Abbott. „Jakýkoli kompoziční systém lze popsat pomocí teorie kategorií a lze také studovat vztah mezi kompozičními systémy.“ Algebraická pravidla, která jsou typicky spojena s funkcemi, lze také reprezentovat jako diagramy. „Pak mnoho vizuálních triků, které můžeme s diagramy provádět, můžeme spojit s algebraickými triky a funkcemi. Takže to vytvoří tuto korespondenci mezi těmito různými systémy.“

V důsledku toho, říká, „to řeší velmi důležitý problém, a to, že máme tyto algoritmy hlubokého učení, ale nejsou jasně chápány jako matematické modely.“ Reprezentováním jich jako diagramů se však stává možné k nim přistupovat formálně a systematicky.

Jedna věc, kterou to umožňuje, je jasné vizuální pochopení způsobu, jakým lze paralelní procesy v reálném světě reprezentovat paralelním zpracováním v vícejádrových počítačových GPU. „Tímto způsobem,“ říká Abbott, „diagramy mohou jak reprezentovat funkci, tak odhalit, jak ji optimálně spustit na GPU.“

Algoritmus „pozornosti“ je používán algoritmy hlubokého učení, které vyžadují obecné kontextové informace, a je klíčovou fází serializovaných bloků, které tvoří velké jazykové modely, jako je ChatGPT. FlashAttention je optimalizace, jejíž vývoj trval roky, ale vedla k šestinásobnému zlepšení rychlosti algoritmů pozornosti.

Použitím své metody na zavedený algoritmus FlashAttention Zardini říká, že „zde jsme schopni ho odvodit doslova na ubrousku.“ Pak dodává: „Dobře, možná na velkém ubrousku.“ Ale aby zdůraznil, o kolik jejich nový přístup může zjednodušit práci s těmito komplexními algoritmy, nazvali svůj formální výzkumný článek na toto téma „FlashAttention na ubrousku“.

Tato metoda, říká Abbott, „umožňuje velmi rychle odvodit optimalizaci, na rozdíl od převládajících metod.“ I když nejprve aplikovali tento přístup na již existující algoritmus FlashAttention, čímž ověřili jeho účinnost, „doufáme, že nyní tento jazyk použijeme k automatizaci detekce zlepšení,“ říká Zardini, který je kromě toho, že je hlavním vyšetřovatelem v LIDS, asistentem profesora stavebního a environmentálního inženýrství Rudge a Nancy Allen a přidruženým fakultou Institutu pro data, systémy a společnost.

Plán je, že nakonec, říká, vyvinou software do bodu, kdy „výzkumník nahraje svůj kód a s novým algoritmem automaticky detekuje, co lze vylepšit, co lze optimalizovat, a uživateli vrátí optimalizovanou verzi algoritmu.“

Kromě automatizace optimalizace algoritmů Zardini poznamenává, že robustní analýza vztahu algoritmů hlubokého učení k využití hardwarových zdrojů umožňuje systematický společný návrh hardwaru a softwaru. Tato linie práce se integruje se Zardiniho zaměřením na kategorický společný návrh, který používá nástroje teorie kategorií k současné optimalizaci různých komponent technických systémů.

Abbott říká, že „celé toto pole optimalizovaných modelů hlubokého učení je, věřím, docela kriticky neřešené, a proto jsou tyto diagramy tak vzrušující. Otevírají dveře k systematickému přístupu k tomuto problému.“

„Jsem velmi ohromen kvalitou tohoto výzkumu. ... Nový přístup k diagramovému znázorňování algoritmů hlubokého učení použitý v tomto článku by mohl být velmi významným krokem,“ říká Jeremy Howard, zakladatel a generální ředitel Answers.ai, který s touto prací nebyl spojen. „Tento článek je poprvé, co jsem viděl takovou notaci použitou k hluboké analýze výkonu algoritmu hlubokého učení na hardwaru v reálném světě. ... Dalším krokem bude zjistit, zda lze dosáhnout skutečného zlepšení výkonu v reálném světě.“

„Je to krásně provedený kus teoretického výzkumu, který také usiluje o vysokou přístupnost pro nezkušené čtenáře – rys, který se u článků tohoto druhu jen zřídka vidí,“ říká Petar Velickovic, vedoucí výzkumný pracovník v Google DeepMind a lektor na Cambridge University, který s touto prací nebyl spojen. Tito výzkumníci, říká, „jsou jasně vynikající komunikátoři a nemohu se dočkat, co vymyslí dál!“

Nový diagram-založený jazyk, který byl zveřejněn online, již vzbudil velkou pozornost a zájem mezi vývojáři softwaru. Recenzent z předchozího Abbottův článku, který představil diagramy, poznamenal: „Navrhované neurální obvodové diagramy vypadají skvěle z uměleckého hlediska (pokud jsem schopen to posoudit).“ „Je to technický výzkum, ale je to také efektní!“ říká Zardini.

Související články

Sdílet na sociálních sítích:

Komentáře

Zatím žádné komentáře. Buďte první, kdo napíše svůj názor!