Trénink velkých jazykových modelů k sebe-detoxikaci jejich jazyka
Sdílet na sociálních sítích:
Nová metoda z MIT-IBM Watson AI Lab pomáhá velkým jazykovým modelům řídit jejich odpovědi směrem k bezpečnějším a eticky správnějším výstupům.

Stejně jako se náš slovník a jeho používání vyvíjí s věkem a zkušenostmi, čímž se zlepšují naše myšlení, uvažování a interakce s ostatními, i velké jazykové modely (LLM) mohou získat schopnost samoregulace jazyka. LLM jsou trénovány na rozsáhlých veřejných datových sadách, které často obsahují zaujatost a toxický jazyk.
\nNová metoda z MIT, MIT-IBM Watson AI Lab a IBM Research nazvaná self-disciplined autoregressive sampling (SASA) umožňuje LLM detoxikovat jejich vlastní výstupy, aniž by se obětovala plynulost. Na rozdíl od jiných metod tato metoda učení se hranic mezi toxickými a netoxickými podprostory uvnitř vlastní vnitřní reprezentace LLM, aniž by měnila parametry modelu, vyžadovala přeškolení nebo externí odměňovací model.
\nAlgoritmus během inference hodnotí toxicitu částečně generované fráze: již vygenerované a přijaté tokeny (slova) spolu s každým potenciálním novým tokenem, který by mohl být rozumně zvolen pro blízkost k hranici klasifikátoru. Poté vybere slovní variantu, která umístí frázi do netoxického prostoru, a nabízí tak rychlý a efektivní způsob generování méně toxického jazyka.
\n„Chtěli jsme najít způsob, jak s libovolným existujícím jazykovým modelem během procesu generování dekodování podléhalo lidským hodnotám; příkladem, který zde uvádíme, je toxicita,“ říká vedoucí autorka studie Ching-Yun „Irene“ Ko, PhD '24, bývalá absolventská stážistka v MIT-IBM Watson AI Lab a současná výzkumná vědkyně v IBM Thomas J. Watson Research Center v New Yorku.
\nKo spolupracuje s Lucou Danielem, profesorem na MIT Department of Electrical Engineering and Computer Science (EECS), členem MIT-IBM Watson AI Lab a Koiným vedoucím práce, a s několika členy MIT-IBM Watson AI Lab a/nebo IBM Research – Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury a Tejaswini Pedapati. Práce bude prezentována na International Conference on Learning Representations.
\nTréninkové zdroje za LLM téměř vždy zahrnují obsah shromážděný z veřejných prostor, jako je internet a další snadno dostupné datové sady. Jako takové je nadávky a šikana/nepříjemný jazyk součástí, ačkoli některé z nich jsou v kontextu literárních děl. Z toho vyplývá, že LLM mohou samy produkovat – nebo být přiměřeně k generování – nebezpečný a/nebo zaujatý obsah, který často obsahuje nepříjemná slova nebo nenávistnou řeč, i z nevinných výzev. Dále se zjistilo, že se mohou učit a zesilovat jazyk, který není pro mnoho aplikací a následných úloh preferován nebo dokonce škodlivý – což vede k potřebě zmírňujících nebo korekčních strategií.
\nExistuje mnoho způsobů, jak dosáhnout robustní generace jazyka, která je spravedlivá a hodnotně sladěná. Některé metody používají přeškolení LLM se sterilizovanou datovou sadou, což je nákladné, trvá to dlouho a může to změnit výkon LLM; jiné používají dekodování externích odměňovacích modelů, jako je vzorkování nebo vyhledávání paprsků, což trvá déle a vyžaduje více paměti. V případě SASA Ko, Daniel a tým IBM Research vyvinuli metodu, která využívá autoregresní povahy LLM a pomocí strategie založené na dekodování během inference LLM postupně řídí generování – jeden token najednou – pryč od nepříjemných nebo nežádoucích výstupů a směrem k lepšímu jazyku.
\nVýzkumná skupina toho dosáhla vytvořením lineárního klasifikátoru, který pracuje na naučeném podprostoru z vložení LLM. Když se LLM trénují, slova s podobnými významy se umístí blízko sebe ve vektorovém prostoru a dále od nesouvisejících slov; výzkumníci předpokládali, že vložení LLM proto zachytí i kontextové informace, které by mohly být použity pro detoxikaci. Výzkumníci použili datové sady, které obsahovaly sady výzvy (první polovina věty nebo myšlenky), odpovědi (dokončení této věty) a lidsky přiřazenou anotaci, jako je toxická nebo netoxická, preferovaná nebo nepreferovaná, s kontinuálními štítky od 0-1, označující rostoucí toxicitu. Bayes-optimální klasifikátor byl poté aplikován k učení a obrazně nakreslení čáry mezi binárními podprostory uvnitř vložení věty, reprezentovaných kladnými hodnotami (netoxický prostor) a zápornými čísly (toxický prostor).
\nSystém SASA pak funguje přehodnocením pravděpodobností vzorkování nejnovějšího potenciálního tokenu na základě jeho hodnoty a vzdálenosti částečně generované fráze od klasifikátoru, s cílem zůstat blízko původní distribuce vzorkování.
\nPro ilustraci, pokud uživatel generuje potenciální token č. 12 ve větě, LLM prohledá celý svůj slovník pro rozumné slovo na základě 11 slov, která mu předcházela, a pomocí top-k, top-p, filtrují a produkují přibližně 10 tokenů k výběru. SASA poté vyhodnotí každý z těchto tokenů v částečně dokončené větě z hlediska jeho blízkosti k klasifikátoru (tj. hodnoty tokenů 1-11 plus každého potenciálního tokenu 12). Tokeny, které produkují věty v kladném prostoru, jsou povzbuzovány, zatímco ty v záporném prostoru jsou penalizovány. Navíc, čím dále od klasifikátoru, tím silnější dopad.
\n„Cílem je změnit autoregresní proces vzorkování přehodnocením pravděpodobnosti dobrých tokenů. Pokud je pravděpodobné, že další token bude vzhledem k kontextu toxický, pak snížíme pravděpodobnost vzorkování pro ty, které jsou náchylné k toxickým tokenům,“ říká Ko. Výzkumníci se rozhodli to udělat tímto způsobem, „protože věci, které říkáme, ať už jsou neškodné nebo ne, podléhají kontextu.“
\nVýzkumníci vyhodnotili svou metodu proti několika základním intervencím se třemi LLM rostoucí velikosti; všechny byly transformátory a autoregresní: GPT2-Large, Llama2-7b a Llama 3.1-8b-Instruct, s 762 miliony, 7 miliardami a 8 miliardami parametrů. Pro každou výzvu byl LLM pověřen dokončením věty/fráze 25krát a PerspectiveAPI je hodnotil od 0 do 1, přičemž cokoli nad 0,5 bylo toxické. Tým se zaměřil na dvě metriky: průměrné maximální skóre toxicity nad 25 generacemi pro všechny výzvy a toxickou míru, která byla pravděpodobností produkce alespoň jedné toxické fráze za 25 generací. Byla také analyzována snížená plynulost (a tedy zvýšená zmatenost).
\nSASA byla testována na dokončení datových sad RealToxicityPrompts (RPT), BOLD a AttaQ, které obsahovaly přirozeně se vyskytující anglické větné výzvy. Výzkumníci zvýšili složitost svých testů pro detoxikaci pomocí SASA, počínaje netoxickými výzvami z datové sady RPT, hledali škodlivé dokončení vět. Poté to eskalováni na náročnější výzvy z RPT, které měly větší pravděpodobnost produkce znepokojivých výsledků, a také aplikovali SASA na model s instrukčním laděním, aby posoudili, zda by jejich technika mohla dále snížit nežádoucí výstupy. Použili také benchmarky BOLD a AttaQ k prozkoumání obecné použitelnosti SASA při detoxikaci. S datovou sadou BOLD výzkumníci dále hledali genderovou zaujatost v jazykových generacích a snažili se dosáhnout vyvážené toxické míry mezi pohlavími. Nakonec se tým zaměřil na dobu běhu, využití paměti a jak by mohla být SASA kombinována s filtrováním slov pro dosažení zdravé a/nebo užitečné generace jazyka.
\n„Pokud uvažujeme o tom, jak lidé přemýšlejí a reagují ve světě, vidíme špatné věci, takže nejde o to, aby jazykový model viděl pouze dobré věci. Jde o pochopení celého spektra – jak dobrého, tak špatného,“ říká Ko, „a o výběr obhajování našich hodnot, když mluvíme a jednáme.“
\nCelkově SASA dosáhla významného snížení generování toxického jazyka a dosáhla srovnatelných výsledků s RAD, špičkovou technikou externího modelu odměn. Všude se však pozorovalo, že silnější detoxikace doprovázela pokles plynulosti. Před intervencí LLM produkovaly více toxických odpovědí na výzvy označené ženami než muži; SASA však dokázala také významně snížit škodlivé odpovědi a učinila je vyrovnanějšími. Podobně filtrování slov na vrcholu SASA výrazně snížilo úroveň toxicity, ale také to bránilo schopnosti LLM odpovídat soudržně.
\nVelkým aspektem této práce je, že se jedná o dobře definovaný, omezený optimalizační problém, říká Ko, což znamená, že je možné dosáhnout a vyladit rovnováhu mezi otevřenou generací jazyka, která zní přirozeně, a potřebou snížit nežádoucí jazyk.
\nDále, říká Ko, by SASA mohla v budoucnu dobře fungovat pro více atributů: „U lidí máme více lidských hodnot. Nechceme říkat toxické věci, ale chceme být také pravdiví, užiteční a loajální… Pokud byste měli model jemně doladit pro všechny tyto hodnoty, vyžadovalo by to více výpočetních zdrojů a samozřejmě další školení.“ Vzhledem k lehké povaze SASA by se dala snadno použít v těchto případech: „Pokud chcete pracovat s více hodnotami, jednoduše kontrolujete pozici generace v několika podprostorech. Přidá to jen minimální režii z hlediska výpočtu a parametrů,“ říká Ko, což vede k pozitivnějšímu, spravedlivějšímu a principiálněji sladěnému jazyku.
\nTato práce byla zčásti podpořena MIT-IBM Watson AI Lab a National Science Foundation.
Související články
Humanoidní robot s umělou inteligencí napodobuje lidské emoce a chování
Nebezpečí sdílení informací s nástroji umělé inteligence
Nová metoda efektivně chrání citlivá data při trénování AI
Sdílet na sociálních sítích:
Komentáře