Generativní modely pro simulaci molekulárního světa
Sdílet na sociálních sítích:
Nová metoda využívající generativní AI simuluje pohyb molekul z jednotlivých snímků, čímž urychluje výzkum nových léků.

Generativní modely umělé inteligence (AI) se staly velmi výkonnými nástroji, schopnými transformovat jednoduché textové zadání do hyperrealistických obrázků a dokonce i videoklipů. V poslední době se generativní AI ukázala jako slibný nástroj pro chemiky a biology při zkoumání statických molekul, jako jsou proteiny a DNA. Modely jako AlphaFold dokáží předpovídat molekulární struktury a urychlovat tak objevování nových léků. Příkladem je i MITem podpořený systém RFdiffusion, který usnadňuje navrhování nových proteinů.
Výzvou však zůstává skutečnost, že molekuly se neustále pohybují a vibrují, což je důležité brát v úvahu při navrhování nových proteinů a léků. Simulace těchto pohybů na počítači pomocí fyzikálních principů – technika známá jako molekulární dynamika – může být velmi nákladná a vyžaduje miliardy časových kroků na superpočítačích.
Vědci z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) a Department of Mathematics vyvinuli generativní model, který se učí z předchozích dat, s cílem efektivněji simulovat tyto chování. Systém nazvaný MDGen dokáže na základě jednoho 3D snímku molekuly simulovat, co se stane dál, jako by se jednalo o video, spojovat jednotlivé statické snímky a dokonce i doplňovat chybějící snímky. Tento nástroj by mohl chemikům pomoci navrhovat nové molekuly a detailně studovat, jak by se prototypy léků na rakovinu a další nemoci mohly interaktovat s cílovou molekulární strukturou.
Spoluautor Bowen Jing říká, že MDGen je raný důkaz konceptu, ale naznačuje začátek vzrušujícího nového výzkumného směru. „Zpočátku generativní modely AI produkovaly poměrně jednoduchá videa, jako je mrkání osoby nebo vrtění psem ocasem,“ říká Jing, doktorand v CSAIL. „O několik let později máme úžasné modely, jako je Sora nebo Veo, které lze použít mnoha zajímavými způsoby. Doufáme, že podobnou vizi vneseme i do molekulárního světa, kde dynamické trajektorie jsou videi. Například můžete modelu zadat první a desátý snímek a on animuje to, co je mezi nimi, nebo může odstranit šum z molekulárního videa a odhadnout, co bylo skryto.“
Vědci uvádějí, že MDGen představuje paradigmatický posun oproti předchozím srovnatelným pracím s generativní AI, který umožňuje mnohem širší použití. Předchozí přístupy byly „autoregresivní“, což znamená, že se spoléhaly na předchozí statický snímek k vytvoření dalšího, počínaje prvním snímkem k vytvoření videosekvence. Na rozdíl od toho MDGen generuje snímky paralelně s difúzí. To znamená, že MDGen lze použít například k propojení snímků na koncových bodech, nebo „zvýšení vzorkovací frekvence“ trajektorie s nízkou snímkovou frekvencí, kromě přehrávání počátečního snímku.
Tato práce byla představena na konferenci o zpracování neuronových informací (NeurIPS) v prosinci loňského roku. Minulé léto byla oceněna za svůj potenciální komerční dopad na mezinárodní konferenci o strojovém učení ML4LMS Workshop.
V experimentech Jing a jeho kolegové zjistili, že simulace MDGen byly podobné přímému spuštění fyzikálních simulací, přičemž produkovaly trajektorie 10 až 100krát rychleji.
Tým nejprve testoval schopnost svého modelu zpracovat 3D snímek molekuly a vygenerovat dalších 100 nanosekund. Systém k dosažení tohoto trvání spojoval po sobě jdoucí 10nanosekundové bloky. Tým zjistil, že MDGen dokázal konkurovat přesnosti základního modelu, přičemž dokončení procesu generování videa trvalo přibližně minutu – pouhý zlomek tří hodin, které základní model potřeboval k simulaci stejné dynamiky.
Když dostal první a poslední snímek jednonanosekundové sekvence, MDGen modeloval i mezilehlé kroky. Systém vědců prokázal určitou míru realismu ve více než 100 000 různých předpovědích: Simuloval pravděpodobnější molekulární trajektorie než jeho základní modely na klipech kratších než 100 nanosekund. V těchto testech MDGen také ukázal schopnost zobecňovat na peptidy, které předtím neviděl.
Schopnosti MDGen zahrnují také simulaci snímků uvnitř snímků, „zvýšení vzorkovací frekvence“ kroků mezi jednotlivými nanosekundami pro adekvátnější zachycení rychlejších molekulárních jevů. Dokáže dokonce „opravovat“ struktury molekul a obnovovat informace o nich, které byly odstraněny. Tyto funkce by nakonec mohli výzkumníci využít k návrhu proteinů na základě specifikace toho, jak by se měly pohybovat různé části molekuly.
Jing a spoluautor Hannes Stärk říkají, že MDGen je rané znamení pokroku směrem k efektivnější generaci molekulární dynamiky. Stále jim však chybí data, aby tyto modely byly okamžitě použitelné při navrhování léků nebo molekul, které vyvolají pohyby, které si chemici přejí vidět v cílové struktuře.
Vědci si kladou za cíl rozšířit MDGen z modelování molekul na předpovídání, jak se proteiny budou časem měnit. „V současné době používáme modelové systémy,“ říká Stärk, také doktorand v CSAIL. „Pro vylepšení prediktivních schopností MDGen pro modelování proteinů budeme muset vybudovat na stávající architektuře a dostupných datech. Ještě nemáme úložiště simulací v měřítku YouTube, proto doufáme, že vyvineme samostatnou metodu strojového učení, která může urychlit proces sběru dat pro náš model.“
MDGen v současné době představuje slibnou cestu vpřed v modelování molekulárních změn neviditelných pouhým okem. Chemici by tyto simulace mohli použít k podrobnějšímu prozkoumání chování prototypů léků na nemoci, jako je rakovina nebo tuberkulóza.
„Metody strojového učení, které se učí z fyzikálních simulací, představují vznikající novou hranici v oblasti AI pro vědu,“ říká Bonnie Berger, MIT Simons profesorka matematiky, hlavní výzkumná pracovnice CSAIL a seniorní autorka článku. „MDGen je všestranný, víceúčelový modelovací rámec, který propojuje tyto dvě oblasti, a jsme velmi rádi, že můžeme sdílet naše rané modely v tomto směru.“
„Vzorkování realistických přechodových drah mezi molekulárními stavy je velkou výzvou,“ říká další seniorní autor Tommi Jaakkola, profesor elektrotechniky a informatiky MIT Thomas Siebel a Institut pro data, systémy a společnost a hlavní výzkumný pracovník CSAIL. „Tato raná práce ukazuje, jak bychom mohli začít řešit tyto problémy přesunem generativního modelování na plné simulační běhy.“
Výzkumníci v oboru bioinformatiky tento systém ocenili pro jeho schopnost simulovat molekulární transformace. „MDGen modeluje simulace molekulární dynamiky jako společný rozdělení strukturálních vložených prvků, zachycující molekulární pohyby mezi diskrétními časovými kroky,“ říká docent Simon Olsson z Chalmers University of Technology, který se na výzkumu nepodílel. „Využitím masky pro učení umožňuje MDGen inovativní případy použití, jako je vzorkování přechodových drah, analogicky k opravování trajektorií spojujících metastabilní fáze.“
Práce výzkumníků na MDGen byla částečně podporována Národním institutem pro všeobecné lékařské vědy, americkým ministerstvem energetiky, Národní vědeckou nadací, konsorciem Strojové učení pro objevování a syntézu léčiv, klinikou Abdul Latif Jameel pro strojové učení ve zdravotnictví, Agenturou pro snižování obranných hrozeb a Agenturou pro pokročilé obranné výzkumné projekty.
Související články
Mozková zraková dráha možná dělá víc než jen rozpoznávání objektů
Vědci pitvali výjimečně dobře zachovalé mamutí mládě z doby ledové
Mohou velké jazykové modely pomoci navrhovat nové léky a materiály?
Sdílet na sociálních sítích:
Komentáře