Model umělé inteligence rozluští kód v proteinech, který určuje jejich umístění
Sdílet na sociálních sítích:
Vědci z MIT vyvinuli model strojového učení, který předpovídá a generuje lokalizaci proteinů s důsledky pro pochopení a léčbu nemocí.

Proteiny jsou hybnou silou, která udržuje naše buňky v chodu, a v našich buňkách existují tisíce typů proteinů, z nichž každý plní specializovanou funkci. Vědci již dlouho vědí, že struktura proteinu určuje, co dokáže. V poslední době si vědci začínají uvědomovat, že pro jeho funkci je kritická také lokalizace proteinu. Buňky jsou plné oddílů, které pomáhají organizovat jejich četné obyvatele. Spolu s dobře známými organelami, které zdobí stránky učebnic biologie, tyto prostory zahrnují také řadu dynamických, bezmembránových oddílů, které koncentrují určité molekuly dohromady k provádění sdílených funkcí. Vědění, kde se daný protein lokalizuje a s kým se kolokalizuje, může být proto užitečné pro lepší pochopení tohoto proteinu a jeho role v zdravé nebo nemocné buňce, ale vědcům chyběl systematický způsob, jak tyto informace předvídat.
\nMezitím se struktura proteinů studuje již více než půl století, vyvrcholením čehož je nástroj umělé inteligence AlphaFold, který dokáže předpovídat strukturu proteinu z aminokyselinového kódu proteinu, lineárního řetězce stavebních bloků v něm, který se skládá tak, aby vytvořil jeho strukturu. AlphaFold a podobné modely se staly široce používanými nástroji ve výzkumu.
\nProteiny také obsahují oblasti aminokyselin, které se neskládají do pevné struktury, ale jsou důležité pro pomoc proteinům při spojování dynamických oddílů v buňce. Profesor MIT Richard Young a jeho kolegové se zamýšleli nad tím, zda by kód v těchto oblastech mohl být použit k předpovědi lokalizace proteinu stejným způsobem, jakým se jiné oblasti používají k předpovědi struktury. Jiní výzkumníci objevili některé proteinové sekvence, které kódují lokalizaci proteinu, a někteří začali vyvíjet prediktivní modely pro lokalizaci proteinu. Vědci však nevěděli, zda by se lokalizace proteinu do libovolného dynamického oddílu dala předvídat na základě jeho sekvence, ani neměli srovnatelný nástroj s AlphaFoldem pro předpovídání lokalizace.
\nNyní Young, také člen Whitehead Institute for Biological Research; postdoktorand Youngovy laboratoře Henry Kilgore; Regina Barzilay, School of Engineering Distinguished Professor for AI and Health na MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL); a kolegové vytvořili takový model, kterému říkají ProtGPS. V článku publikovaném 6. února v časopise Science, s prvními autory Kilgorem a postgraduálními studenty Barzilayovy laboratoře Itamar Chinn, Peter Mikhael a Ilan Mitnikov, mezioborový tým uvádí svůj model. Výzkumníci ukazují, že ProtGPS dokáže předpovědět, do kterého z 12 známých typů oddílů se protein lokalizuje, a také zda mutace spojená s nemocí změní tuto lokalizaci. Výzkumný tým navíc vyvinul generativní algoritmus, který dokáže navrhovat nové proteiny, které se lokalizují do specifických oddílů.
\n„Doufám, že je to první krok k silné platformě, která umožní lidem, kteří studují proteiny, provádět jejich výzkum,“ říká Young, „a že nám pomůže pochopit, jak se lidé vyvíjejí v komplexní organismy, jaké jsou, jak mutace narušují tyto přirozené procesy a jak generovat terapeutické hypotézy a navrhovat léky k léčbě dysfunkce v buňce.“
\nVýzkumníci také ověřili mnoho předpovědí modelu experimentálními testy v buňkách.
\n„Opravdu mě nadchlo, že jsem mohl jít od výpočetního návrhu až po testování těchto věcí v laboratoři,“ říká Barzilay. „Existuje mnoho vzrušujících článků v této oblasti AI, ale 99,9 procenta z nich se nikdy netestují ve skutečných systémech. Díky naší spolupráci s Youngovou laboratoří jsme mohli testovat a opravdu se dozvědět, jak dobře náš algoritmus funguje.“
\nVýzkumníci trénovali a testovali ProtGPS na dvou dávkách proteinů se známými lokalizacemi. Zjistili, že by mohl správně předpovědět, kde se proteiny ocitnou, s vysokou přesností. Výzkumníci také testovali, jak dobře by ProtGPS dokázal předpovědět změny v lokalizaci proteinu na základě mutací spojených s nemocí uvnitř proteinu. Bylo zjištěno, že mnoho mutací – změn v sekvenci genu a jeho odpovídajícího proteinu – přispívá k onemocnění nebo je způsobuje na základě asociačních studií, ale způsoby, jakými mutace vedou k příznakům onemocnění, zůstávají neznámé.
\nZjistění mechanismu, jakým mutace přispívá k onemocnění, je důležité, protože pak mohou výzkumníci vyvinout terapie, které tento mechanismus opraví, čímž se zabrání onemocnění nebo se onemocnění léčí. Young a kolegové se domnívali, že mnoho mutací spojených s nemocí by mohlo přispívat k onemocnění změnou lokalizace proteinu. Například mutace by mohla způsobit, že se protein nebude moci připojit k oddílu obsahujícímu nezbytné partnery.
\nTuto hypotézu ověřili tak, že zadali ProtGOS více než 200 000 proteinů s mutacemi spojenými s nemocí a poté jej požádali, aby předpověděl, kde se tyto mutované proteiny budou lokalizovat, a změřil, o kolik se jeho předpověď pro daný protein změnila z normální na mutovanou verzi. Velký posun v predikci naznačuje pravděpodobnou změnu lokalizace.
\nVýzkumníci našli mnoho případů, kdy se zdálo, že mutace spojená s nemocí mění lokalizaci proteinu. Testovali 20 příkladů v buňkách a pomocí fluorescence porovnávali, kde v buňce se normální protein a jeho mutovaná verze ocitly. Experimenty potvrdily předpovědi ProtGPS. Celkově výsledky podporují podezření výzkumníků, že chybné umístění může být podceňovaným mechanismem onemocnění, a demonstrují hodnotu ProtGPS jako nástroje pro pochopení onemocnění a identifikaci nových terapeutických cest.
\n„Buňka je tak komplikovaný systém s tolika součástmi a komplexními sítěmi interakcí,“ říká Mitnikov. „Je nesmírně zajímavé si myslet, že s tímto přístupem můžeme systém narušit, vidět výsledek a tak řídit objevování mechanismů v buňce, nebo dokonce vyvíjet terapie na základě toho.“
\nVýzkumníci doufají, že jiní začnou používat ProtGPS stejným způsobem, jakým používají prediktivní strukturální modely, jako je AlphaFold, a posunou různé projekty o funkci proteinů, dysfunkci a nemocech.
\nVýzkumníky nadchly možné využití jejich prediktivního modelu, ale chtěli, aby jejich model šel nad rámec předpovídání lokalizací existujících proteinů a umožnil jim navrhovat zcela nové proteiny. Cílem bylo, aby model vytvořil zcela nové aminokyselinové sekvence, které by se po vytvoření v buňce lokalizovaly na požadované místo. Vytvoření nového proteinu, který dokáže skutečně plnit funkci – v tomto případě funkci lokalizace do specifického buněčného oddílu – je neuvěřitelně obtížné. Aby se zlepšily šance jejich modelu na úspěch, výzkumníci omezili svůj algoritmus tak, aby navrhoval pouze proteiny podobné těm, které se nacházejí v přírodě. Toto je přístup běžně používaný při návrhu léků z logických důvodů; příroda měla miliardy let na to, aby zjistila, které proteinové sekvence fungují dobře a které ne.
\nDíky spolupráci s Youngovou laboratoří dokázal tým strojového učení otestovat, zda jejich generátor proteinů funguje. Model měl dobré výsledky. V jednom kole vygeneroval 10 proteinů určených k lokalizaci do jadérka. Když výzkumníci tyto proteiny testovali v buňce, zjistili, že čtyři z nich se silně lokalizovaly do jadérka a další mohly mít také mírné sklony k tomuto umístění.
\n„Spolupráce mezi našimi laboratořemi byla pro nás všechny tak generativní,“ říká Mikhael. „Naučili jsme se, jak mluvit jazyky druhých, v našem případě jsme se hodně dozvěděli o tom, jak buňky fungují, a tím, že jsme měli šanci experimentálně otestovat náš model, jsme dokázali zjistit, co musíme udělat, aby model skutečně fungoval, a pak ho zlepšit.“
\nSchopnost generovat funkční proteiny tímto způsobem by mohla zlepšit schopnost výzkumníků vyvíjet terapie. Pokud například musí lék interagovat s cílem, který se lokalizuje uvnitř určitého oddílu, pak by výzkumníci mohli použít tento model k navržení léku, který se tam také lokalizuje. To by mělo zvýšit účinnost léku a snížit vedlejší účinky, protože lék bude trávit více času interakcí se svým cílem a méně času interakcí s jinými molekulami, což způsobuje nežádoucí účinky.
\nČlenové týmu strojového učení jsou nadšeni vyhlídkou na využití toho, co se naučili z této spolupráce, k navrhování nových proteinů s jinými funkcemi než lokalizace, což by rozšířilo možnosti terapeutického designu a dalších aplikací.
\n„Mnoho článků ukazuje, že dokážou navrhnout protein, který lze exprimovat v buňce, ale ne, že protein má určitou funkci,“ říká Chinn. „My jsme skutečně měli funkční návrh proteinu a relativně obrovskou míru úspěšnosti ve srovnání s jinými generativními modely. To je pro nás opravdu vzrušující a něco, na čem bychom chtěli stavět.“
\nVšichni zúčastnění výzkumníci vnímají ProtGPS jako vzrušující začátek. Očekávají, že jejich nástroj bude použit k zjištění více o rolích lokalizace ve funkci proteinu a chybného umístění v nemoci. Kromě toho se zajímají o rozšíření predikcí lokalizace modelu o více typů oddílů, testování více terapeutických hypotéz a navrhování stále funkčnějších proteinů pro terapie nebo jiné aplikace.
\n„Nyní, když víme, že tento proteinový kód pro lokalizaci existuje a že modely strojového učení dokáží tomuto kódu porozumět a dokonce vytvářet funkční proteiny pomocí jeho logiky, otevírá to dveře tolika potenciálním studiím a aplikacím,“ říká Kilgore.
Související články
Vzácné setkání: Chobotnice se sveze na žralokovi
Zmapování budoucnosti metamateriálů
Matematikové odhalili logiku pohybu lidí v davu
Sdílet na sociálních sítích:
Komentáře