Vytvořte si AI tutoriál na míru! Vyzkoušejte generátor tutoriálů a ušetřete čas.

Roboti dělají chyby? Stačí je jemně nasměrovat!

Sdílet na sociálních sítích:
Napsal: Jan Kubice
Umělá inteligence

Nová metoda umožňuje opravovat chyby robotů v reálném čase intuitivním způsobem, podobně jako když opravujeme člověka.

Obrázek novinky

Roboti dělají chyby? Stačí je jemně nasměrovat!

Představte si, že vám robot pomáhá mýt nádobí. Požádáte ho, aby uchopil mýdlový talíř z umyvadla, ale jeho chapadlo mírně minulo cíl.

Pomocí nového rámce vyvinutého výzkumníky z MIT a NVIDIA můžete opravit chování robota jednoduchými interakcemi. Metoda vám umožní ukázat na talíř, trasovat jeho dráhu na obrazovce, nebo jednoduše jemně postrčit robotickou ruku správným směrem.

Na rozdíl od jiných metod korekce chování robotů tato technika nevyžaduje shromažďování nových dat a přetrénování modelu strojového učení, který řídí mozek robota. Umožňuje robotu používat intuitivní, okamžitou lidskou zpětnou vazbu k výběru proveditelné posloupnosti akcí, která se co nejvíce přiblíží záměru uživatele.

Když výzkumníci testovali svůj rámec, jeho úspěšnost byla o 21 procent vyšší než u alternativní metody, která nevyužívala lidské zásahy.

V dlouhodobém horizontu by tento rámec mohl uživateli umožnit snadněji navést robota vycvičeného v továrně k provádění široké škály domácích úkolů, i když robot nikdy neviděl jejich domov ani předměty v něm.

„Nemůžeme očekávat, že laici budou shromažďovat data a dolaďovat model neuronové sítě. Spotřebitel bude očekávat, že robot bude fungovat hned po vybalení, a pokud ne, bude chtít intuitivní mechanismus pro jeho přizpůsobení. To je výzva, kterou jsme v této práci řešili,“ říká Felix Yanwei Wang, student elektrotechniky a informatiky (EECS) a hlavní autor článku o této metodě.

Mezi jeho spoluautory patří Lirui Wang PhD '24 a Yilun Du PhD '24; vedoucí autorka Julie Shah, profesorka letectví a astronautiky na MIT a ředitelka skupiny Interaktivní robotika v Laboratoři pro informatiku a umělou inteligenci (CSAIL); a také Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D'Arpino PhD '19 a Dieter Fox z NVIDIA. Výzkum bude prezentován na Mezinárodní konferenci o robotech a automatizaci.

Zmírnění nesouladu

V poslední době začali výzkumníci používat předem trénované generativní modely AI k učení „strategie“ nebo sady pravidel, která robot dodržuje při provádění akce. Generativní modely mohou řešit mnoho složitých úkolů.

Během tréninku model vidí pouze proveditelné pohyby robota, takže se učí generovat platné trajektorie, kterými se robot bude řídit.

I když jsou tyto trajektorie platné, neznamená to, že vždy odpovídají záměru uživatele v reálném světě. Robot mohl být trénován na uchopení krabic z police, aniž by je shodil, ale nemusí dosáhnout na krabici nahoře na poličce někoho, pokud je police orientována jinak, než ty, které viděl při tréninku.

Aby se překonaly tyto chyby, inženýři obvykle shromažďují data demonstrující nový úkol a přetrénují generativní model – nákladný a časově náročný proces, který vyžaduje znalosti strojového učení.

Místo toho výzkumníci z MIT chtěli umožnit uživatelům řídit chování robota během nasazení, když udělá chybu.

Ale pokud člověk interaguje s robotem, aby opravil jeho chování, může to neúmyslně způsobit, že generativní model zvolí neplatnou akci. Mohl by dosáhnout na krabici, kterou uživatel chce, ale při tom shodit knihy z police.

„Chceme uživatelům umožnit interakci s robotem bez zavádění těchto chyb, takže získáme chování, které je mnohem více v souladu s uživatelským záměrem během nasazení, ale které je také platné a proveditelné,“ říká Wang.

Jejich rámec toho dosahuje tím, že uživateli poskytuje tři intuitivní způsoby, jak opravit chování robota, z nichž každý nabízí určité výhody.

Za prvé, uživatel může ukázat na objekt, který chce, aby robot manipuloval, v rozhraní, které zobrazuje jeho kamerový pohled. Za druhé, může v tomto rozhraní trasovat trajektorii, čímž může specifikovat, jak chce, aby se robot dostal k objektu. Za třetí, může fyzicky pohybovat robotickou rukou ve směru, kterým chce, aby se pohybovala.

„Když mapujete 2D obraz prostředí na akce v 3D prostoru, některé informace se ztratí. Fyzické postrčení robota je nejpřímější způsob, jak specifikovat uživatelský záměr bez ztráty jakýchkoli informací,“ říká Wang.

Vzorkování pro úspěch

Aby se zajistilo, že tyto interakce nezpůsobí, že robot zvolí neplatnou akci, například srážku s jinými objekty, výzkumníci používají specifický postup vzorkování. Tato technika umožňuje modelu vybrat akci z množiny platných akcí, která se nejvíce blíží cíli uživatele.

„Místo toho, abychom jednoduše vnucovali vůli uživatele, dáváme robotovi představu o tom, co uživatel zamýšlí, ale necháváme postup vzorkování oscilovat kolem jeho vlastních naučených chování,“ vysvětluje Wang.

Tato metoda vzorkování umožnila rámci výzkumníků překonat ostatní metody, se kterými ji porovnávali, během simulací a experimentů se skutečnou robotickou rukou v hrací kuchyni.

I když jejich metoda nemusí vždy úkol dokončit hned, nabízí uživatelům výhodu, že mohou robota okamžitě opravit, když vidí, že dělá něco špatně, místo toho, aby čekali, až dokončí, a pak mu dávali nové instrukce.

Navíc poté, co uživatel několikrát postrčí robota, dokud nezvedne správný talíř, by mohl tuto korekční akci zaznamenat a začlenit ji do svého chování prostřednictvím budoucího tréninku. Pak by druhý den mohl robot zvednout správný talíř bez nutnosti postrčení.

„Ale klíčem k tomuto neustálému zlepšování je mít způsob, jakým může uživatel s robotem interagovat, což je to, co jsme zde ukázali,“ říká Wang.

V budoucnu chtějí výzkumníci zvýšit rychlost postupu vzorkování při zachování nebo zlepšení jeho výkonu. Chtějí také experimentovat s generováním politik robotů v nových prostředích.

Související články

Sdílet na sociálních sítích:

Komentáře

Zatím žádné komentáře. Buďte první, kdo napíše svůj názor!