Vytvořte si AI tutoriál na míru! Vyzkoušejte generátor tutoriálů a ušetřete čas.

Nová metoda efektivně chrání citlivá data při trénování AI

Sdílet na sociálních sítích:
Napsal: Jan Kubice
Umělá inteligence

Vědci z MIT vyvinuli efektivnější metodu ochrany citlivých dat používaných k trénování modelů umělé inteligence, která zachovává přesnost modelů.

Obrázek novinky

Nová metoda efektivně chrání citlivá data při trénování AI

Ochrana soukromí dat má svou cenu. Existují bezpečnostní techniky, které chrání citlivá uživatelská data, jako jsou adresy zákazníků, před útočníky, kteří se je mohou pokusit extrahovat z modelů AI – ale tyto techniky často snižují přesnost těchto modelů.

Výzkumníci z MIT nedávno vyvinuli rámec, založený na nové metrice soukromí zvané PAC Privacy, která by mohla udržet výkon modelu AI a zároveň zajistit, aby citlivá data, jako jsou lékařské snímky nebo finanční záznamy, zůstala v bezpečí před útočníky. Nyní posunuli tuto práci o krok dále tím, že svou techniku ​​udělali výpočetně efektivnější, zlepšili kompromis mezi přesností a soukromím a vytvořili formální šablonu, která se může použít k ochraně soukromí prakticky jakéhokoli algoritmu, aniž by bylo nutné mít přístup k vnitřnímu fungování tohoto algoritmu.

Tým použil svou novou verzi PAC Privacy k ochraně soukromí několika klasických algoritmů pro analýzu dat a úlohy strojového učení.

Také ukázali, že stabilnější algoritmy se jejich metodou snáze chrání. Predikce stabilního algoritmu zůstávají konzistentní, i když se jeho trénovací data mírně změní. Vyšší stabilita pomáhá algoritmu dělat přesnější predikce na dříve neviděných datech.

Výzkumníci říkají, že zvýšená efektivita nového rámce PAC Privacy a čtyřkroková šablona, ​​kterou je možné sledovat při jeho implementaci, by usnadnila nasazení této techniky v reálných situacích.

„Máme tendenci považovat robustnost a soukromí za nesouvisející, nebo dokonce za konfliktní s konstrukcí vysoce výkonného algoritmu. Nejprve vytvoříme funkční algoritmus, pak ho uděláme robustním a poté soukromým. Ukázali jsme, že to není vždy správný rámec. Pokud se vám podaří zlepšit výkon algoritmu v různých nastaveních, v podstatě získáte soukromí zdarma,“ říká Mayuri Sridhar, absolventka MIT a hlavní autorka článku o tomto rámci ochrany soukromí.

V článku se k ní připojil Hanshen Xiao, PhD '24, který na podzim nastoupí na místo asistenta profesora na Purdue University; a hlavní autor Srini Devadas, profesor elektrotechniky Edwin Sibley Webster na MIT. Výzkum bude prezentován na sympoziu IEEE o bezpečnosti a ochraně soukromí.

Odhadování šumu

Aby se chránila citlivá data, která byla použita k trénování modelu AI, inženýři často přidávají šum, neboli obecnou náhodnost, do modelu, takže je pro útočníka těžší uhodnout původní trénovací data. Tento šum snižuje přesnost modelu, takže čím méně šumu lze přidat, tím lépe.

PAC Privacy automaticky odhaduje nejmenší množství šumu, které je potřeba přidat k algoritmu, aby se dosáhlo požadované úrovně soukromí.

Původní algoritmus PAC Privacy spouští AI model uživatele mnohokrát na různých vzorcích datové sady. Měří rozptyl i korelace mezi těmito mnoha výstupy a používá tyto informace k odhadu toho, kolik šumu je třeba přidat k ochraně dat.

Tato nová varianta PAC Privacy funguje stejným způsobem, ale nemusí reprezentovat celou matici korelací dat napříč výstupy; stačí jí výstupní rozptyly.

„Protože věc, kterou odhadujete, je mnohem, mnohem menší než celá kovarianční matice, můžete to udělat mnohem, mnohem rychleji,“ vysvětluje Sridhar. To znamená, že je možné škálovat na mnohem větší datové sady.

Přidání šumu může poškodit užitečnost výsledků a je důležité minimalizovat ztrátu užitečnosti. Vzhledem k výpočetním nákladům byl původní algoritmus PAC Privacy omezen na přidávání izotropního šumu, který se přidává rovnoměrně ve všech směrech. Protože nová varianta odhaduje anizotropní šum, který je přizpůsoben specifickým charakteristikám trénovacích dat, uživatel by mohl přidat méně celkového šumu, aby dosáhl stejné úrovně soukromí, čímž by se zvýšila přesnost algoritmu chráněného před zneužitím.

Soukromí a stabilita

Při studiu PAC Privacy Sridhar vyslovila hypotézu, že stabilnější algoritmy by se touto technikou snáze chránily. Použila efektivnější variantu PAC Privacy k otestování této teorie na několika klasických algoritmech.

Algoritmy, které jsou stabilnější, mají menší rozptyl ve svých výstupech, když se jejich trénovací data mírně změní. PAC Privacy rozdělí datovou sadu na části, spustí algoritmus na každé části dat a změří rozptyl mezi výstupy. Čím větší rozptyl, tím více šumu je třeba přidat k ochraně algoritmu.

Použití technik stability ke snížení rozptylu ve výstupech algoritmu by také snížilo množství šumu, které je třeba přidat k jeho ochraně, vysvětluje.

„V nejlepších případech můžeme dosáhnout těchto win-win scénářů,“ říká.

Tým ukázal, že tyto záruky soukromí zůstaly silné navzdory testovaným algoritmům a že nová varianta PAC Privacy vyžadovala o řád menší počet testů k odhadu šumu. Metodu také otestovali v simulacích útoků, čímž prokázali, že její záruky soukromí odolaly nejmodernějším útokům.

„Chceme prozkoumat, jak by se algoritmy mohly společně navrhovat s PAC Privacy, aby byl algoritmus od začátku stabilnější, bezpečnější a robustnější,“ říká Devadas. Výzkumníci také chtějí otestovat svou metodu s komplexnějšími algoritmy a dále prozkoumat kompromis mezi soukromím a užitečností.

„Otázkou nyní je: Kdy se tyto win-win situace dějí a jak je můžeme dělat častěji?“ říká Sridhar.

„Myslím, že klíčovou výhodou, kterou má PAC Privacy v tomto nastavení oproti jiným definicím soukromí, je to, že je to black box – nemusíte ručně analyzovat každý jednotlivý dotaz, abyste mohli chránit výsledky. Lze to provést zcela automaticky. Aktivně budujeme databázi s podporou PAC rozšířením existujících SQL engine tak, aby podporovaly praktickou, automatickou a efektivní soukromou analýzu dat,“ říká Xiangyao Yu, asistent profesor na katedře informatiky na University of Wisconsin v Madisonu, který se na této studii nepodílel.

Tento výzkum je částečně podporován společnostmi Cisco Systems, Capital One, americkým ministerstvem obrany a stipendiem MathWorks.

Související články

Sdílet na sociálních sítích:

Komentáře

Zatím žádné komentáře. Buďte první, kdo napíše svůj názor!