Nová validační technika pro přesnější předpovědi
Sdílet na sociálních sítích:
Vědci z MIT vyvinuli novou metodu pro posuzování prostorových předpovědí, jako je počasí nebo znečištění ovzduší, která je přesnější než stávající metody.

Máte si vzít deštník, než vyrazíte ven? Kontrola předpovědi počasí bude užitečná pouze v případě, že je tato předpověď přesná. Problémy s prostorovými předpověďmi, jako je předpovídání počasí nebo odhad znečištění ovzduší, zahrnují předpovídání hodnoty proměnné v nové lokalitě na základě známých hodnot v jiných lokalitách. Vědci obvykle používají osvědčené validační metody k určení, jak moc těmto předpovědím důvěřovat.
Vědci z MIT však ukázali, že tyto populární validační metody mohou u prostorových úloh předpovědí selhat poměrně dramaticky. To by mohlo vést k domnění, že je předpověď přesná, nebo že nová prediktivní metoda je efektivní, zatímco ve skutečnosti tomu tak není.
Výzkumníci vyvinuli techniku k posouzení metod validace předpovědí a použili ji k prokázání, že dvě klasické metody mohou být u prostorových problémů podstatně chybné. Poté určili, proč tyto metody mohou selhat, a vytvořili novou metodu určenou pro zpracování typů dat používaných pro prostorové předpovědi.
V experimentech se skutečnými a simulovanými daty poskytla jejich nová metoda přesnější validace než dvě nejběžnější techniky. Výzkumníci vyhodnotili každou metodu pomocí realistických prostorových problémů, včetně předpovídání rychlosti větru na letišti Chicago O-Hare a předpovídání teploty vzduchu v pěti amerických metropolitních oblastech.
Jejich validační metoda by mohla být aplikována na řadu problémů, od pomoci klimatologům předpovídat teploty mořské hladiny až po pomoc epidemiologům při odhadování vlivů znečištění ovzduší na některá onemocnění.
„Doufejme, že to povede k spolehlivějším hodnocením, když lidé přicházejí s novými prediktivními metodami, a k lepšímu porozumění tomu, jak dobře metody fungují,“ říká Tamara Brodericková, docentka na katedře elektrotechniky a informatiky (EECS) MIT, členka Laboratoře pro informační a rozhodovací systémy a Institutu pro data, systémy a společnost a přidružená členka Laboratoře pro informatiku a umělou inteligenci (CSAIL).
K Broderickové se na článku připojil hlavní autor a postdoktorand MIT David R. Burt a absolventka EECS Yunyi Shen. Výzkum bude prezentován na Mezinárodní konferenci o umělé inteligenci a statistice.
Vyhodnocování validací
Broderickova skupina nedávno spolupracovala s oceánografy a atmosférickými vědci na vývoji prediktivních modelů strojového učení, které lze použít pro problémy se silnou prostorovou složkou.
Díky této práci si všimli, že tradiční validační metody mohou být v prostorových kontextech nepřesné. Tyto metody vyjmou malé množství tréninkových dat, tzv. validačních dat, a použijí je k posouzení přesnosti prediktoru.
Aby našli kořen problému, provedli důkladnou analýzu a zjistili, že tradiční metody předpokládají, že jsou pro prostorová data nevhodné. Metody vyhodnocování se opírají o předpoklady o tom, jak se validační data a data, která se chtějí předpovědět (tzv. testovací data), vzájemně vztahují.
Tradiční metody předpokládají, že validační data a testovací data jsou nezávislá a identicky distribuovaná, což znamená, že hodnota jakéhokoli datového bodu nezávisí na jiných datových bodech. V prostorové aplikaci tomu však často tak není.
Například vědec může používat validační data ze senzorů znečištění ovzduší EPA k testování přesnosti metody, která předpovídá znečištění ovzduší v chráněných oblastech. Snímače EPA však nejsou nezávislé – byly umístěny na základě umístění jiných senzorů.
Navíc možná jsou validační data ze senzorů EPA v blízkosti měst, zatímco chráněná území jsou ve venkovských oblastech. Protože tato data pocházejí z různých lokalit, pravděpodobně mají různé statistické vlastnosti, takže nejsou identicky distribuována.
„Naše experimenty ukázaly, že v prostorovém případě dostanete opravdu špatné odpovědi, když tyto předpoklady učiněné validační metodou selžou,“ říká Brodericková.
Výzkumníci museli přijít s novým předpokladem.
Specificky prostorový
S ohledem na specifický prostorový kontext, kde se data shromažďují z různých lokalit, navrhli metodu, která předpokládá, že se validační data a testovací data plynule mění v prostoru.
Například hladiny znečištění ovzduší se pravděpodobně dramaticky nezmění mezi dvěma sousedními domy.
„Tento předpoklad pravidelnosti je vhodný pro mnoho prostorových procesů a umožňuje nám vytvořit způsob, jak vyhodnocovat prostorové prediktory v prostorové doméně. Pokud je nám známo, nikdo dosud neprovedl systematické teoretické vyhodnocení toho, co se pokazilo, aby se našel lepší přístup,“ říká Brodericková.
Chcete-li použít techniku vyhodnocování, zadáte svůj prediktor, lokality, které chcete předpovědět, a svá validační data; zbytek pak proběhne automaticky. Nakonec odhadne, jak přesná bude předpověď prediktoru pro danou lokalitu. Efektivní posouzení jejich validační techniky se však ukázalo jako výzva.
„Nevyhodnocujeme metodu, ale vyhodnocujeme vyhodnocení. Museli jsme tedy ustoupit, pečlivě přemýšlet a být kreativní ohledně vhodných experimentů, které bychom mohli použít,“ vysvětluje Brodericková.
Nejprve navrhli několik testů pomocí simulovaných dat, která měla nerealistické aspekty, ale umožnila jim pečlivě řídit klíčové parametry. Poté vytvořili realističtější, semi-simulovaná data úpravou reálných dat. Nakonec použili pro několik experimentů reálná data.
Použití tří typů dat z realistických problémů, jako je předpovídání ceny bytu v Anglii na základě jeho umístění a předpovídání rychlosti větru, jim umožnilo provést komplexní vyhodnocení. Ve většině experimentů byla jejich technika přesnější než kterákoli z tradičních metod, se kterými ji porovnávali.
V budoucnu výzkumníci plánují aplikovat tyto techniky ke zlepšení kvantifikace nejistoty v prostorových kontextech. Také chtějí najít další oblasti, kde by předpoklad regularity mohl zlepšit výkon prediktorů, například u časových řad.
Tento výzkum je částečně financován Národní vědeckou nadací a Úřadem námořního výzkumu.
Související články
Budování důvěry ve vědu skrze dialog a empatii
Jak se příroda sama organizuje, od mozkových buněk po ekosystémy
3 otázky: Vizualizace výzkumu v éře umělé inteligence
Sdílet na sociálních sítích:
Komentáře