DYLATIS - Dinamikus Látens Taxonomiai Azonosítás Tér
- Istvan Benedek
- 8 órával ezelőtt
- 2 perc olvasás
Megkezdtük a DYLATIS fejlesztését: egy dinamikus látens taxonómiai azonosítótér létrehozását a nagyléptékű felismerési pontosság vizsgálatára
Nemrég elindítottuk a DYLATIS – Dynamic Latent Taxonomy Identification Space – fejlesztését. Ez a keretrendszer egy központi kérdés megválaszolására született az OFELIA projektben:
Milyen felismerési pontosság várható akkor, amikor több mint 30 mélytanuló alapú feature-detektor modell – pontosan mért pontossággal – egyszerre működik egy hatalmas, zajos, nagy dimenziójú fajuniverzumban?
Az OFELIA korai kísérleti fázisai egy kellemetlen igazságot fedtek fel. Azok a módszerek, amelyek kis léptékben — néhány száz faj esetén (<1000) — még jól viselkednek, teljesen összeomlanak, amikor átlépjük a ~10000 fajt. A hagyományos, „lapos” osztályozás, az egyszerű távolságmetrikák és a tankönyvi feature-matching eljárások kisebb fajterekben még használhatók ugyan de ha valaki az egész gombavilágot, a teljes növényvilágot vagy akár az állatvilág egészét szeretné felismerni, ezek a klasszikus megközelítések egyszerűen nem skálázhatók.
A komplexitás nem lineárisan nő, hanem robbanásszerűen. Több ezer faj kezelése olyan, királyságtól független architektúrát kíván, amely ad hoc megoldások helyett általános, mélyen strukturált komponensekre épül.
A DYLATIS ezt a fundamentumot teremt meg. Egy mesterséges fajuniverzumot hozunk létre közvetlenül a látens jellemzőtérben, ahol minden faj nem képek, hanem megfigyelhető feature-vektorok alapján van leírva — olyan tulajdonságok alapján, amelyeket akár emberi megfigyelők, akár gépi modellek képesek érzékelni.
A feature-ök generálása illeszkedik a valóságos margóeloszlásokhoz, az entrópiaszerkezethez, az inter-feature korrelációkhoz, a klasztermorfológiához és a fajok közötti empirikus távolságeloszláshoz.
Egy sor egyedi veszteségi tag — páronkénti távolságokra illeszkedő soft CDF-matching, több modell Confusion Distribution Matrix-ából származtatott confusion-aware metrikák, a látens taxonómiai szerkezetet kialakító cluster-forming loss, valamint korreláció-illesztés a biológiai realizmus érdekében — segítségével egy szintetikus, mégis koherens biológiai világot építünk, amely tízezres nagyságrendű fajpopulációt tartalmaz.
A zavarási mátrixok valószínűségi csatornaként viselkednek: a „valódi” fajjellemzők zajos megfigyeléssé alakulnak át, pontosan úgy, ahogy a telepített rendszerünk is előállítaná. Ez lehetővé teszi, hogy a DYLATIS már jóval a végleges rendszer előtt szimulálja az OFELIA felismerési viselkedését.
A megközelítés egyik kulcsinnovációja a látens taxonómia felfedezése. Ahelyett hogy kívülről kényszerítenénk rá a fajokra a nemzetségeket vagy családokat, a fajok önszerveződnek klaszterekbe, tisztán a látens geometria alapján.
A cél mindebben egyértelmű: nagy hűséggel megjósolni, milyen felismerési pontosságot érhet el az OFELIA, ha több tucat, ismert megbízhatóságú mélytanuló modell működik együtt tízezres nagyságrendű fajon.
A látens világban futtatott nagyléptékű Monte Carlo szimulációk révén a DYLATIS becsléseket ad a top-1, top-5 és klaszter-szintű pontosságra, különféle zajszintek, feature-minőségek és fajszámok mellett.
Még fontosabb, hogy a DYLATIS irányt mutat a globális léptékű azonosítás felé. Ha az OFELIA — vagy bármely rendszer — egy teljes biológiai királyságot akar felismerni, túl kell lépnie a klasszikus technikákon.
A DYLATIS a mi kísérleti univerzumunk arra, hogy feltárjuk, hogyan kell működnie egy ilyen rendszernek — és milyen pontosság érhető el a végsőkig kifeszítve a lehetőségeket.

Hozzászólások