Mis oleks, kui turvakaamera ei jäädvustaks mitte ainult videot, vaid mõistaks ka pildil toimuvat, eristades tavalist tegevust ohtlikust käitumisest? Just sellist tulevikku kujundavad Virginia ülikooli rakendusteaduste ja tehnika kooli (School of Engineering and Applied Science ehk SEAS) teadlased oma uusima teadussaavutusega: tehisarupõhise intelligentse videote analüsaatoriga, mis suudab seninägematu täpsusega tuvastada videomaterjalis seda, mida inimesed teevad.
SUUR VEND ARENEB ⟩ Turvakaamerad õpivad tehisaru toel maailmast aru saama
Süsteem, mida kutsutakse semantilise ja liikumiseteadliku aegruumilise trafo võrgustikuks (Semantic and Motion-Aware Spatiotemporal Transformer Network ehk SMAST), pakub paljku erinevaid rakendusi, alates täiustatud jälgimissüsteemidest ja avaliku turvalisuse parandamisest kuni tervishoius liikumisjälgimise täiustamiseni ning isegi autonoomsete sõidukite navigatsiooni täpsustamiseni keerulistes oludes.
Uus tehisintellekti tehnoloogia avab ukse reaalajas tegevuste tuvastamisele kõige nõudlikumates keskkondades, selgitas Virginia ülikooli elektri- ja arvutitehnika osakonna professor ja juhataja ning projekti juhtivteadur Scott T. Acton. Selline areng aitab ära hoida õnnetusi, parandada diagnostikat ja isegi päästa elusid, pakub teadlane võimalikku kasu sellisest projektist.
Tehisarupõhine uuendus keeruliste videote analüüsimiseks
Kuidas SMAST siis töötab? Selle keskmes on mõistagi tehisintellekt. Süsteem tugineb kahele võtmekomponendile, et tuvastada ja mõista keerukaid inimkäitumisi.
Esimene neist on multifunktsionaalne valikuline tähelepanumudel, mis aitab tehisintellektil keskenduda stseeni kõige olulisematele osadele – näiteks inimesele või esemele – samal ajal ignoreerides tarbetuid detaile. See muudab süsteemi täpsemaks toimuvate tegevuste tuvastamisel, näiteks tunneb ära, kas keegi viskab palli, mitte lihtsalt ei liiguta oma kätt.
Teine oluline omadus on liikumiseteadlik asukoha kodeerimise algoritm, mis aitab tehisintellektil jälgida asjade liikumist ajas.
Kujuta ette näiteks videot, kus inimesed pidevalt asukohti vahetavad – see tööriist aitab tehisarul neid liikumisi meelde jätta ja mõista, kuidas need on omavahel seotud.
Neid funktsioone integreerides suudab SMAST täpselt tuvastada keerukaid tegevusi reaalajas, muutes selle tõhusamaks eriti olulistes olukordades, nagu jälgimine, tervishoiudiagnostika või autonoomne sõitmine.
SMAST muudab täielikult seda, kuidas masinad tuvastavad ja tõlgendavad inimtegevust. Praegused süsteemid satuvad raskustesse kaootilise, töötlemata ja katkematu videomaterjaliga, jättes sündmuste konteksti tähelepanuta. SMASTi uuenduslik disain lubab aga erilise täpsusega tabada seoseid inimeste ja objektide vahel, kasutades tehisintellekti komponente, mis aitavad süsteemil andmete põhjal õppida ja kohaneda.
Kahtlane käitumine äratab tehisintellekti tähelepanu
Uus lahendus tähendab, et tehisintellekti süsteem suudab tuvastada selliseid tegevusi, nagu jooksja, kes ületab tänavat, arst, kes viib läbi täpset protseduuri, või isegi turvaohtu rahvarohkes kohas.
Sellel võib olla tohutu ühiskondlik mõju, märkis Actoni labori järeldoktor ja projekti kaasautor Matthew Korban. Tema sõnul võib see tehnoloogia muuta tööstusharusid, muutes videopõhised süsteemid intelligentsemaks ja võimeliseks toimuvat reaalajas mõistma.
Teadustöö on avaldatud ajakirjas IEEE Transactions on Pattern Analysis and Machine Intelligence.