VAATA VIDEOID ⟩ Hiina tehisaru paneb seisvad portreepildid üliehtsalt rääkima ja laulma

teadus.postimees.ee

6. märts 2024, 18:42

Teadlased lasid tehisarul õppida videotelt näo liikumist ja kuulata heliklippe, kuni algoritm õppis inimese liigutusi võimalikult tõetruult jäljendama. Nii saab igale rääkivale peale oma sõnad suhu panna ehedamalt, kui kunagi varem. Foto: teadustöö / Alibaba Group

Tehisintellekti teadlaste grupp Hiina Alibaba grupi intellektuaalse arvutiteaduse instituudist näitas oma uut rakendust, mis suudab luua liikuva versiooni inimesest, kes räägib või laulab, kasutades selleks ainult üht portreefotot ja helinäidet.

Varem on küll näidatud kunstmõistuse rakendusi, mis suudavad töödelda portreefotot ja kasutada seda osaliselt animeeritud pildi loomiseks, kuid Alibaba meeskond on astunud sammu edasi, lisades ka heli.

Märkimisväärne on see, et nad on seda teinud ilma 3D-mudelite või isegi näo kaardistamiseta. Selle asemel kasutatakse difusioonimudelit, treenides tehisaru suurte heli- või videofailide andmekogudega.

Alibaba meeskond kasutas oma lahenduse loomiseks umbes 250 tundi selliseid heli- ja videoandmeid. Loodud lahendust nimetavad nad Emote Portrait Alive'iks ehk lühendatult EMOks.

Helilainet otse videokaadriteks teisendades lõid uurijad rakenduse, mis tabab ära peenemad inimese näo liigutused, kõne omapärad ja muud omadused, mis tuvastavad animeeritud näolt inimesele omase liikumise.

Videod taastavad usaldusväärselt kõige tõenäolisemad suu kuju muutused, mida kasutatakse sõnade ja lausete väljaütlemiseks.

Näiteks ühes demonstreeritud videos kasutati kuulsat Mona Lisa pilti ja Shakespeare'i monoloogi «Nagu teile meeldib. Rosalinda» helirada.

Meeskond on postitanud ka videoid, mis näitavad nende loodud päris täpseid etteasteid, väites, et need ületavad tunduvalt teisi rakendusi realistlikkuse ja väljendusrikkuse osas.

Samuti märgivad nad, et valminud video pikkus määratakse originaalheliraja pikkuse järgi. Videotes näidatakse algset pilti kõrvuti selle inimese kõneleva või laulva versiooniga, kes oli originaalhelirajal salvestatud.

Meeskond lõpetab oma töö hoiatusega, et sellise rakenduse kasutamist tuleb kindlasti piirata või rangelt jälgida, et vältida ohtliku tehnoloogia ebaeetilist kasutamist.

Teadlaste grupp on avaldanud oma teadustööd kirjeldava artikli siin.

Vaata altpoolt mõnesid näidisvideoid, mismoodi uus tehisintellektirakendus tuntud pead rääkima paneb.

Tuntud ajalooline näitleja Audrey Hepburn on pandud laulma Ed Sheerani laulu «Perfect», mida kaverdab Samantha Harvey (originaalheli leiab siit):

Oma nii-öelda konkurendi, OpenAI videogeneraatori teenuse Sora üks Tokyo tänaval kõndiv naine on võetud järgmiseks aluseks rääkiva video tegemisel, mille heliriba on pärit OpenAI töötaja vestlusest:

Seesama rääkiv pea laulab nüüd aga Dua Lipa laulu «Don't Start Now»:

Siin on pandud tuntud näitleja Leonardo DiCaprio laulma EMINEMi laulu kaverit «Godzilla»:

VAATA VIDEOID Hiina tehisaru paneb seisvad portreepildid üliehtsalt rääkima ja laulma

Märksõnad