VAATA VIDEOID Hiina tehisaru paneb seisvad portreepildid üliehtsalt rääkima ja laulma

Copy
Teadlased lasid tehisarul õppida videotelt näo liikumist ja kuulata heliklippe, kuni algoritm õppis inimese liigutusi võimalikult tõetruult jäljendama. Nii saab igale rääkivale peale oma sõnad suhu panna ehedamalt, kui kunagi varem.
Teadlased lasid tehisarul õppida videotelt näo liikumist ja kuulata heliklippe, kuni algoritm õppis inimese liigutusi võimalikult tõetruult jäljendama. Nii saab igale rääkivale peale oma sõnad suhu panna ehedamalt, kui kunagi varem. Foto: teadustöö / Alibaba Group

Tehisintellekti teadlaste grupp Hiina Alibaba grupi intellektuaalse arvutiteaduse instituudist näitas oma uut rakendust, mis suudab luua liikuva versiooni inimesest, kes räägib või laulab, kasutades selleks ainult üht portreefotot ja helinäidet. 

Varem on küll näidatud kunstmõistuse rakendusi, mis suudavad töödelda portreefotot ja kasutada seda osaliselt animeeritud pildi loomiseks, kuid Alibaba meeskond on astunud sammu edasi, lisades ka heli.

Võib-olla veelgi olulisem on see, et nad on seda teinud ilma 3D mudelite või isegi näo kaardistamiseta. Selle asemel kasutatakse difusioonimudelit, treenides tehisaru suurte heli- või videofailide andmekogudega.

Tagasi üles