Мета

Audio2Photoreal на Meta вече позволява фотореалистични аватари, захранвани с глас

Meta въведе още една концепция за изкуствен интелект в индустрията на метавселената. Според неотдавнашен туит на Алън Т., преподавател и разработчик на ИИ, компанията е пуснала нова рамка, наречена Audio2Photoreal.

Audio2Photoreal е рамка за генериране на пълноценни фотореалистични аватари, които естествено се управляват с жестове от гласа на автора. Тези аватари оживяват чрез аудио реч, която е интегрирана в жестовото движение на хората.

При наличие на необработена аудио реч от отделни лица се създава модел за генериране на съответните фотореалистични жестове. Системата се състои от два генеративни модела, които представят кодовете на изражението и позите на тялото на аватара.

Според клиповете, качени от Ален Т, различните части на индивида, включително устата, ръцете и лицето, се влияят от това допълнение.

Някои от публикуваните демонстрации са множество генерирани образци, два лични разговора, образец на генерирани женски аватари и ръководни пози, управляващи дифузния модел. Ален Т. добави, че метавселената ще бъде забавна с тази разработка. На други места технологичната общност изглежда развълнувана след коментарите към публикацията. Потребителят @EverettWorld написа в Twitter: „Ако метавселената изглежда по този начин, аз съм вътре!“.

Друг потребител обаче агитира, че вече не вярва много на Мета. Според @AIandDesign Мета е вредна за хората след цялата случка с Cambridge Analytica. Потребителят добавя: „В момента, в който Meta е в експлоатация, тя е на път да се разпадне,

„Всичко това е толкова готино. Иска ми се само да не е Мета. Вече не им се доверявам много. След цялата случка с Кеймбридж Аналитика напълно приключих с Мета. Те са вредни за човечеството. Буквално. Аз съм във ФБ, но само за семейни неща“.

Технологията зад концепцията Audio2Photoreal

ArXiv, курирана платформа за споделяне на изследвания, отворена за учени, които могат да споделят изследвания, преди да са били рецензирани, даде повече информация за Audio2Photoreal.

Движението на тялото на аватара се синтезира с помощта на дифузионен модел, обусловен съответно от аудио или текст. За движението на лицето е конструиран дифузионен модел, обусловено от аудио входа.

Въпреки това тялото и лицето следват силно различна динамика, при която лицето е силно корелирано с входното аудио, докато тялото има по-слаба корелация с речта.

Related posts

Град Нанкин прави смел ход, за да се превърне в китайски Metaverse Hub

admin

Nvidia разкрива нови разработки в областта на метавселената

admin

SKT достигна важнен етап с метавселената Ifland

admin