Meta Platforms Inc. обяви модел с изкуствен интелект, който може да транскрибира и превежда до 100 езика. SeamlessM4T поддържа преводи между реч и текст, като улеснява взаимодействието между хората, независимо от родния им език.
В публикация в блога, публикувана на 22 август, компанията майка на Facebook заяви, че моделът поддържа и пълни преводи от реч на реч на 36 езика, което е подобрение в сравнение с предишните модели, които можеха да превеждат реч или текст само на един език едновременно.
SeamlessM4T може да изпълнява различни други функции, включително разпознаване на реч, превод на реч към текст, превод на текст към текст и превод на текст към реч, заяви компанията.
Meta твърди, че SeamlessM4T намалява грешките
Според публикацията в блога компанията предоставя своя модел SeamlessM4T за публично ползване с нетърговска цел – което означава, че изследователи и разработчици могат да използват модела, за да създават свои собствени приложения и да подобряват състоянието на превода с изкуствен интелект.
Изследователите казват, че моделът е бил обучен върху четири милиона часа „необработен звук, произхождащ от публично достъпно хранилище на обходени уеб данни“, съобщава Ройтерс. Текстовите данни са взети от набори от данни, създадени през 2022 г. чрез изстъргване на съдържание от Уикипедия и други свързани уебсайтове.
Meta признава, че данните не са защитени с авторски права – нещо, което е довело до съдебни дела срещу фирми за изкуствен интелект, използващи публично достъпни данни за обучение на своите модели. Компанията описва SeamlessM4T като „значителен пробив“ в областта на технологиите за преобразуване на реч в текст и реч в текст.
„В сравнение с подходите, използващи отделни модели, подходът на единната система SeamlessM4T намалява грешките и забавянията, като повишава ефективността и качеството на процеса на превод“, заяви Meta.
SeamlessM4T се основава на No Language Left Behind на Meta, модел за машинен превод от текст към текст, пуснат миналата година, и Universal Speech Translator, който поддържа Хокиен, разновидност на китайския език.
Той също така се основава на рамката Massively Multilingual Speech на компанията, която осигурява технология за разпознаване на реч, идентификация на езици и синтез на реч за повече от 1100 езика.
I – метавселена на връзката
Главният изпълнителен директор на Meta Марк Зукърбърг по-рано заяви, че очаква инструменти като SeamlessM4T да улеснят взаимодействието между потребители от цял свят в метавселената.
Като улеснява общуването между хората на различни езици, ИИ може да помогне за превръщането на метавселената в по-приобщаващо и достъпно пространство за всички.
Зукърбърг вярва, че метасредата е от полза за отворената екосистема на ИИ, тъй като тя позволява на компанията да използва краудсорсинг за създаването на инструменти, насочени към потребителите, за своите социални платформи, вместо да таксува достъпа до моделите, както се казва в доклада на Ройтерс.
В публикацията си в блога компанията пише:
„Нашият единен модел осигурява преводи при поискване, които позволяват на хората, говорещи различни езици, да общуват по-ефективно.“
Meta не е единствената компания, която създава модели за превод, базирани на изкуствен интелект. Amazon, Microsoft, OpenAI и Google работят по търговски услуги за превод с изкуствен интелект или такива с отворен код. Mozilla създаде Common Voice – голяма многоезична база данни с гласове, която може да се използва за обучение на алгоритми за автоматично разпознаване на реч.
Meta предупреди, че SeamlessM4T може да е податлив на някои пристрастия. Той има склонност да „прекалява с генерализирането на формите за мъжки род, когато превежда от неутрални термини“ и се представя по-добре, когато превежда от референция за мъжки род (напр. съществителни като „той“ в английския език) за повечето езици.