Meta presentó un nuevo modelo de traducción de voz y texto basado en inteligencia artificial

Meta presentó un nuevo modelo de traducción de voz y texto basado en inteligencia artificial

La compañía tecnológica describe a su nuevo sistema, llamado Seamless M4T, como “el primer modelo de traducción de IA multimodal y multilingüe todo en uno”. Los detalles

Seamless M4T es capaz de funcionar con casi 100 idiomas diferentes.

Meta, la compañía tecnológica propietaria de Instagram, WhatsApp y Facebook, lanzó este martes un sistema de traducción basado en Inteligencia Artificial (IA) llamado Seamless M4T, que funciona sin la necesidad de convertir los audios a texto para traducirlos y es compatible con casi 100 idiomas.

Este nuevo producto de Meta fue lanzado de manera abierta para que investigadores y desarrolladores de todo el mundo puedan trabajar sobre lo ya construido por la compañía.

En una publicación en su blog oficial, la tecnológica describe a su nuevo sistema de traducción como “el primer modelo de traducción de IA multimodal y multilingüe todo en uno”, capaz de reconocimiento de voz y traducción de voz a texto para casi 100 idiomas diferentes.

El nuevo modelo de traducción de Meta puede ejecutar diferentes funciones.

El modelo también puede interpretar voz y texto para devolver palabras traducidas en 36 y 35 idiomas respectivamente.

Paco Guzmán, director de investigación científica en Meta, destacó que Seamless M4T no necesita de un modelo intermediario para generar resultados, lo que le permite ser más ágil. Esto lo diferencia de otros sistemas que funcionan en cascada, en los que primero se activa el reconocimiento de voz, luego se pasa lo que dice el usuario a texto y, finalmente, se genera un audio con el mensaje traducido.

“Incluso admite cambiar de idioma sobre la marcha”, le dijo Guzmán al medio Axios, y agregó que “esto le permite brindar un mejor apoyo a las poblaciones que naturalmente mezclan idiomas en su habla cotidiana”.

El modelo Seamless M4T de Meta es capaz de ejecutar las siguientes funciones:

  • Reconocimiento de voz para casi 100 idiomas.
  • Traducción de voz a texto para casi 100 idiomas de entrada y salida.
  • Traducción de voz a voz, compatible con casi 100 idiomas de entrada y 36 (incluido el inglés) idiomas de salida.
  • Traducción de texto a texto para casi 100 idiomas.
  • Traducción de texto a voz, compatible con casi 100 idiomas de entrada y 35 (incluido el inglés) idiomas de salida.

Desde la compañía destacaron que este nuevo lanzamiento se basa en los avances que tanto sus propios equipos como otros externos han conseguido durante los últimos años, con el objetivo de crear un “traductor universal”.

El año pasado Meta lanzó “No Language Left Behind (NLLB)”, un modelo de traducción automática de texto a texto que admite 200 idiomas, y desde entonces se ha integrado en Wikipedia como uno de los proveedores de traducción.

También habían compartido una demostración de su traductor universal de voz, y a principios de este año mostraron “Massively Multilingual Speech”, que proporciona reconocimiento de voz, identificación de idiomas y tecnología de síntesis de voz en más de 1.100 idiomas.

Send this to a friend