Meta ha hecho un anuncio importante al mostrar al mundo un traductor de voz, impulsado por la inteligencia artificial, que funcionará con idiomas hablados, pero no escritos.
La noticia ha sido compartida por el propio Mark Zuckerberg, quien mostró que el traductor es capaz de convertir el Hokkien, idioma no escrito que se habla en Asia y especialmente en Taiwán, al inglés.
El traductor IA de Meta
Meta ha iniciado el Universal Speech Translator (UST) como una forma de trabajar y desarrollar la traducción de idioma a otro en tiempo real con el fin de apoyar la interacción en su metaverso.
En este sistema, impulsada por la inteligencia artificial, se está dando prioridad al habla para su entrenamiento, con el fin de que múltiples idiomas mundiales que no mantengan una escritura puedan también ser compatibles. Se cree que al menos 4 de cada 10 idiomas en el mundo no tiene escritura y no tienen apoyo de otros software como el traductor de Google.
Actualmente, el sistema permite que alguien que hable Hokkien converse con alguien que hable inglés, aunque de manera forzada. El modelo solo puede traducir una oración completa a la vez, pero Zuckerberg confía en que la técnica eventualmente se pueda aplicar a más idiomas y mejorará hasta el punto de ofrecer traducción en tiempo real.
“Aprovechamos el mandarín como idioma intermedio para crear pseudoetiquetas, donde primero traducimos el habla en inglés (o Hokkien) a texto en mandarín, y luego traducimos a Hokkien (o inglés) y lo agregamos a los datos de capacitación”, refiere Zuckerberg. El equipo se centró en la creación de datos anotados por humanos, la extracción automática de datos de grandes conjuntos de datos de voz sin etiquetar y la adopción de pseudoetiquetado para producir datos poco supervisados.
Nuevos modelos
El enfoque actual de Meta AI, la división de inteligencia artificial de la empresa, es desarrollar un sistema de traducción de voz a voz que no se base en generar una representación textual intermedia durante la inferencia. Se ha demostrado que este enfoque es más rápido que un sistema en cascada tradicional que combina modelos separados de reconocimiento de voz, traducción automática y síntesis de voz.
Meta AI afirma que las técnicas en las que fue pionera con Hokkien pueden extenderse a muchos otros lenguajes no escritos y eventualmente funcionar en tiempo real. Para este propósito, Meta está lanzando Speech Matrix, un gran corpus de traducciones de voz a voz extraídas con la innovadora técnica de minería de datos llamada LASER. Esto permitirá que otros equipos de investigación creen sus propios sistemas.