Ponente
Descripción
Los Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés) han logrado resultados notables en el campo del Procesamiento de Lenguaje Natural (PNL), demostrando capacidades de aprendizaje en contexto, habilidades emergentes y extensibilidades a otras modalidades incluyendo el procesamiento de audio. Esta evolución ha impulsado el desarrollo de nuevas arquitecturas en la traducción de audio a audio (S2ST por sus siglas en inglés), donde los LLMs se integran de forma innovadora.
La presente investigación se centra en validar una de estas arquitecturas de S2ST, que se caracteriza por emplear un modelo directo de audio a audio. A diferencia de los sistemas tradicionales, esta arquitectura evita la transcripción a texto en cualquier etapa del proceso.
El objetivo principal del estudio consiste en evaluar la viabilidad y el potencial de esta arquitectura para generar traducciones de audio que sean no solo coherentes y naturales, sino también semánticamente precisas.
Un aspecto clave de la investigación radica en el estudio de las estrategias de alineación que permiten conectar la representación acústica del audio fuente, inherentemente continua, con la entrada discreta en forma de tokens que requieren los LLMs.
La evaluación del modelo se llevó a cabo utilizando una variación adaptada del corpus CVSS, derivado del conjunto de datos Common Voice. Los resultados preliminares obtenidos hasta el momento indican que esta arquitectura presenta un camino interesante para la traducción de audio a audio, abriendo nuevas posibilidades y revelando diversas vertientes para futuras mejoras e investigaciones.