27–29 de mayo de 2025 Ciencias Naturales, Exactas y Ténicas
Facultad de Matemática y Computación
America/Havana zona horaria

S2ST Directo con LLMs: Un estudio de factibilidad y estrategias de alineación.

No programado
20m
Facultad de Matemática y Computación

Facultad de Matemática y Computación

Facultad de Matemática y Computación, Universidad de La Habana, San Lázaro y L, Vedado, Plaza de la Revolución, La Habana, Cuba

Ponente

Niley González (Universidad de La Habana)

Descripción

Los Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés) han logrado resultados notables en el campo del Procesamiento de Lenguaje Natural (PNL), demostrando capacidades de aprendizaje en contexto, habilidades emergentes y extensibilidades a otras modalidades incluyendo el procesamiento de audio. Esta evolución ha impulsado el desarrollo de nuevas arquitecturas en la traducción de audio a audio (S2ST por sus siglas en inglés), donde los LLMs se integran de forma innovadora.
La presente investigación se centra en validar una de estas arquitecturas de S2ST, que se caracteriza por emplear un modelo directo de audio a audio. A diferencia de los sistemas tradicionales, esta arquitectura evita la transcripción a texto en cualquier etapa del proceso.
El objetivo principal del estudio consiste en evaluar la viabilidad y el potencial de esta arquitectura para generar traducciones de audio que sean no solo coherentes y naturales, sino también semánticamente precisas.
Un aspecto clave de la investigación radica en el estudio de las estrategias de alineación que permiten conectar la representación acústica del audio fuente, inherentemente continua, con la entrada discreta en forma de tokens que requieren los LLMs.
La evaluación del modelo se llevó a cabo utilizando una variación adaptada del corpus CVSS, derivado del conjunto de datos Common Voice. Los resultados preliminares obtenidos hasta el momento indican que esta arquitectura presenta un camino interesante para la traducción de audio a audio, abriendo nuevas posibilidades y revelando diversas vertientes para futuras mejoras e investigaciones.

Autores primarios

Niley González (Universidad de La Habana) Suilan Estevez Velarde (Universidad de La Habana) Yudivian Almeida Cruz (Universidad de La Habana)

Materiales de la presentación

Todavía no hay materiales.