III Taller de Inteligencia Artiﬁcial, Ciencia de Datos y Aplicaciones Criptográﬁcas

Name: III Taller de Inteligencia Artiﬁcial, Ciencia de Datos y Aplicaciones Criptográﬁcas
Start: 2025-05-27T09:00:00-04:00
End: 2025-05-29T13:00:00-04:00
Location: Facultad de Matemática y Computación

27–29 de mayo de 2025 Ciencias Naturales, Exactas y Ténicas

Facultad de Matemática y Computación

America/Havana zona horaria

Contact

yudivian@gmail.com

S2ST Directo con LLMs: Un estudio de factibilidad y estrategias de alineación.

No programado

20m

Facultad de Matemática y Computación

Facultad de Matemática y Computación, Universidad de La Habana, San Lázaro y L, Vedado, Plaza de la Revolución, La Habana, Cuba

Niley González (Universidad de La Habana)

Los Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés) han logrado resultados notables en el campo del Procesamiento de Lenguaje Natural (PNL), demostrando capacidades de aprendizaje en contexto, habilidades emergentes y extensibilidades a otras modalidades incluyendo el procesamiento de audio. Esta evolución ha impulsado el desarrollo de nuevas arquitecturas en la traducción de audio a audio (S2ST por sus siglas en inglés), donde los LLMs se integran de forma innovadora.
La presente investigación se centra en validar una de estas arquitecturas de S2ST, que se caracteriza por emplear un modelo directo de audio a audio. A diferencia de los sistemas tradicionales, esta arquitectura evita la transcripción a texto en cualquier etapa del proceso.
El objetivo principal del estudio consiste en evaluar la viabilidad y el potencial de esta arquitectura para generar traducciones de audio que sean no solo coherentes y naturales, sino también semánticamente precisas.
Un aspecto clave de la investigación radica en el estudio de las estrategias de alineación que permiten conectar la representación acústica del audio fuente, inherentemente continua, con la entrada discreta en forma de tokens que requieren los LLMs.
La evaluación del modelo se llevó a cabo utilizando una variación adaptada del corpus CVSS, derivado del conjunto de datos Common Voice. Los resultados preliminares obtenidos hasta el momento indican que esta arquitectura presenta un camino interesante para la traducción de audio a audio, abriendo nuevas posibilidades y revelando diversas vertientes para futuras mejoras e investigaciones.

Niley González (Universidad de La Habana) Suilan Estevez Velarde (Universidad de La Habana) Yudivian Almeida Cruz (Universidad de La Habana)

Todavía no hay materiales.

III Taller de Inteligencia Artiﬁcial, Ciencia de Datos y Aplicaciones Criptográﬁcas

Contact

S2ST Directo con LLMs: Un estudio de factibilidad y estrategias de alineación.

Facultad de Matemática y Computación

Ponente

Descripción

Autores

Materiales de la presentación

Elegir zona horaria

III Taller de Inteligencia Artiﬁcial, Ciencia de Datos y Aplicaciones Criptográﬁcas

Contact

Ponente

Descripción

Autores

Materiales de la presentación