30 de mayo de 2023 a 2 de junio de 2023 Ciencias Naturales, Exactas y Ténicas
America/Havana zona horaria

Influencia de la matriz TF-IDF en la calidad de la detección de tópicos usando factorizaciones de matrices no negativas

No programado
23h 59m

Ponente

Lucia Fernández Cuétara (Matcom)

Descripción

En este trabajo se analiza la influencia de la matriz TF-IDF en la calidad de detección de tópicos en documentos de textos usando factorizaciones de matrices no negativas. Para ello se realiza la detección de tópicos a partir de distintas matrices TF-IDF. Una matriz TF-IDF La matriz TF-IDF se compone de dos partes: la frecuencia del término (TF) y la frecuencia inversa del documento (IDF). La frecuencia del término se refiere a la cantidad de veces que una palabra específica aparece en un documento, mientras que la frecuencia inversa del documento se refiere a la importancia de la palabra en el conjunto de documentos. En otras palabras, la frecuencia inversa del documento mide la rareza de una palabra en el conjunto de documentos. Y, dependiendo de cómo calculemos dicha matriz la importancia de determinadas palabras cambiará, influyendo así en la detección del tópico.

En particular se experimentará con las matrices tf-idf clásica, Tf-idf suavizada y BM25. Los textos seleccionados para el análisis son las cartas a la dirección de un periódico cubano, y la clasificación de tópicos se comparará con la realizada por humanos.

Autor primario

Materiales de la presentación

Todavía no hay materiales.