Ponente
Descripción
En este trabajo se analiza la influencia de la matriz TF-IDF en la calidad de detección de tópicos en documentos de textos usando factorizaciones de matrices no negativas. Para ello se realiza la detección de tópicos a partir de distintas matrices TF-IDF. Una matriz TF-IDF La matriz TF-IDF se compone de dos partes: la frecuencia del término (TF) y la frecuencia inversa del documento (IDF). La frecuencia del término se refiere a la cantidad de veces que una palabra específica aparece en un documento, mientras que la frecuencia inversa del documento se refiere a la importancia de la palabra en el conjunto de documentos. En otras palabras, la frecuencia inversa del documento mide la rareza de una palabra en el conjunto de documentos. Y, dependiendo de cómo calculemos dicha matriz la importancia de determinadas palabras cambiará, influyendo así en la detección del tópico.
En particular se experimentará con las matrices tf-idf clásica, Tf-idf suavizada y BM25. Los textos seleccionados para el análisis son las cartas a la dirección de un periódico cubano, y la clasificación de tópicos se comparará con la realizada por humanos.