30 de mayo de 2023 a 2 de junio de 2023 Ciencias Naturales, Exactas y Ténicas
America/Havana zona horaria

Detección de entidades en discursos usando Spacy

No programado
23h 59m

Ponente

Diana Laura Pérez Trujillo (Facultad de Matemática y Computación)

Descripción

El objetivo principal del trabajo consiste en reconocer, en una serie de discursos, todas las entidades nombradas y categorizarlas en res definiciones diferentes: Onomásticos (Nombres personales), toponímicos (Lugares o localizaciones) y Analíticos (organizaciones y fechas) y además identificar en qué parte del discurso aparece. La problemática fue presentada por el Centro Fidel Castro Ruz, donde se estaba realizando el trabajo manuelamente por una serie de trabajadores.
Para optimizar la identificación y posterior categorización, fue usado spaCy, un paquete moderno de Python para hacer Procesamiento de Lenguaje Natural de potencia industrial. Ese paquete por sí solo es capaz de identificar entidades en cuanto a: Persona, Localización, Organización y Misceláneos. Por tanto, se aprovecho esta ventaja y se enterenó el modelo en el contexto de los discursos seleccionados. Además, se usaron otras herramientas del mismo paquete para identificar fechas históricas, del mismo modo, por cada entidad extraída se guarda la información de en qué discuro aparece y, dentro de este discurso, en qué texto aparece.
En total se analizaron 21 discursos diferentes, donde fueron identificados como entidades 602 cadenas de texto, categorizadas de la siguiente forma: 248 onomásticos, 228 toponímicos y 106 analíticos. En principio las predicciones no fueron mayormente acertadas, luego de varios “entrenamientos” la precisión de identificación de la entidad como la de la clasificación mejoró.
A pesar de que no es un modelo perfecto, reduce considerablemente el tiempo y el espacio de búsqueda a la hora de identificar y clasificar las entidades de interés.

Autores primarios

Sr. Alejandro Camacho Pérez (Facultad de Matemática y Computación) Diana Laura Pérez Trujillo (Facultad de Matemática y Computación)

Materiales de la presentación

Todavía no hay materiales.