Ponente
Descripción
El objetivo principal del trabajo consiste en reconocer, en una serie de discursos, todas las entidades nombradas y categorizarlas en res definiciones diferentes: Onomásticos (Nombres personales), toponímicos (Lugares o localizaciones) y Analíticos (organizaciones y fechas) y además identificar en qué parte del discurso aparece. La problemática fue presentada por el Centro Fidel Castro Ruz, donde se estaba realizando el trabajo manuelamente por una serie de trabajadores.
Para optimizar la identificación y posterior categorización, fue usado spaCy, un paquete moderno de Python para hacer Procesamiento de Lenguaje Natural de potencia industrial. Ese paquete por sí solo es capaz de identificar entidades en cuanto a: Persona, Localización, Organización y Misceláneos. Por tanto, se aprovecho esta ventaja y se enterenó el modelo en el contexto de los discursos seleccionados. Además, se usaron otras herramientas del mismo paquete para identificar fechas históricas, del mismo modo, por cada entidad extraída se guarda la información de en qué discuro aparece y, dentro de este discurso, en qué texto aparece.
En total se analizaron 21 discursos diferentes, donde fueron identificados como entidades 602 cadenas de texto, categorizadas de la siguiente forma: 248 onomásticos, 228 toponímicos y 106 analíticos. En principio las predicciones no fueron mayormente acertadas, luego de varios “entrenamientos” la precisión de identificación de la entidad como la de la clasificación mejoró.
A pesar de que no es un modelo perfecto, reduce considerablemente el tiempo y el espacio de búsqueda a la hora de identificar y clasificar las entidades de interés.