Ponente
Descripción
Los modelos de lenguaje a gran escala (LLMs) han demostrado capacidades avanzadas en la comprensión y generación de texto, pero su desempeño en tareas específicas, como la clasificación de problemas de machine learning, continúa siendo un problema abierto.
El estudio se basa en un corpus etiquetado de preguntas, sobre el cual se analizan dos enfoques principales. Primero, se establece una línea base evaluando el desempeño de los modelos sin ajustes adicionales. Posteriormente, se implementa un enfoque mejorado basado en Recuperación Aumentada con Generación (RAG), donde se prueban distintas estrategias de prompt engineering para mejorar la precisión de la clasificación. Para cada estrategia, se cuantificar el impacto de RAG y la ingeniería de prompts en el rendimiento de los modelos mediante métricas de precisión.
Los resultados proporcionan un análisis cuantitativo del potencial de los LLM en la identificación de problemas de machine learning a partir de descripciones en lenguaje natural. Los mismos pueden servir como referencia para la implementación de LLMs en herramientas automatizadas de apoyo a científicos de datos, mostrando el efecto del acceso a información adicional mediante RAG y de una adecuada estructuración de los prompts en la mejora del desempeño. Finalmente, se discuten los desafíos y limitaciones de estos modelos, así como posibles direcciones futuras de investigación.