Ponente
Descripción
¿Son los LLMs capaces de razonamiento similar al humano?
Esta tesis propone un marco de evaluación con lógica difusa para dar respuesta a esta cuestión. Ante su integración en aplicaciones críticas, se hace necesario evaluar no solo su precisión, sino también su generalización, inferencia y manejo de incertidumbre. Los métodos tradicionales, basados en métricas binarias, no capturan estas dimensiones, limitando la comprensión de su razonamiento.
Este estudio explora si los LLMs procesan información flexible y aproximada, similar al razonamiento humano, en problemas de sentido común. Además, se diseñan experimentos con escenarios de incertidumbre, usando variables lingüísticas y defuzzificación para cuantificar el desempeño de los LLMs..
Los hallazgos sugieren que, aunque los LLMs no replican exactamente el razonamiento humano, algunos operan con estructuras internas coherentes para decisiones en contextos ambiguos. Esto implica que ciertos modelos pueden ajustar su procesamiento según gradientes de incertidumbre, superando limitaciones de evaluaciones binarias. Este trabajo aporta una metodología innovadora para evaluar razonamiento en LLMs, destacando su potencial en tareas que requieren manejo controlado de sentido común.
Esta investigación evidencia que el potecial de la lógica difusa para desentrañar sesgos y patrones ocultos en estos modelos, ofreciendo herramientas para optimizar su transparencia y eficacia en aplicaciones prácticas. Futuros estudios podrían explorar cómo estas capacidades se relacionan con arquitecturas específicas o entrenamiento multimodal.