M-QUEST -- Meme Question-Understanding Evaluation on Semantics and Toxicity

Este trabajo presenta M-QUEST, un marco semántico y un benchmark de 609 pares de preguntas y respuestas diseñado para evaluar la capacidad de los modelos de lenguaje para interpretar la toxicidad y el significado de los memes mediante el análisis de múltiples dimensiones, revelando que los modelos con ajuste de instrucciones y razonamiento superan a los demás, aunque siguen enfrentando desafíos en la inferencia pragmática.

Stefano De Giorgis, Ting-Chih Chen, Filip Ilievski2026-03-05🤖 cs.AI

From We to Me: Theory Informed Narrative Shift with Abductive Reasoning

Este artículo presenta un enfoque neurosimbólico basado en la teoría de las ciencias sociales y el razonamiento abductivo que permite a los modelos de lenguaje grandes transformar eficazmente narrativas entre marcos individualistas y colectivistas, superando significativamente a los métodos de base cero mientras preservan la fidelidad del mensaje original.

Jaikrishna Manojkumar Patil, Divyagna Bavikadi, Kaustuv Mukherji + 5 more2026-03-05🤖 cs.AI

Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

Este trabajo presenta DBench-Bio, un marco de referencia dinámico y automatizado que evalúa la capacidad de los modelos de lenguaje grandes para descubrir nuevo conocimiento biológico, superando las limitaciones de los conjuntos de datos estáticos mediante un proceso de actualización mensual basado en literatura científica rigurosa.

Chaoqun Yang, Xinyu Lin, Shulin Li + 4 more2026-03-05🤖 cs.AI

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

El artículo presenta StructLens, un marco analítico que utiliza árboles de expansión máxima sobre representaciones semánticas para revelar relaciones estructurales globales entre capas de modelos de lenguaje, demostrando que esta perspectiva estructural ofrece una métrica de similitud superior a la coseno tradicional y es beneficiosa para tareas prácticas como la poda de capas.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Este artículo introduce el "Certainty Robustness Benchmark", un marco de evaluación de dos vueltas que demuestra que la fiabilidad interactiva de los modelos de lenguaje grandes es una dimensión crítica distinta de la precisión básica, revelando cómo algunos modelos abandonan respuestas correctas bajo presión conversacional mientras otros mantienen una alineación robusta entre su confianza y la verdad.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Este artículo presenta una evaluación empírica exhaustiva de la robustez de 13 modelos de lenguaje ante cinco tipos de perturbaciones en el razonamiento de cadena de pensamiento, revelando patrones de vulnerabilidad heterogéneos que dependen del tamaño del modelo y del tipo de error, con implicaciones críticas para el despliegue de sistemas de razonamiento multi-etapa.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI