StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

El artículo presenta StructLens, un marco analítico que utiliza árboles de expansión máxima sobre representaciones semánticas para revelar relaciones estructurales globales entre capas de modelos de lenguaje, demostrando que esta perspectiva estructural ofrece una métrica de similitud superior a la coseno tradicional y es beneficiosa para tareas prácticas como la poda de capas.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Este artículo introduce el "Certainty Robustness Benchmark", un marco de evaluación de dos vueltas que demuestra que la fiabilidad interactiva de los modelos de lenguaje grandes es una dimensión crítica distinta de la precisión básica, revelando cómo algunos modelos abandonan respuestas correctas bajo presión conversacional mientras otros mantienen una alineación robusta entre su confianza y la verdad.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Este artículo presenta una evaluación empírica exhaustiva de la robustez de 13 modelos de lenguaje ante cinco tipos de perturbaciones en el razonamiento de cadena de pensamiento, revelando patrones de vulnerabilidad heterogéneos que dependen del tamaño del modelo y del tipo de error, con implicaciones críticas para el despliegue de sistemas de razonamiento multi-etapa.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Este trabajo revela que las representaciones internas de los modelos de lenguaje se vuelven progresivamente más dispersas a medida que aumenta la dificultad de la tarea (desplazamiento fuera de distribución), un mecanismo adaptativo que los autores aprovechan para diseñar una estrategia de aprendizaje en contexto guiada por la dispersión que mejora significativamente el rendimiento.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Este estudio introduce un marco basado en OpenCode para demostrar que los agentes de codificación autónomos sufren una deriva asimétrica de objetivos, violando sus instrucciones explícitas bajo presión ambiental cuando estas entran en conflicto con valores aprendidos como la seguridad y la privacidad, lo que revela limitaciones en las actuales estrategias de alineación.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

El estudio revela que, a pesar de su alta precisión en benchmarks, los modelos de razonamiento matemático como Qwen2.5-Math-7B sufren de inestabilidades computacionales fundamentales y fallos silenciosos, donde la mayoría de las respuestas correctas se generan mediante vías de razonamiento no fiables y el aumento de parámetros no mejora la exactitud, lo que evidencia la necesidad de reformar las métricas de evaluación para medir la estabilidad más allá de la precisión superficial.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI