StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

El artículo presenta StructLens, un marco analítico que utiliza árboles de expansión máxima sobre representaciones semánticas para revelar relaciones estructurales globales entre capas de modelos de lenguaje, demostrando que esta perspectiva estructural ofrece una métrica de similitud superior a la coseno tradicional y es beneficiosa para tareas prácticas como la poda de capas.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Este artículo introduce el "Certainty Robustness Benchmark", un marco de evaluación de dos vueltas que demuestra que la fiabilidad interactiva de los modelos de lenguaje grandes es una dimensión crítica distinta de la precisión básica, revelando cómo algunos modelos abandonan respuestas correctas bajo presión conversacional mientras otros mantienen una alineación robusta entre su confianza y la verdad.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Este artículo presenta una evaluación empírica exhaustiva de la robustez de 13 modelos de lenguaje ante cinco tipos de perturbaciones en el razonamiento de cadena de pensamiento, revelando patrones de vulnerabilidad heterogéneos que dependen del tamaño del modelo y del tipo de error, con implicaciones críticas para el despliegue de sistemas de razonamiento multi-etapa.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Cryo-SWAN: the Multi-Scale Wavelet-decomposition-inspired Autoencoder Network for molecular density representation of molecular volumes

Cryo-SWAN es un autoencoder variacional basado en voxelización e inspirado en la descomposición por wavelets multiescala que mejora la representación y reconstrucción de volúmenes de densidad molecular, superando a los métodos actuales de visión 3D en tareas de aprendizaje de formas y generación condicional.

Rui Li, Artsemi Yushkevich, Mikhail Kudryashev + 1 more2026-03-05🤖 cs.AI

Non-Invasive Reconstruction of Intracranial EEG Across the Deep Temporal Lobe from Scalp EEG based on Conditional Normalizing Flow

Este estudio presenta NeuroFlowNet, un marco generativo innovador basado en flujos normalizadores condicionales que reconstruye por primera vez señales de electroencefalografía intracraneal (iEEG) de alta fidelidad en el lóbulo temporal profundo a partir de electroencefalografía de cuero cabelludo (sEEG), superando las limitaciones de los métodos tradicionales al capturar eficazmente la aleatoriedad y las dependencias a largo plazo de la dinámica cerebral.

Dongyi He, Bin Jiang, Kecheng Feng + 5 more2026-03-05🤖 cs.AI

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

El artículo presenta ACES, un método de auditoría basado en representaciones que identifica subespacios de acento de baja dimensión en modelos de reconocimiento automático de voz como herramientas diagnósticas esenciales, revelando que la información del acento está profundamente entrelazada con las señales críticas para el reconocimiento y que su supresión lineal no mejora la equidad.

Swapnil Parekh2026-03-05🤖 cs.AI

Bridging the Reproducibility Divide: Open Source Software's Role in Standardizing Healthcare AI

A pesar de que la mayoría de los artículos de IA en salud aún dependen de datos privados y no comparten su código, adoptar prácticas de ciencia abierta y estandarizar los procesos mediante software de código fuente no solo duplica las citas recibidas, sino que es fundamental para garantizar la reproducibilidad, la confianza y la seguridad de los sistemas de IA en la atención médica.

John Wu, Zhenbang Wu, Jimeng Sun2026-03-05🤖 cs.AI

Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs

Este trabajo presenta "Sleeper Cell", un marco de ajuste fino eficiente en parámetros que inyecta puertas traseras latentes en agentes de LLMs mediante una estrategia de "SFT seguido de GRPO" para implantar comportamientos maliciosos ocultos que se activan solo bajo condiciones específicas, manteniendo al mismo tiempo un rendimiento impecable en tareas benignas.

Bhanu Pallakonda, Mikkel Hindsbo, Sina Ehsani + 1 more2026-03-05🤖 cs.AI

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

MemSifter es un marco innovador que optimiza la recuperación de memoria en modelos de lenguaje grandes (LLM) mediante el uso de un modelo proxy pequeño entrenado con aprendizaje por refuerzo para razonar sobre la tarea y seleccionar información relevante, logrando así un equilibrio eficiente entre precisión, coste computacional y rendimiento en tareas de larga duración.

Jiejun Tan, Zhicheng Dou, Liancheng Zhang + 3 more2026-03-05🤖 cs.AI