AltNet: Addressing the Plasticity-Stability Dilemma in Reinforcement Learning

El artículo presenta AltNet, un enfoque basado en redes gemelas que resuelve el dilema de plasticidad-estabilidad en el aprendizaje por refuerzo al permitir la restauración periódica de la plasticidad mediante el intercambio de roles entre dos redes, logrando así una mayor eficiencia y rendimiento sin sufrir caídas temporales en el desempeño.

Mansi Maheshwari, John C. Raisbeck, Bruno Castro da Silva2026-03-10🤖 cs.LG

Process-Centric Analysis of Agentic Software Systems

Este artículo presenta Graphectory, un marco de análisis centrado en procesos que representa las trayectorias de sistemas agénticos como grafos para revelar patrones de razonamiento y estrategias, demostrando que el monitoreo y la intervención en tiempo real basados en este análisis mejoran significativamente las tasas de resolución y reducen la longitud de las trayectorias.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan Jabbarvand2026-03-10💬 cs.CL

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainability

Este artículo presenta la Regresión Isotónica Shapley Escasa (SISR), un marco unificado de explicación no lineal que aprende simultáneamente una transformación monótona para restaurar la aditividad y aplica una restricción de escasez L0 para identificar características relevantes de manera eficiente, superando así las limitaciones de distorsión y costo computacional de los valores Shapley estándar en escenarios de alta dimensionalidad y dependencias complejas.

Jialai She2026-03-10🤖 cs.LG

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

El artículo presenta el Transformer de Decodificador Paralelo (PDT), una arquitectura que integra un mecanismo de coordinación interna mediante un espacio latente sembrado por un planificador y un protocolo de decodificación sincronizada, permitiendo que un modelo de lenguaje congelado resuelva subproblemas en paralelo de manera autónoma sin depender de orquestación externa.

Logan Robbins2026-03-10💬 cs.CL

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Este trabajo aborda los desafíos de la extracción de redes viales en entornos no urbanos mediante el lanzamiento del conjunto de datos global WildRoad y la propuesta de MaGRoad, un marco de razonamiento centrado en el camino que supera las limitaciones de los métodos existentes al lograr un rendimiento superior y una inferencia más rápida.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Esta encuesta propone un marco unificado de cuatro paradigmas para estudiar la adaptación de agentes de IA tras el preentrenamiento, abarcando tanto la mejora del propio agente como la de sus herramientas, memorias y habilidades, con el fin de analizar métodos, comparar compensaciones y resumir prácticas de evaluación en diversos dominios.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

El artículo presenta "Re-Depth Anything", un marco de auto-supervisión en tiempo de prueba que mejora la estimación de profundidad monoculosa al fusionar modelos fundacionales con priores de modelos de difusión 2D a gran escala mediante un refinamiento basado en re-iluminación y muestreo de distorsión de puntuación (SDS), logrando resultados de vanguardia sin necesidad de etiquetas.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Este artículo demuestra que, en entornos de nube como Google BigQuery, la optimización de la velocidad de ejecución no garantiza la eficiencia de costos en sistemas Text-to-SQL, revelando que los modelos de razonamiento reducen significativamente el consumo de datos manteniendo una precisión equivalente, mientras que los modelos no de razonamiento presentan una variabilidad de costos extrema debido a patrones de ineficiencia en las consultas.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Este artículo presenta un marco de evaluación centrado en la seguridad para la predicción de carga de la red eléctrica que, al demostrar que las métricas de precisión estándar son insuficientes para gestionar riesgos asimétricos, identifica la susceptibilidad de los modelos probabilísticos a la "falsa seguridad" por inflación de pronósticos y propone estrategias de integración meteorológica y objetivos restringidos para equilibrar la fiabilidad operativa con la eficiencia energética.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

El artículo presenta DrivingGen, el primer benchmark integral para modelos de mundo generativos en conducción autónoma, que aborda las limitaciones actuales mediante un conjunto de datos diverso y nuevas métricas para evaluar de forma rigurosa la realismo visual, la plausibilidad de las trayectorias, la coherencia temporal y el control en la simulación de escenarios de conducción.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

El artículo presenta "Batch-of-Thought" (BoT), un método sin entrenamiento que mejora el razonamiento de los modelos de lenguaje al procesar consultas relacionadas de forma conjunta para aprovechar patrones compartidos y verificaciones de consistencia, logrando así mayores precisión y eficiencia en comparación con el procesamiento independiente.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

NC-Bench es un nuevo marco de evaluación para modelos de lenguaje grande que, fundamentado en el IBM Natural Conversation Framework, mide la competencia conversacional analizando la estructura y el flujo de la interacción en lugar del contenido, revelando mediante pruebas iniciales que los modelos dominan las respuestas básicas pero tienen dificultades con tareas de reparación y solicitudes complejas.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Este estudio audita y realiza una etnografía del predictor LAION-Aesthetics, revelando que su enfoque algorítmico de la calidad estética refuerza sesgos occidentales, masculinos e imperiales al filtrar desproporcionadamente imágenes que representan a mujeres y personas LGBTQ+, lo que subraya la necesidad de transitar hacia evaluaciones más plurales en lugar de medidas prescriptivas de "estética".

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

El artículo presenta CaMeLs, un marco de seguridad para agentes de uso informático que utiliza planificación de un solo disparo para lograr aislamiento arquitectónico y garantizar la integridad del flujo de control frente a inyecciones de instrucciones y ataques de desviación de ramas, logrando un equilibrio entre seguridad rigurosa y rendimiento funcional.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs