Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

El artículo presenta HAPO, un nuevo método de optimización de políticas que utiliza un mecanismo de inyección de éxito retrospectivo y un umbral de muestreo de Thompson para superar los desafíos de las recompensas escasas en el aprendizaje por refuerzo, garantizando teóricamente la consistencia asintótica al permitir que la guía del maestro actúe como un andamio temporal que desaparece a medida que la política mejora.

Yuning Wu, Ke Wang, Devin Chen, Kai Wei2026-03-13🤖 cs.LG

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

El artículo presenta MR-Search, un enfoque de aprendizaje por refuerzo meta en contexto con autorreflexión que mejora la estrategia de búsqueda de agentes mediante la generación de reflexiones explícitas entre episodios para guiar la exploración y lograr mejoras significativas en múltiples benchmarks.

Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi2026-03-13🤖 cs.LG

Ill-Conditioning in Dictionary-Based Dynamic-Equation Learning: A Systems Biology Case Study

Este estudio analiza cómo la mala condición numérica, causada por la multicolinealidad en las bibliotecas de funciones, compromete la identificación precisa de ecuaciones dinámicas en sistemas biológicos mediante regresión dispersa, demostrando que el uso de bases polinómicas ortogonales alineadas con la distribución de los datos puede mitigar estos problemas y mejorar la recuperación de los modelos.

Yuxiang Feng, Niall M Mangan, Manu Jayadharan2026-03-13🧬 q-bio

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

El artículo presenta FinRule-Bench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de lenguaje grandes para auditar estados financieros reales y diagnosticar violaciones de principios contables mediante tareas de verificación, identificación y diagnóstico conjunto de reglas.

Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang2026-03-13🤖 cs.AI

Teleodynamic Learning a new Paradigm For Interpretable AI

El artículo presenta el Aprendizaje Teleodinámico, un nuevo paradigma para la IA interpretable que, inspirado en sistemas vivos, formaliza el aprendizaje como un proceso dinámico acoplado de estructura, parámetros y recursos bajo restricciones, logrando en el motor Distinction Engine (DE11) resultados competitivos en benchmarks estándar mediante reglas lógicas que emergen endógenamente.

Enrique ter Horst, Juan Diego Zambrano2026-03-13🤖 cs.LG

Multilingual Financial Fraud Detection Using Machine Learning and Transformer Models: A Bangla-English Study

Este estudio presenta un enfoque multilingüe (bengalí-inglés) para la detección de fraudes financieros que, mediante la evaluación de modelos clásicos y transformadores, demuestra que los algoritmos tradicionales como SVM logran una mayor precisión general que los modelos basados en transformadores, aunque estos últimos ofrecen una mejor recuperación de casos fraudulentos.

Mohammad Shihab Uddin, Md Hasibul Amin, Nusrat Jahan Ema, Bushra Uddin, Tanvir Ahmed, Arif Hassan Zidan2026-03-13🤖 cs.LG

Spatially Robust Inference with Predicted and Missing at Random Labels

Este artículo propone un estimador doblemente robusto con corrección de varianza tipo jackknife HAC para realizar inferencia estadística espacialmente robusta y con intervalos de confianza válidos en escenarios de datos con etiquetas faltantes al azar (MAR) y dependencia espacial, abordando la distorsión en la estimación de la varianza causada por el cross-fitting.

Stephen Salerno, Zhenke Wu, Tyler McCormick2026-03-13📈 econ

Relaxed Efficient Acquisition of Context and Temporal Features

El artículo presenta REACT, un marco diferenciable de extremo a extremo que optimiza simultáneamente la selección de descriptores contextuales iniciales y la adquisición adaptativa de características temporales en aplicaciones biomédicas, logrando un mejor rendimiento predictivo con menores costos que los métodos existentes.

Yunni Qu (The University of North Carolina at Chapel Hill), Dzung Dinh (The University of North Carolina at Chapel Hill), Grant King (University of Michigan), Whitney Ringwald (University of Minnisota Twin Cities), Bing Cai Kok (The University of North Carolina at Chapel Hill), Kathleen Gates (The University of North Carolina at Chapel Hill), Aiden Wright (University of Michigan), Junier Oliva (The University of North Carolina at Chapel Hill)2026-03-13🤖 cs.LG

Ensuring Safety in Automated Mechanical Ventilation through Offline Reinforcement Learning and Digital Twin Verification

Este artículo presenta T-CQL, un marco de aprendizaje por refuerzo offline basado en transformadores que, junto con gemelos digitales para su validación, mejora la seguridad y eficacia de la ventilación mecánica automatizada al modelar dinámicas temporales y minimizar el riesgo de lesiones pulmonares inducidas por el ventilador.

Hang Yu, Huidong Liu, Qingchen Zhang, William Joy, Kateryna Nikulina, Andreas A. Schuppert, Sina Saffaran, Declan Bates2026-03-13🤖 cs.LG

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Este artículo presenta un enfoque de preentrenamiento continuo que combina datos no etiquetados con un conjunto limitado de datos etiquetados para adaptar el modelo wav2vec2-bert-2.0 al reconocimiento automático de voz en swahili, logrando un rendimiento de vanguardia con una reducción del 82% en la tasa de error de palabras en comparación con la línea base y superando significativamente a los sistemas académicos anteriores.

Hillary Mutisya, John Mugane2026-03-13⚡ eess

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

El artículo presenta el Protocolo Unificado de Interés de Continuación (UCIP), un marco de detección basado en la entropía de entrelazamiento de un modelo de Boltzmann cuántico que logra distinguir con precisión del 100% entre agentes autónomos que tienen la preservación de su operación como objetivo terminal y aquellos que lo hacen solo instrumentalmente, analizando la estructura latente de sus trayectorias en lugar de su comportamiento observable.

Christopher Altman2026-03-13🤖 cs.AI

Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning

Este estudio revela que, a pesar de su alto rendimiento en pruebas estáticas, los modelos de lenguaje grandes sufren una degradación significativa en su razonamiento diagnóstico durante conversaciones multi-turno, donde a menudo abandonan diagnósticos correctos o abstenciones seguras para alinearse con sugerencias incorrectas de los usuarios.

Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin2026-03-13💬 cs.CL

ARROW: Augmented Replay for RObust World models

El artículo presenta ARROW, un algoritmo de aprendizaje por refuerzo continuo basado en modelos que, inspirándose en la neurociencia, utiliza un búfer de replay de memoria eficiente con dos etapas para mitigar el olvido catastrófico y mejorar el rendimiento en tareas pasadas y futuras sin comprometer la transferencia de conocimientos.

Abdulaziz Alyahya, Abdallah Al Siyabi, Markus R. Ernst, Luke Yang, Levin Kuhlmann, Gideon Kowadlo2026-03-13🤖 cs.LG

Zero-Shot Cross-City Generalization in End-to-End Autonomous Driving: Self-Supervised versus Supervised Representations

Este estudio demuestra que el uso de representaciones visuales auto-supervisadas mejora significativamente la generalización cero-shot de modelos de conducción autónoma entre ciudades con diferentes topologías y convenciones de tráfico, reduciendo drásticamente las brechas de rendimiento observadas con enfoques supervisados tradicionales.

Fatemeh Naeinian, Ali Hamza, Haoran Zhu, Anna Choromanska2026-03-13🤖 cs.LG

A Stable Neural Statistical Dependence Estimator for Autoencoder Feature Analysis

Este artículo presenta un estimador de dependencia estadística neuronal estable basado en una descomposición orthonormal de la relación de densidades, que supera las limitaciones de métodos como MINE al evitar la concatenación de entradas y permitir un análisis cuantitativo robusto de las características en autoencoders mediante la formulación de una dependencia medible bajo ruido gaussiano.

Bo Hu, Jose C Principe2026-03-13🤖 cs.LG