Fairness May Backfire: When Leveling-Down Occurs in Fair Machine Learning

Este artículo establece que, aunque la equidad algorítmica en modelos que utilizan atributos sensibles mejora inevitablemente los resultados del grupo desfavorecido, la imposición de restricciones de equidad en modelos ciegas a estos atributos puede generar efectos adversos o "nivelación hacia abajo" para ambos grupos dependiendo de la distribución de los datos y la presencia de candidatos ocultos.

Yi Yang, Xiangyu Chang, Pei-yu Chen2026-03-10🤖 cs.LG

CN-CBF: Composite Neural Control Barrier Function for Safe Robot Navigation in Dynamic Environments

Este artículo presenta CN-CBF, un método de diseño de funciones de barrera de control neuronales compuestas que combina múltiples CBFs entrenadas mediante el marco de alcanzabilidad de Hamilton-Jacobi y una arquitectura residual para garantizar la seguridad en la navegación de robots en entornos dinámicos, logrando tasas de éxito superiores hasta un 18% frente a métodos existentes sin aumentar la conservaduría del movimiento.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

El artículo presenta NerVE, un marco unificado basado en la dinámica espectral no lineal que analiza cómo las redes de alimentación hacia adelante en los modelos de lenguaje grandes organizan y regulan el flujo de información, ofreciendo métricas eficientes que correlacionan las firmas espectrales estables con la capacidad de generalización y proporcionando orientaciones prácticas para el diseño arquitectónico y la selección de optimizadores.

Nandan Kumar Jha, Brandon Reagen2026-03-10🤖 cs.LG

Physics-Consistent Neural Networks for Learning Deformation and Director Fields in Microstructured Media with Loss-Based Validation Criteria

Este trabajo presenta un enfoque computacional que combina elementos finitos y redes neuronales para resolver problemas de elasticidad de Cosserat en medios microestructurados, integrando restricciones físicas en la arquitectura de la red y validando la estabilidad de las soluciones mediante criterios de convexidad y desigualdades de Legendre-Hadamard.

Milad Shirani, Pete H. Gueldner, Murat Khidoyatov, Jeremy L. Warren, Federica Ninno2026-03-10🤖 cs.LG

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

El artículo demuestra que, aunque el ajuste fino con gradientes de política y recompensas de resultado puede optimizar modelos autoregresivos lineales dentro del soporte del modelo base, superar esta barrera requiere un número exponencial de consultas a menos que se utilicen recompensas de proceso que dependan de un cuantil de verosimilitud a nivel de token para evitar la maldición de la dimensionalidad.

Alireza Mousavi-Hosseini, Murat A. Erdogdu2026-03-10🤖 cs.LG

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

El artículo presenta Chart-RL, un método de aprendizaje por refuerzo que utiliza recompensas matemáticamente verificables para superar a la fine-tuning supervisado en la comprensión de gráficos, demostrando que la complejidad de las tareas de razonamiento es más determinante que la cantidad de datos para lograr una generalización robusta y transferible.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

Este artículo presenta un método de aprendizaje por imitación que, fundamentado en el análisis de los ciclos límite y los mapas de retorno de Poincaré, permite entrenar políticas de locomoción para cuadrúpedos desde cero con solo unos segundos de demostración y sin datos adicionales, logrando una robustez razonable mediante el alineamiento de variaciones en un espacio latente con las acciones de salida.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Este artículo propone un marco de desaprendizaje basado en SISA para la localización de fallas de cortocircuito entre espiras en transformadores de potencia, que permite eliminar la influencia de datos envenenados mediante el reentrenamiento selectivo de fragmentos de datos, logrando una precisión diagnóstica comparable al reentrenamiento completo pero con un tiempo significativamente reducido.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

Este estudio presenta un marco de aprendizaje por refuerzo basado en grafos que integra características topológicas de orden superior mediante homología de persistencia para optimizar la gestión de apagones en redes de distribución eléctrica, logrando una mayor resiliencia, entrega de energía y estabilidad de voltaje en comparación con modelos baselines.

Roshni Anna Jacob, Prithvi Poddar, Jaidev Goel, Souma Chowdhury, Yulia R. Gel, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Este trabajo presenta un marco de transporte óptimo condicional no balanceado (CUOT) y un modelo generativo (CUOTM) que mitigan la sensibilidad a los valores atípicos inherente a los métodos tradicionales mediante la relajación de las restricciones de coincidencia de distribuciones, logrando así una mayor robustez y eficiencia en tareas de modelado generativo condicional.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Este artículo presenta NePPO, un nuevo pipeline de optimización de políticas para juegos de suma general que aprende una función de potencial independiente del jugador para aproximar equilibrios de Nash en entornos mixtos cooperativos-competitivos, demostrando un rendimiento superior frente a métodos baselines populares.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

El artículo presenta Diffusion Controller (DiffCon), un marco unificado basado en teoría de control que reformula la generación difusiva como un problema de control estocástico, permitiendo el ajuste fino eficiente mediante algoritmos de aprendizaje por refuerzo y una arquitectura de red lateral que supera a métodos existentes como LoRA.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG