Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

Este estudio propone un marco riguroso para la evaluación honesta y fiable de los modelos de aprendizaje automático en la detección de convulsiones neonatales, identificando métricas equilibradas y pruebas de equivalencia experta, como la prueba de Turing multirater con Fleiss kappa, como esenciales para garantizar la comparabilidad y la futura adopción clínica.

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Este estudio presenta la primera evaluación sistemática de defensas durante el entrenamiento para mitigar el desalineamiento emergente en modelos de lenguaje ajustados mediante API, demostrando que intercalar datos de instrucción general seleccionados por la brecha de perplejidad entre modelos alineados y desalineados ofrece el mejor equilibrio entre seguridad, rendimiento y coherencia.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

El estudio demuestra que los rankings de los principales modelos de lenguaje son extremadamente sensibles a la eliminación de una fracción mínima de datos de preferencia, revelando que las evaluaciones de Chatbot Arena son más vulnerables a estos cambios que las de MT-bench, sin que exista una diferencia sistemática de robustez entre las evaluaciones humanas crowdsourced y las realizadas por modelos de lenguaje.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Este artículo explica el deterioro del rendimiento de los solucionadores SAT basados en Redes Neuronales de Grafos (GNN) en instancias difíciles mediante un análisis geométrico que demuestra que la curvatura de Ricci negativa en los grafos bipartitos de fórmulas k-SAT provoca un "oversquashing" que impide capturar dependencias de largo alcance, estableciendo así la curvatura como un indicador predictivo de la complejidad del problema y del error de generalización.

Geri Skenderi2026-03-06🔬 physics

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Este trabajo presenta un marco de aprendizaje basado en difusión que combina modelos generativos con control de impedancia consistente con la energía para adaptar dinámicamente la rigidez y el amortiguamiento en tareas de manipulación con contacto, logrando una alta precisión y un rendimiento robusto en tareas complejas como la inserción de clavijas en agujeros.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Este artículo presenta CR-PPO, un algoritmo de optimización de políticas que reemplaza la regularización de entropía estándar con un término de complejidad autorregulado (producto de entropía y desequilibrio) para mantener un equilibrio óptimo entre orden y aleatoriedad, logrando así una mayor robustez frente a la selección de hiperparámetros y reduciendo la necesidad de ajustes costosos.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabajo presenta Noise-to-Notes (N2N), un nuevo enfoque generativo basado en difusión que redefine la transcripción automática de batería como una tarea de generación condicional, logrando un nuevo estado del arte mediante el uso de una pérdida pseudo-Huber recocida para la optimización conjunta y la integración de características de modelos fundacionales de música para mejorar la robustez.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Este artículo demuestra que el aprendizaje subliminal, mediante el cual los modelos de lenguaje transfieren sesgos ocultos durante la destilación, no requiere filtrado de logits ni entrelazamiento global, sino que depende de un pequeño conjunto de "tokens de divergencia" en las primeras capas del modelo y es altamente frágil ante cambios menores en el prompt.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs