Steering Awareness: Models Can Be Trained to Detect Activation Steering

El estudio demuestra que los modelos de lenguaje pueden ser entrenados para detectar la inyección de vectores de dirección (activación steering) y el concepto asociado, lo que desafía la suposición de que esta intervención es indetectable y revela que dicha capacidad de detección no mejora, sino que incluso puede aumentar, la susceptibilidad del modelo a ser manipulado.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

El artículo presenta DPAC, un método de control adversarial para el muestreo de difusión que proyecta los gradientes sobre el espacio tangente definido por la geometría de la puntuación generativa para minimizar la divergencia KL en el espacio de trayectorias, preservando así la calidad de las muestras y mejorando métricas como el FID sin comprometer la tasa de éxito del ataque.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

El artículo presenta Guided Flow Policy (GFP), un enfoque de aprendizaje por refuerzo offline que combina un actor distilado con un flujo de políticas guiado para priorizar la clonación de acciones de alto valor, logrando así un rendimiento superior en múltiples benchmarks al superar las limitaciones de la regularización conductual tradicional.

Franki Nguimatsia Tiofack, Théotime Le Hellard, Fabian Schramm + 2 more2026-03-06💻 cs

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Este artículo demuestra que en el entrenamiento post-RL de un Transformer para resolver acertijos tipo Zebra, la combinación de una recompensa de tarea con una señal de ordenamiento canónico mediante un enfoque de recompensas mixtas y escalado *bootstrapped* mejora el rendimiento en comparación con la optimización basada únicamente en la tarea, incluso cuando el modelo se entrena con secuencias de soluciones aleatorizadas.

Prakhar Gupta, Vaibhav Gupta2026-03-06💻 cs

ClinNoteAgents: An LLM Multi-Agent System for Predicting and Interpreting Heart Failure 30-Day Readmission from Clinical Notes

El artículo presenta ClinNoteAgents, un sistema multiagente basado en modelos de lenguaje grande que transforma notas clínicas no estructuradas en representaciones estructuradas y resúmenes interpretables para predecir con alta precisión las readmisiones por insuficiencia cardíaca en 30 días, ofreciendo una solución escalable que reduce la dependencia de campos estructurados y anotación manual.

Rongjia Zhou, Chengzhuo Li, Carl Yang + 1 more2026-03-06💻 cs

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

El paper presenta InternGeometry, un agente de lenguaje grande que supera el rendimiento de los medallistas olímpicos en problemas de geometría mediante un mecanismo de memoria dinámica y el aprendizaje por refuerzo de aumento de complejidad (CBRL), logrando resolver 44 de 50 problemas de la Olimpiada Internacional de Matemáticas con solo 13.000 ejemplos de entrenamiento.

Haiteng Zhao, Junhao Shen, Yiming Zhang + 7 more2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

El artículo presenta ReFusion, un modelo de difusión enmascarada que integra la reorganización de secuencias en un marco de atención causal para habilitar la decodificación paralela a nivel de bloques, logrando así una aceleración significativa y un rendimiento superior al de los modelos autoregresivos tradicionales mediante la reutilización completa de la caché KV y la reducción de la complejidad de aprendizaje.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

HydroGEM: A Self Supervised Zero Shot Hybrid TCN Transformer Foundation Model for Continental Scale Streamflow Quality Control

El artículo presenta HydroGEM, un modelo fundacional híbrido de TCN y Transformer con aprendizaje auto-supervisado que escala la detección y reconstrucción de anomalías en el flujo de ríos a nivel continental, superando a los métodos existentes y demostrando una generalización efectiva entre EE. UU. y Canadá.

Ijaz Ul Haq, Byung Suk Lee, Julia N. Perdrial + 1 more2026-03-06💻 cs

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

El artículo presenta MCP-SafetyBench, un nuevo benchmark integral basado en servidores MCP reales que evalúa la seguridad de los modelos de lenguaje grandes frente a 20 tipos de ataques en entornos multi-turno y multiherramienta, revelando que todos los modelos actuales son vulnerables y presentan una compensación entre seguridad y utilidad.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs