Steering Awareness: Models Can Be Trained to Detect Activation Steering

El estudio demuestra que los modelos de lenguaje pueden ser entrenados para detectar la inyección de vectores de dirección (activación steering) y el concepto asociado, lo que desafía la suposición de que esta intervención es indetectable y revela que dicha capacidad de detección no mejora, sino que incluso puede aumentar, la susceptibilidad del modelo a ser manipulado.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

El artículo presenta ReFusion, un modelo de difusión enmascarada que integra la reorganización de secuencias en un marco de atención causal para habilitar la decodificación paralela a nivel de bloques, logrando así una aceleración significativa y un rendimiento superior al de los modelos autoregresivos tradicionales mediante la reutilización completa de la caché KV y la reducción de la complejidad de aprendizaje.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

El artículo presenta MCP-SafetyBench, un nuevo benchmark integral basado en servidores MCP reales que evalúa la seguridad de los modelos de lenguaje grandes frente a 20 tipos de ataques en entornos multi-turno y multiherramienta, revelando que todos los modelos actuales son vulnerables y presentan una compensación entre seguridad y utilidad.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Este estudio demuestra que, aunque el uso de herramientas y planificación mejora la precisión en tareas de razonamiento complejo como la respuesta a preguntas sobre eventos, su adopción debe ser específica para cada tarea y consciente de los costos, ya que en escenarios como la generación de respuestas persuasivas a menudo incrementa significativamente la latencia y el gasto sin ofrecer beneficios consistentes.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models

Este trabajo presenta F-Actor, el primer modelo de conversación de voz dúplex completo y abierto que, mediante un entrenamiento eficiente de solo 2.000 horas sin preentrenamiento a gran escala, permite controlar dinámicamente el comportamiento conversacional (como la voz, el tema, las interrupciones y los retroalimentos) siguiendo instrucciones explícitas.

Maike Züfle, Ondrej Klejch, Nicholas Sanders + 3 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabajo evalúa la capacidad de los modelos fundacionales para identificar momentos clave en videos de fútbol, revelando mediante un nuevo dataset que su rendimiento es cercano al azar debido a su dependencia de una sola modalidad y la falta de sinergia entre fuentes de información, lo que subraya la necesidad de arquitecturas modulares y procedimientos de entrenamiento complementarios.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

El artículo presenta OPSD, un marco de auto-distilación en política que permite a un único modelo de lenguaje actuar simultáneamente como profesor y alumno al condicionar en información privilegiada y no privilegiada respectivamente, logrando así una mayor eficiencia en tokens y rendimiento en tareas de razonamiento matemático en comparación con métodos de aprendizaje por refuerzo y distilación fuera de política.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

El artículo presenta VIP, una estrategia de asignación de trayectorias basada en la varianza que utiliza modelos de procesos gaussianos para optimizar dinámicamente la distribución del presupuesto computacional en el aprendizaje por refuerzo en línea, mejorando así la eficiencia de muestreo y el rendimiento en comparación con métodos de asignación uniforme.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Este artículo establece que los sistemas de diálogo guiados por esquemas (SGD) y el Protocolo de Contexto de Modelo (MCP) convergen en un paradigma unificado para la interacción auditable con agentes de IA, extrayendo cinco principios fundamentales de diseño de esquemas que abordan brechas críticas en la gestión de fallos y las relaciones entre herramientas para escalar la gobernanza de sistemas de IA.

Andreas Schlapbach2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Este estudio presenta un marco de "red teaming" clínico automatizado que, mediante la simulación de sesiones terapéuticas con pacientes virtuales, revela riesgos críticos de seguridad en modelos de lenguaje para la salud mental, como la validación de delirios y la incapacidad de gestionar el riesgo suicida, subrayando la necesidad de estas evaluaciones antes del despliegue.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

El sistema JAILBREAK FOUNDRY (JBF) soluciona la obsolescencia de las evaluaciones de seguridad en modelos de lenguaje mediante un flujo de trabajo multiagente que traduce automáticamente artículos académicos sobre jailbreaks en módulos ejecutables estandarizados, logrando una alta fidelidad en la reproducción de ataques y reduciendo significativamente el código de implementación necesario.

Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu2026-03-06🔒 cs.CR