MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

MedPruner es un marco de poda de tokens jerárquico y sin entrenamiento diseñado para mejorar la eficiencia computacional de los modelos de visión y lenguaje en imágenes médicas 3D, eliminando redundancias mediante un filtrado inter-rodajas y una selección dinámica de tokens que permite reducir drásticamente el número de tokens visuales sin comprometer el rendimiento.

Shengyuan Liu, Zanting Ye, Yunrui Lin, Chen Hu, Wanting Geng, Xu Han, Bulat Ibragimov, Yefeng Zheng, Yixuan Yuan2026-03-13🤖 cs.AI

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

Este artículo presenta "Stable Spike", un método que optimiza la consistencia dual en redes neuronales de espigas mediante operaciones lógicas AND para desacoplar el esqueleto de espigas estables del ruido temporal, mejorando significativamente la precisión y la generalización en tareas de reconocimiento neuromórfico de ultra-baja latencia.

Yongqi Ding, Kunshan Yang, Linze Li, Yiyang Zhang, Mengmeng Jing, Lin Zuo2026-03-13🤖 cs.AI

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Este artículo propone un marco novedoso de mediación causal de prosodia para la síntesis de voz (TTS) que, al integrar un modelo causal estructural y objetivos de entrenamiento contrafactual en la arquitectura FastSpeech2, logra disociar la emoción del contenido lingüístico para mejorar la expresividad, la manipulación controlada de la prosodia y la consistencia del hablante sin comprometer la inteligibilidad.

Suvendu Sekhar Mohanty2026-03-13🤖 cs.AI

Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks

Este artículo propone un Canal de Lógica Explícito que, en paralelo a los modelos de lenguaje multimodal (MLLM) existentes, utiliza razonamiento lógico y evidencia visual para validar, seleccionar y mejorar el rendimiento de estos modelos en tareas de cero disparos sin necesidad de anotaciones de ground-truth, aumentando así su explicabilidad y confiabilidad.

Mei Chee Leong, Ying Gu, Hui Li Tan, Liyuan Li, Nancy Chen2026-03-13🤖 cs.AI

STAIRS-Former: Spatio-Temporal Attention with Interleaved Recursive Structure Transformer for Offline Multi-task Multi-agent Reinforcement Learning

El artículo presenta STAIRS-Former, una arquitectura Transformer con atención espaciotemporal y estructura recursiva intercalada que supera a los métodos anteriores en el aprendizaje por refuerzo multiagente multi-tarea offline al capturar dependencias temporales de largo alcance y generalizar eficazmente a poblaciones de agentes variables.

Jiwon Jeon, Myungsik Cho, Youngchul Sung2026-03-13🤖 cs.AI

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

Este artículo presenta OSCBench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de generación de video a partir de texto para realizar cambios de estado en objetos, revelando que, a pesar de sus avances, los modelos actuales aún luchan con la consistencia temporal y la precisión en estas transformaciones, especialmente en escenarios novedosos y composicionales.

Xianjing Han, Bin Zhu, Shiqi Hu, Franklin Mingzhe Li, Patrick Carrington, Roger Zimmermann, Jingjing Chen2026-03-13💬 cs.CL

Scaling Laws for Educational AI Agents

Este artículo propone la "Ley de Escalamiento de Agentes", un marco que define el crecimiento de la capacidad de los agentes educativos mediante dimensiones estructuradas como la claridad de roles y la profundidad de habilidades, validado empíricamente por la plataforma EduClaw, la cual demuestra que el rendimiento escala predeciblemente con la riqueza de perfiles estructurados en lugar de depender únicamente del tamaño del modelo.

Mengsong Wu, Hao Hao, Shuzhen Bi, Keqian Li, Wentao Liu, Siyu Song, Hongbo Zhao, Aimin Zhou2026-03-13🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este estudio presenta un nuevo conjunto de datos y demuestra que la electromiografía de superficie (sEMG) puede decodificar con fiabilidad la frustración tanto en el habla fonada como en la silenciosa, revelando que las señales afectivas persisten en la actividad motora facial incluso sin vocalización.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. Schuller2026-03-13⚡ eess

When OpenClaw Meets Hospital: Toward an Agentic Operating System for Dynamic Clinical Workflows

Este trabajo propone una arquitectura basada en OpenClaw para un Sistema Operativo Agente en hospitales que, mediante un entorno de ejecución restringido, una memoria indexada por páginas y una biblioteca de habilidades médicas curadas, habilita la coordinación segura y auditada de flujos de trabajo clínicos dinámicos.

Wenxian Yang, Hanzheng Qiu, Bangqun Zhang, Chengquan Li, Zhiyong Huang, Xiaobin Feng, Rongshan Yu, Jiahong Dong2026-03-13🤖 cs.AI

CINDI: Conditional Imputation and Noisy Data Integrity with Flows in Power Grid Data

El artículo presenta CINDI, un marco probabilístico no supervisado basado en flujos normalizadores condicionales que unifica la detección de anomalías y la imputación de datos en series temporales multivariantes de redes eléctricas, logrando restaurar la integridad de los datos ruidosos preservando sus propiedades físicas y estadísticas.

David Baumgartner, Helge Langseth, Heri Ramampiaro2026-03-13🤖 cs.AI