CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

El artículo presenta CRIMSON, un marco de evaluación basado en modelos de lenguaje grande y fundamentado clínicamente para informes de radiología de tórax que incorpora el contexto completo del paciente y una taxonomía de errores ponderada por gravedad, demostrando una fuerte alineación con el juicio de radiólogos expertos en múltiples benchmarks.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

El artículo presenta MAPO, un algoritmo de optimización de políticas sin crítico que utiliza retroalimentación densa de un modelo juez y un estimador de ventaja mixto para mejorar la estabilidad y el rendimiento en diálogos multi-turno subjetivos de largo alcance, superando a los métodos basados únicamente en recompensas finales en diversas pruebas de inteligencia emocional.

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

El artículo presenta FlashPrefill, un marco que logra un prellenado ultrarrápido para modelos de lenguaje de gran contexto mediante la identificación instantánea de patrones de atención dispersa y un umbral dinámico, logrando una aceleración de hasta 27,78 veces en secuencias de 256K sin degradar el rendimiento en contextos más cortos.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

Conversational Demand Response: Bidirectional Aggregator-Prosumer Coordination through Agentic AI

Este artículo presenta la Respuesta a la Demanda Conversacional (CDR), un mecanismo de coordinación bidireccional basado en IA agente que permite a agregadores y prosumidores interactuar mediante lenguaje natural para optimizar la gestión energética residencial manteniendo la transparencia y la agencia del usuario.

Reda El Makroum, Sebastian Zwickl-Bernhard, Lukas Kranzl, Hans Auer2026-03-09🤖 cs.AI

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

El artículo presenta TaPD, un marco unificado y adaptable que utiliza destilación progresiva de conocimiento y un módulo de relleno temporal para mejorar significativamente la predicción de trayectorias en vehículos autónomos, especialmente cuando la información histórica de observación es variable o extremadamente corta.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

Este artículo presenta DeCoST, un enfoque de aprendizaje basado en dos etapas que desacopla las variables discretas y continuas del problema de orientación con ventanas de tiempo y beneficios variables, logrando una calidad de solución superior y una aceleración de inferencia de hasta 6,6 veces en comparación con los métodos existentes.

Songqun Gao, Zanxi Ruan, Patrick Floor, Marco Roveri, Luigi Palopoli, Daniele Fontanelli2026-03-09🤖 cs.AI

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

El artículo presenta HiPP-Prune, un marco de poda estructurada jerárquica para modelos de visión y lenguaje que optimiza la asignación de recursos mediante un vector de preferencias del usuario y una señal de sensibilidad visual para lograr un equilibrio controlable entre la utilidad de la tarea, la robustez ante alucinaciones y la eficiencia de compresión.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

El estudio demuestra que los pipelines de razonamiento con recuperación aumentada por agentes mejoran la robustez y el consenso entre diversos modelos de lenguaje en preguntas de radiología, aunque advierte que la precisión y el acuerdo por sí solos no son suficientes para evaluar la fiabilidad clínica de estos sistemas.

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI

Artificial Intelligence for Climate Adaptation: Reinforcement Learning for Climate Change-Resilient Transport

Este artículo propone un marco de toma de decisiones basado en aprendizaje por refuerzo que supera a los enfoques tradicionales al optimizar estrategias de adaptación a largo plazo para sistemas de transporte urbanos frente a inundaciones pluviales, demostrando su eficacia mediante un estudio de caso en el centro de Copenhague bajo escenarios climáticos inciertos.

Miguel Costa, Arthur Vandervoort, Carolin Schmidt, João Miranda, Morten W. Petersen, Martin Drews, Karyn Morrisey, Francisco C. Pereira2026-03-09🤖 cs.AI

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

El artículo presenta EpisTwin, una arquitectura neuro-simbólica que supera las limitaciones de la fragmentación de datos en la IA personal al fundamentar el razonamiento generativo en un Grafo de Conocimiento Personal verificado, utilizando modelos de lenguaje multimodal para estructurar la información y un coordinador agente para realizar inferencias complejas y refinar visualmente los contextos.

Giovanni Servedio, Potito Aghilar, Alessio Mattiace, Gianni Carmosino, Francesco Musicco, Gabriele Conte, Vito Walter Anelli, Tommaso Di Noia, Francesco Maria Donini2026-03-09🤖 cs.AI

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

DEX-AR es un nuevo método de explicabilidad dinámica diseñado para modelos de visión-lingüística autoregresivos que genera mapas de calor 2D a nivel de token y secuencia mediante el filtrado dinámico de cabezas de atención y la agregación de explicaciones, logrando mejoras significativas en métricas de perturbación y segmentación.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

El artículo propone un pipeline de tres etapas que entrena modelos de lenguaje para generar estimaciones de incertidumbre calibradas e interpretables de manera eficiente mediante el cálculo de entropía, la calibración con escalado de Platt y el ajuste fino con aprendizaje por refuerzo, superando así las limitaciones computacionales y de precisión de los métodos posteriores al entrenamiento.

Azza Jenane, Nassim Walha, Lukas Kuhn, Florian Buettner2026-03-09🤖 cs.AI

Structured Exploration vs. Generative Flexibility: A Field Study Comparing Bandit and LLM Architectures for Personalised Health Behaviour Interventions

Un estudio de campo comparó enfoques de aprendizaje por refuerzo y modelos de lenguaje grande para intervenciones de salud, revelando que aunque la generación flexible de LLMs se percibió como más útil que las plantillas, la optimización estadística de los banditos no añadió valor percibido y los LLMs sin restricciones tendieron a centrarse en una sola técnica, lo que sugiere la necesidad de equilibrar la exploración estructurada con la autonomía generativa en sistemas de IA reflexivos.

Dominik P. Hofer, Haochen Song, Rania Islambouli, Laura Hawkins, Ananya Bhattacharjee, Meredith Franklin, Joseph Jay Williams, Jan D. Smeddinck2026-03-09🤖 cs.AI