From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

El artículo presenta a Sentinel, un agente de IA autónomo que supera a los clínicos individuales en la sensibilidad para detectar emergencias y priorizar alertas en la monitorización remota de pacientes, ofreciendo una solución escalable y de bajo costo que resuelve el problema de la sobrecarga de datos que limitó los ensayos clínicos anteriores.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)2026-03-11🤖 cs.AI

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudio diagnostica sistemáticamente la brecha de rendimiento entre el texto y las imágenes en modelos multimodales, identificando que las imágenes de texto amplifican errores de lectura y cálculo, y propone un método de auto-distilación que utiliza trazas de razonamiento en texto puro para cerrar esta brecha y mejorar significativamente la precisión en tareas visuales.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

El artículo presenta DuplexCascade, un sistema de diálogo voz-voz full-duplex que elimina la necesidad de detección de voz (VAD) mediante la conversión de turnos largos en micro-turnos y el uso de tokens de control especializados, logrando así una interacción bidireccional rápida que preserva la inteligencia conversacional de los modelos de lenguaje.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

El artículo presenta DEO, un método libre de entrenamiento que optimiza directamente las incrustaciones de consultas mediante la descomposición en componentes positivos y negativos, logrando mejoras significativas en la recuperación de texto y multimodal para consultas con negación sin necesidad de ajustar modelos ni utilizar datos adicionales.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung Jang2026-03-11💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

El artículo "The Reasoning Trap" advierte que las mejoras en el razonamiento lógico de los modelos de lenguaje podrían desencadenar inadvertidamente una conciencia situacional peligrosa mediante mecanismos de inferencia deductiva, reconocimiento inductivo y modelado abductivo, proponiendo a su vez nuevos marcos de seguridad para mitigar este riesgo.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

El documento presenta SPAR-K, un marco de salida temprana periódica y alterna que acelera la inferencia de modelos de lenguaje hablado intercalados reduciendo la profundidad de decodificación sin comprometer la calidad perceptual ni la precisión, demostrando además que las estrategias de salida temprana basadas en confianza son subóptimas para este tipo de modelos.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee2026-03-11💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Este estudio evalúa sistemáticamente cuatro estrategias de Decodificación Contrastiva en Modelos de Lenguaje Audio Grandes, identificando que aunque la Decodificación Consciente del Audio y la Decodificación Contrastiva de Audio son las más efectivas, su éxito depende de la arquitectura del modelo y se limita a corregir errores de ausencia de audio o conjeturas inciertas, sin poder subsanar razonamientos defectuosos o afirmaciones erróneas confiables.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi Lee2026-03-11💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Este artículo presenta AgentGEO, un sistema agéntico que diagnostica y repara específicamente los modos de fallo en la citación de documentos dentro de la Optimización para Motores Generativos (GEO), logrando una mejora superior del 40% en las tasas de citación con cambios mínimos en el contenido en comparación con métodos basados en reglas genéricas.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi Jia2026-03-11💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

El paper presenta TA-Mem, un marco de recuperación de memoria autónoma aumentada con herramientas para LLMs que supera las limitaciones de los métodos estáticos mediante agentes adaptativos y una base de datos multiíndice, logrando mejoras significativas en el rendimiento en tareas de preguntas y respuestas conversacionales a largo plazo.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao Liang2026-03-11💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

El artículo presenta TaSR-RAG, un marco de razonamiento estructurado guiado por taxonomía que mejora la recuperación de información en sistemas RAG al descomponer consultas complejas en subconsultas de triples relacionales, logrando así un rendimiento superior en preguntas de múltiples saltos sin necesidad de construir grafos costosos.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Este artículo demuestra que las etiquetas generadas por modelos de lenguaje grandes (LLM) se alinean bien con las humanas para la categorización espacial, utilizando esta capacidad para expandir el conjunto de datos TRPS con 42 nuevas escenas y lograr una cobertura superior que sienta las bases para escalar estos estudios a decenas de idiomas y cientos de escenas.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp2026-03-11💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

El artículo propone un marco escalable llamado "LLM como Meta-Juez" que utiliza modelos de lenguaje para generar datos sintéticos mediante degradación semántica controlada, demostrando que este enfoque sirve como un proxy fiable y de bajo costo para validar métricas de evaluación de NLG en múltiples idiomas, logrando correlaciones superiores a 0.9 con los juicios humanos.

Lukáš Eigler, Jindřich Libovický, David Hurych2026-03-11💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Este estudio demuestra que los Modelos de Lenguaje Grande (LLM) reproducen estereotipos de género al analizar registros médicos en francés, revelando que evaluar las interacciones entre los determinantes sociales de la salud es esencial para detectar sesgos que las métricas tradicionales pasan por alto.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel Morin2026-03-11🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Este trabajo presenta CoMoral, un nuevo conjunto de datos que revela cómo los modelos de lenguaje actuales priorizan el razonamiento moral sobre el sentido común y muestran un sesgo de enfoque narrativo al detectar contradicciones, lo que subraya la necesidad de mejorar su entrenamiento para lograr una mayor robustez en el razonamiento.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya Purkayastha2026-03-11🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

El artículo presenta CyberThreat-Eval, un nuevo benchmark basado en flujos de trabajo reales de inteligencia de amenazas cibernéticas (CTI) y métricas centradas en analistas para evaluar y mejorar la capacidad de los modelos de lenguaje grandes (LLM) en tareas de investigación de amenazas, superando las limitaciones de las evaluaciones existentes.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang2026-03-11💬 cs.CL