Speak or Stay Silent: Context-Aware Turn-Taking in Multi-Party Dialogue

Este trabajo presenta un método de toma de turnos consciente del contexto para asistentes de voz en diálogos multipartita, que mediante un nuevo benchmark de más de 120.000 conversaciones y un enfoque de ajuste fino con trazas de razonamiento, demuestra que la capacidad de decidir cuándo hablar o permanecer en silencio no es emergente en los modelos de lenguaje actuales, sino que debe ser entrenada explícitamente para evitar interrupciones disruptivas.

Kratika Bhagtani, Mrinal Anand, Yu Chen Xu, Amit Kumar Singh Yadav2026-03-13🤖 cs.AI

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

El estudio demuestra que el alto índice de fallos en la triaje de IA de salud reportado anteriormente se debe principalmente al formato de evaluación restrictivo (tipo examen) y no a una falta de capacidad de los modelos, ya que la precisión mejora significativamente bajo condiciones de interacción naturalista que reflejan el uso real por parte de los consumidores.

David Fraile Navarro, Farah Magrabi, Enrico Coiera2026-03-13🤖 cs.AI

A Stable Neural Statistical Dependence Estimator for Autoencoder Feature Analysis

Este artículo presenta un estimador de dependencia estadística neuronal estable basado en una descomposición orthonormal de la relación de densidades, que supera las limitaciones de métodos como MINE al evitar la concatenación de entradas y permitir un análisis cuantitativo robusto de las características en autoencoders mediante la formulación de una dependencia medible bajo ruido gaussiano.

Bo Hu, Jose C Principe2026-03-13🤖 cs.LG

GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics

El artículo presenta GPT4o-Receipt, un conjunto de datos y estudio que revela la paradoja de que, aunque los humanos perciben mejor los artefactos visuales en recibos generados por IA, los modelos de lenguaje multimodal superan a los humanos en la detección de errores aritméticos, lo que demuestra que la verificación lógica es más efectiva que la inspección visual para la forense de documentos.

Yan Zhang, Simiao Ren, Ankit Raj, En Wei, Dennis Ng, Alex Shen, Jiayue Xu, Yuxin Zhang, Evelyn Marotta2026-03-13🤖 cs.AI

Verified Multi-Agent Orchestration: A Plan-Execute-Verify-Replan Framework for Complex Query Resolution

Este artículo presenta VMAO, un marco de orquestación multiagente que mejora la resolución de consultas complejas mediante la descomposición en un grafo acíclico dirigido, la ejecución paralela de agentes especializados y un bucle iterativo de verificación y replanificación que optimiza la completitud y la calidad de las fuentes.

Xing Zhang, Yanwei Cui, Guanghui Wang, Qucy Wei Qiu, Ziyuan Li, Fangwei Han, Yajing Huang, Hengzhi Qiu, Bin Zhu, Peiyang He2026-03-13🤖 cs.AI

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

Este trabajo presenta un marco neuro-simbólico basado en un Árbol de Lógica de Eventos (ELT) que permite a agentes de Modelos de Lenguaje Visuales (VLM) detectar eventos en series temporales multivariadas a partir de descripciones en lenguaje natural, logrando una mayor precisión y explicabilidad que los enfoques existentes al mitigar las alucinaciones mediante la estructuración de la lógica temporal.

Sky Chenwei Wan, Tianjun Hou, Yifei Wang, Xiqing Chang, Aymeric Jan2026-03-13🤖 cs.LG

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

El artículo presenta INFACT, un nuevo benchmark diagnóstico que evalúa la fiabilidad y los alucinaciones de los modelos de lenguaje grandes para video (Video-LLMs) mediante 9.800 preguntas sobre videos reales y sintéticos, revelando que una alta precisión en condiciones ideales no garantiza la estabilidad ante degradaciones visuales, corrupción de evidencia o intervenciones temporales.

Junqi Yang, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen2026-03-13🤖 cs.AI

SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation

El artículo presenta SPEGC, un método de adaptación continua en tiempo de prueba para la segmentación de imágenes médicas que supera la degradación del rendimiento mediante un mecanismo de mejora de características con prompts semánticos y un solucionador de agrupamiento gráfico diferenciable para refinar las representaciones estructurales y guiar la adaptación del modelo.

Xiaogang Du, Jiawei Zhang, Tongfei Liu, Tao Lei, Yingbo Wang2026-03-13🤖 cs.AI

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

El artículo presenta KEPo, un nuevo método de ataque de envenenamiento diseñado específicamente para sistemas de generación aumentada por recuperación basados en grafos (GraphRAG), el cual manipula la evolución del conocimiento dentro del grafo para engañar a los modelos de lenguaje y generar respuestas maliciosas, superando significativamente a las técnicas de ataque anteriores.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang2026-03-13🤖 cs.LG

Gen-Fab: A Variation-Aware Generative Model for Predicting Fabrication Variations in Nanophotonic Devices

Este artículo presenta Gen-Fab, un modelo generativo basado en cGAN que predice con alta precisión y modela la incertidumbre de las variaciones de fabricación en dispositivos nanofotónicos, superando a métodos deterministas y de ensamble en la generación de imágenes de resultados de fabricación a escala nanométrica.

Rambod Azimi, Yuri Grinberg, Dan-Xia Xu, Odile Liboiron-Ladouceur2026-03-13🤖 cs.AI

Multi-Agent Collaboration for Automated Design Exploration on High Performance Computing Systems

El artículo presenta MADA, un marco de trabajo multiagente potenciado por modelos de lenguaje grande que automatiza la exploración de diseños en sistemas de computación de alto rendimiento para optimizar la supresión de la inestabilidad de Richtmyer-Meshkov en la fusión por confinamiento inercial, reduciendo la intervención manual y acelerando el descubrimiento científico.

Harshitha Menon, Charles F. Jekel, Kevin Korner, Brian Gunnarson, Nathan K. Brown, Michael Stees, M. Giselle Fernandez-Godino, Walter Nissen, Meir H. Shachar, Dane M. Sterbentz, William J. Schill, Yue Hao, Robert Rieben, William Quadros, Steve Owen, Scott Mitchell, Ismael D. Boureima, Jonathan L. Belof2026-03-13🤖 cs.AI

FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval

Este artículo presenta FBCIR, un método de interpretación que identifica los desequilibrios de atención entre modalidades en la recuperación de imágenes compuestas, y propone un flujo de trabajo de aumento de datos con negativos difíciles para corregir estos desequilibrios y mejorar el rendimiento de los modelos en escenarios desafiantes.

Chenchen Zhao, Jianhuan Zhuo, Muxi Chen, Zhaohua Zhang, Wenyu Jiang, Tianwen Jiang, Qiuyong Xiao, Jihong Zhang, Qiang Xu2026-03-13🤖 cs.AI

EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection

El artículo presenta EReCu, un marco unificado para la detección de objetos camuflados no supervisada que mejora la fiabilidad de las etiquetas pseudo y la fidelidad de las características mediante módulos de percepción multi-pista, fusión evolutiva de etiquetas pseudo y refinamiento local, logrando un rendimiento superior en la alineación de bordes y la percepción de detalles.

Shuo Jiang, Gaojia Zhang, Min Tan, Yufei Yin, Gang Pan2026-03-13🤖 cs.AI

Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Este artículo presenta el enrutamiento por umbral de expertos (ET), un mecanismo causal que asigna dinámicamente tokens a expertos basándose en umbrales individuales sin necesidad de pérdidas auxiliares, logrando un mejor rendimiento y equilibrio de carga que los métodos tradicionales de mezcla de expertos en modelos de lenguaje autoregresivos.

Hanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun2026-03-13🤖 cs.AI

ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation

El artículo presenta ReHARK, un marco de adaptación libre de entrenamiento que resuelve el dilema estabilidad-plasticidad en la adaptación de modelos visión-idioma con un solo ejemplo mediante la regularización global en un espacio de Hilbert de núcleo reproductivo y un pipeline de refinamiento multietapa, logrando un nuevo estado del arte con un 65,83% de precisión promedio en 11 benchmarks.

Md Jahidul Islam2026-03-13🤖 cs.AI