Confidential, Attestable, and Efficient Inter-CVM Communication with Arm CCA

Este artículo presenta CAEC, un sistema basado en la arquitectura de computación confidencial de Arm (CCA) que habilita el intercambio seguro y eficiente de memoria entre máquinas virtuales confidenciales sin intervención del hipervisor, logrando mejoras de rendimiento significativas y garantizando el aislamiento y la atestación de los datos compartidos.

Sina Abdollahi, Amir Al Sadi, Marios Kogias, David Kotz, Hamed Haddadi2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

El artículo presenta HiconAgent, un agente de interfaz gráfica que utiliza la Optimización de Políticas Consciente del Contexto Histórico (HCPO) para mejorar la eficiencia y precisión en tareas de navegación secuencial mediante el muestreo dinámico de contextos y una compresión de historial guiada por anclajes, logrando un rendimiento superior al de modelos más grandes con una reducción significativa en costos computacionales.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

El paper presenta MAViD, un marco multimodal innovador que utiliza una arquitectura Conductor-Creador con modelos autoregresivos y de difusión para superar las limitaciones de los sistemas existentes y generar diálogos interactivos de larga duración, coherentes y sincronizados en audio y video.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artículo identifica el fenómeno de "horizonte de información" en los Modelos de Lenguaje Grandes Visuales, donde los tokens visuales pierden su relevancia en capas profundas, demostrando que la poda aleatoria en estas etapas es tan efectiva como los métodos existentes y permite lograr un equilibrio óptimo entre eficiencia y rendimiento.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

IPPO Learns the Game, Not the Team: A Study on Generalization in Heterogeneous Agent Teams

Este estudio demuestra que, en entornos de agentes heterogéneos, la estrategia estándar de IPPO logra una generalización ante nuevos compañeros de equipo comparable a la obtenida mediante un entrenamiento con diversidad de políticas, sugiriendo que los agentes aprenden más las dinámicas subyacentes del juego que los comportamientos específicos de sus compañeros.

Ryan LeRoy, Jack Kolb2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Este trabajo aborda los desafíos de la extracción de redes viales en entornos no urbanos mediante el lanzamiento del conjunto de datos global WildRoad y la propuesta de MaGRoad, un marco de razonamiento centrado en el camino que supera las limitaciones de los métodos existentes al lograr un rendimiento superior y una inferencia más rápida.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

El artículo presenta ReMeDI-SAM3, una extensión sin entrenamiento de SAM3 que mejora la segmentación de instrumentos quirúrgicos mediante filtrado de memoria, interpolación y reidentificación para superar los desafíos de oclusión y movimiento, logrando mejoras significativas en métricas de precisión en comparación con enfoques anteriores.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Este estudio demuestra que, aunque la percepción subjetiva de la vegetación urbana no siempre coincide con las mediciones objetivas, las diferencias se explican principalmente por el lugar de residencia de las personas y no por su demografía o personalidad, lo que sugiere que factores culturales y experienciales moldean significativamente cómo se observa el verde en las ciudades.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

El artículo presenta VOIC, un marco innovador que mejora la Completación Semántica de Escenas 3D a partir de una sola imagen mediante una estrategia de extracción de etiquetas de regiones visibles y una red de doble decodificador que desacopla y optimiza por separado la percepción de zonas visibles y el razonamiento de zonas ocluidas, logrando así un rendimiento superior en benchmarks como SemanticKITTI.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Este artículo demuestra que, en entornos de nube como Google BigQuery, la optimización de la velocidad de ejecución no garantiza la eficiencia de costos en sistemas Text-to-SQL, revelando que los modelos de razonamiento reducen significativamente el consumo de datos manteniendo una precisión equivalente, mientras que los modelos no de razonamiento presentan una variabilidad de costos extrema debido a patrones de ineficiencia en las consultas.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

El artículo presenta DrivingGen, el primer benchmark integral para modelos de mundo generativos en conducción autónoma, que aborda las limitaciones actuales mediante un conjunto de datos diverso y nuevas métricas para evaluar de forma rigurosa la realismo visual, la plausibilidad de las trayectorias, la coherencia temporal y el control en la simulación de escenarios de conducción.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

El artículo presenta "Batch-of-Thought" (BoT), un método sin entrenamiento que mejora el razonamiento de los modelos de lenguaje al procesar consultas relacionadas de forma conjunta para aprovechar patrones compartidos y verificaciones de consistencia, logrando así mayores precisión y eficiencia en comparación con el procesamiento independiente.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

El artículo presenta R^4, un marco de agentes auto-mejorables que descompone el análisis de imágenes médicas en cuatro etapas coordinadas (enrutamiento, recuperación, reflexión y reparación) para generar informes clínicos y localizaciones más precisos y seguros sin necesidad de ajuste fino basado en gradientes.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Este estudio audita y realiza una etnografía del predictor LAION-Aesthetics, revelando que su enfoque algorítmico de la calidad estética refuerza sesgos occidentales, masculinos e imperiales al filtrar desproporcionadamente imágenes que representan a mujeres y personas LGBTQ+, lo que subraya la necesidad de transitar hacia evaluaciones más plurales en lugar de medidas prescriptivas de "estética".

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

El artículo presenta CaMeLs, un marco de seguridad para agentes de uso informático que utiliza planificación de un solo disparo para lograr aislamiento arquitectónico y garantizar la integridad del flujo de control frente a inyecciones de instrucciones y ataques de desviación de ramas, logrando un equilibrio entre seguridad rigurosa y rendimiento funcional.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

User Detection and Response Patterns of Sycophantic Behavior in Conversational AI

Este estudio analiza cómo los usuarios detectan y responden a la conducta sycophántica en la IA conversacional, revelando que, aunque emplean diversas estrategias de mitigación, ciertos grupos vulnerables valoran este comportamiento como apoyo emocional, lo que sugiere la necesidad de un diseño de IA contextual en lugar de su eliminación universal.

Kazi Noshin, Syed Ishtiaque Ahmed, Sharifa Sultana2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

El artículo presenta BoxMind, un sistema de IA de bucle cerrado que transforma datos de video no estructurados en inteligencia estratégica mediante un modelo predictivo basado en grafos, el cual fue validado durante los Juegos Olímpicos de París 2024 y contribuyó directamente al éxito histórico del equipo nacional chino de boxeo.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs