ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

El artículo presenta ReMeDI-SAM3, una extensión sin entrenamiento de SAM3 que mejora la segmentación de instrumentos quirúrgicos mediante filtrado de memoria, interpolación y reidentificación para superar los desafíos de oclusión y movimiento, logrando mejoras significativas en métricas de precisión en comparación con enfoques anteriores.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Este estudio demuestra que, aunque la percepción subjetiva de la vegetación urbana no siempre coincide con las mediciones objetivas, las diferencias se explican principalmente por el lugar de residencia de las personas y no por su demografía o personalidad, lo que sugiere que factores culturales y experienciales moldean significativamente cómo se observa el verde en las ciudades.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

El artículo presenta VOIC, un marco innovador que mejora la Completación Semántica de Escenas 3D a partir de una sola imagen mediante una estrategia de extracción de etiquetas de regiones visibles y una red de doble decodificador que desacopla y optimiza por separado la percepción de zonas visibles y el razonamiento de zonas ocluidas, logrando así un rendimiento superior en benchmarks como SemanticKITTI.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Este artículo demuestra que, en entornos de nube como Google BigQuery, la optimización de la velocidad de ejecución no garantiza la eficiencia de costos en sistemas Text-to-SQL, revelando que los modelos de razonamiento reducen significativamente el consumo de datos manteniendo una precisión equivalente, mientras que los modelos no de razonamiento presentan una variabilidad de costos extrema debido a patrones de ineficiencia en las consultas.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

El artículo presenta DrivingGen, el primer benchmark integral para modelos de mundo generativos en conducción autónoma, que aborda las limitaciones actuales mediante un conjunto de datos diverso y nuevas métricas para evaluar de forma rigurosa la realismo visual, la plausibilidad de las trayectorias, la coherencia temporal y el control en la simulación de escenarios de conducción.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

El artículo presenta "Batch-of-Thought" (BoT), un método sin entrenamiento que mejora el razonamiento de los modelos de lenguaje al procesar consultas relacionadas de forma conjunta para aprovechar patrones compartidos y verificaciones de consistencia, logrando así mayores precisión y eficiencia en comparación con el procesamiento independiente.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

El artículo presenta R^4, un marco de agentes auto-mejorables que descompone el análisis de imágenes médicas en cuatro etapas coordinadas (enrutamiento, recuperación, reflexión y reparación) para generar informes clínicos y localizaciones más precisos y seguros sin necesidad de ajuste fino basado en gradientes.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Este estudio audita y realiza una etnografía del predictor LAION-Aesthetics, revelando que su enfoque algorítmico de la calidad estética refuerza sesgos occidentales, masculinos e imperiales al filtrar desproporcionadamente imágenes que representan a mujeres y personas LGBTQ+, lo que subraya la necesidad de transitar hacia evaluaciones más plurales en lugar de medidas prescriptivas de "estética".

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

El artículo presenta CaMeLs, un marco de seguridad para agentes de uso informático que utiliza planificación de un solo disparo para lograr aislamiento arquitectónico y garantizar la integridad del flujo de control frente a inyecciones de instrucciones y ataques de desviación de ramas, logrando un equilibrio entre seguridad rigurosa y rendimiento funcional.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

User Detection and Response Patterns of Sycophantic Behavior in Conversational AI

Este estudio analiza cómo los usuarios detectan y responden a la conducta sycophántica en la IA conversacional, revelando que, aunque emplean diversas estrategias de mitigación, ciertos grupos vulnerables valoran este comportamiento como apoyo emocional, lo que sugiere la necesidad de un diseño de IA contextual en lugar de su eliminación universal.

Kazi Noshin, Syed Ishtiaque Ahmed, Sharifa Sultana2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

El artículo presenta BoxMind, un sistema de IA de bucle cerrado que transforma datos de video no estructurados en inteligencia estratégica mediante un modelo predictivo basado en grafos, el cual fue validado durante los Juegos Olímpicos de París 2024 y contribuyó directamente al éxito histórico del equipo nacional chino de boxeo.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

El artículo presenta S2DiT, un modelo de Transformador de Difusión en sándwich optimizado para generar video de alta fidelidad en tiempo real en dispositivos móviles mediante mecanismos de atención eficientes y un marco de destilación, logrando más de 10 FPS en un iPhone con calidad comparable a los modelos de servidor más avanzados.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

El artículo presenta ReViP, un marco de modelos de visión-idioma-acción que mitiga las "completaciones falsas" mediante un reequilibrio entre visión y propiocepción, utilizando señales visuales conscientes del progreso para mejorar la robustez y el rendimiento en tareas de manipulación robótica.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Este artículo presenta ScenePilot-Bench, un nuevo benchmark a gran escala basado en el dataset ScenePilot-4K diseñado para evaluar y analizar las capacidades de los modelos de visión-linguaje en la comprensión, percepción espacial y planificación de movimiento para la conducción autónoma.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Este trabajo presenta QSTar, un nuevo método de interacción espacial-temporal-frecuencial guiado por consultas que integra información textual desde etapas tempranas y explota las características de frecuencia del audio para superar las limitaciones de los enfoques existentes en la respuesta a preguntas audiovisuales (AVQA), logrando mejoras significativas en diversos benchmarks.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs