Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Este trabajo evalúa sistemáticamente la accesibilidad del color en imágenes generadas por modelos de difusión, introduciendo la nueva métrica "CVDLoss" para cuantificar las mejoras estructurales y demostrando que los modelos actuales tienen dificultades para responder eficazmente a instrucciones enfocadas en la accesibilidad para personas con deficiencia en la visión del color.

Xinyao Zhuang, Jose Echevarria, Kaan Aksit2026-03-11💻 cs

Gap-ETH-Tight Algorithms for Hyperbolic TSP and Steiner Tree

Los autores presentan un esquema de aproximación óptimo bajo Gap-ETH para el problema del viajante y el árbol de Steiner en espacios hiperbólicos de dimensión fija, logrando un tiempo de ejecución $2^{O(1/\varepsilon^{d-1})}n^{1+o(1)}$ mediante una nueva descomposición jerárquica llamada "cuadrícula híbrida hiperbólica" y un análisis de cruces ponderados.

Sándor Kisfaludi-Bak, Saeed Odak, Satyam Singh, Geert van Wordragen2026-03-11💻 cs

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

RecThinker es un marco de agentes que transforma la recomendación de un proceso pasivo a una investigación autónoma mediante un paradigma de Análisis-Planificar-Actuar, el cual utiliza herramientas especializadas y entrenamiento con aprendizaje por refuerzo para identificar y cubrir dinámicamente las brechas de información, logrando así un rendimiento superior en escenarios de recomendación.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou2026-03-11💻 cs

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

Este trabajo mejora el tiempo de ejecución de los algoritmos de aproximación (1+ε)(1+\varepsilon) para los problemas de kk-mediana y kk-medias en espacios euclídeos de baja dimensión a $2^{\tilde{O}(1/\varepsilon)^{d-1}} \cdot n \cdot \text{polylog}(n)$ y demuestra que este límite es casi óptimo bajo la Hipótesis del Tiempo Exponencial con Brecha para 3-SAT.

Vincent Cohen-Addad, Karthik C. S., David Saulpic, Chris Schwiegelshohn2026-03-11💻 cs

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

El artículo presenta MissBench, un nuevo marco de referencia y conjunto de métricas diagnósticas diseñado para evaluar y detectar inequidades en el análisis afectivo multimodal bajo condiciones realistas de datos faltantes desbalanceados, revelando que los modelos que parecen robustos en escenarios ideales pueden presentar desequilibrios significativos en la práctica.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

El artículo propone un Sistema de Coherencia de Capacidades (CCS) que mapea modelos de consistencia de memoria a la revocación de autorizaciones multiagente, demostrando mediante simulación que la estrategia de coherencia dirigida por consistencia de lanzamiento (RCC) reduce drásticamente las operaciones no autorizadas en comparación con los métodos basados en tiempo, garantizando la seguridad independientemente de la velocidad de los agentes.

Vladyslav Parakhin2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

El artículo presenta InternVL-U, un modelo multimodal unificado ligero de 4 mil millones de parámetros que democratiza las capacidades de comprensión, razonamiento, generación y edición mediante un diseño modular y una síntesis de datos centrada en el razonamiento, logrando un rendimiento superior al de modelos baselines mucho más grandes con una eficiencia notable.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

El artículo presenta DISPLAY, un marco de generación de videos de interacción humano-objeto que logra un control intuitivo y alta fidelidad mediante una guía de movimiento dispersa (coordenadas de muñeca y cajas delimitadoras de objetos) y una estrategia de entrenamiento auxiliar multi-tarea para superar las limitaciones de flexibilidad y consistencia física de los métodos existentes.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Este artículo presenta un estudio comparativo en ROS de cinco enfoques de localización cooperativa que revela que, aunque StCL y Standard-CL ofrecen la mayor precisión, CI es el método más equilibrado al garantizar consistencia y precisión, mientras que DCL destaca por su estabilidad ante datos atípicos en entornos sin características.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

La segunda edición de la pista de Generación Aumentada por Recuperación (RAG) de TREC 2025 avanza en el desarrollo de sistemas confiables y contextualmente conscientes mediante la introducción de consultas narrativas complejas, el uso del corpus MS MARCO V2.1 y una evaluación multifacética que prioriza la transparencia y la fundamentación factual.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Este trabajo presenta CourtSI, el primer conjunto de datos a gran escala y su correspondiente benchmark para evaluar y mejorar la inteligencia espacial de los modelos de visión y lenguaje en escenarios deportivos, demostrando que el ajuste fino en este dominio cierra la brecha de rendimiento humano-AI y mejora la capacidad de generalización de los modelos.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

El paper presenta WikiCLIP, un marco eficiente y efectivo para el reconocimiento de entidades visuales en dominios abiertos que supera a los métodos generativos existentes al combinar representaciones de entidades enriquecidas por modelos de lenguaje con un adaptador guiado por visión y un mecanismo de síntesis de negativos difíciles, logrando mejoras significativas en rendimiento y reduciendo la latencia de inferencia en casi 100 veces.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

El artículo demuestra que la optimización directa de la distancia de chamfer falla estructuralmente debido a un colapso de muchos a uno causado por gradientes locales, y propone que la introducción de acoplamiento no local, como en deformaciones de base compartida o priores MPM diferenciables, es esencial para suprimir este colapso y lograr una reconstrucción de formas 3D exitosa.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Este trabajo propone un método interpretable para la recuperación de movimiento a partir de texto que utiliza representaciones de imágenes de ángulos articulares y una interacción tardía token-parche para superar las limitaciones de las representaciones globales y lograr correspondencias finas y precisas entre descripciones lingüísticas y secuencias de movimiento 3D.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Este artículo presenta un marco novedoso de adaptación de dominio no supervisada basado en la discrepancia de disparidad de márgenes (MDD) que mejora la segmentación del hígado en imágenes de tomografía computarizada cónica (CBCT) intervencionista al aprovechar datos anotados de TC, logrando un rendimiento de vanguardia tanto en escenarios no supervisados como de pocos ejemplos.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Este trabajo propone un marco de poda de tokens fundamentado en la geometría de espacios hiperesféricos y la estimación de celdas de Voronoi para reducir la sobrecarga de almacenamiento en modelos de recuperación de interacción tardía como ColBERT, manteniendo al mismo tiempo la calidad de la recuperación y ofreciendo una mayor interpretabilidad.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs