CountEx: Fine-Grained Counting via Exemplars and Exclusion

Este artículo presenta CountEx, un marco de conteo visual discriminativo que supera las limitaciones de los métodos existentes al permitir la especificación de inclusiones y exclusiones mediante prompts multimodales, utilizando un módulo de refinamiento de consultas para suprimir distractores visualmente similares y logrando un rendimiento superior en el nuevo benchmark CoCount.

Yifeng Huang, Gia Khanh Nguyen, Minh Hoai2026-02-24💻 cs

FinSight-Net:A Physics-Aware Decoupled Network with Frequency-Domain Compensation for Underwater Fish Detection in Smart Aquaculture

El artículo presenta FinSight-Net, un marco de detección eficiente y consciente de la física que utiliza un procesamiento desacoplado de doble flujo y una agregación de rutas optimizada para compensar la degradación óptica en entornos acuáticos, logrando un rendimiento superior y una menor complejidad computacional en la detección de peces para la acuicultura inteligente.

Jinsong Yang, Zeyuan Hu, Yichen Li + 1 more2026-02-24🤖 cs.AI

HD-TTA: Hypothesis-Driven Test-Time Adaptation for Safer Brain Tumor Segmentation

El artículo propone HD-TTA, un marco de adaptación en tiempo de prueba basado en hipótesis que mejora la seguridad en la segmentación de tumores cerebrales mediante la selección autónoma de la mejor hipótesis geométrica (compresión o inflación) y un mecanismo de filtrado, logrando una reducción significativa en la distancia de Hausdorff y una mayor precisión en dominios no vistos sin comprometer la puntuación Dice.

Kartik Jhawar, Lipo Wang2026-02-24💻 cs

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Este trabajo presenta MICON-Bench, un benchmark integral para evaluar la generación de imágenes con contexto múltiple en modelos multimodales unificados, junto con un marco de evaluación automatizado y un mecanismo de reequilibrio de atención dinámico (DAR) que mejora la coherencia y reduce las alucinaciones sin necesidad de entrenamiento.

Mingrui Wu, Hang Liu, Jiayi Ji + 2 more2026-02-24💻 cs

Test-Time Computing for Referring Multimodal Large Language Models

El artículo presenta ControlMLLM++, un marco de adaptación en tiempo de prueba que inyecta marcadores visuales aprendibles en modelos multimodales congelados para habilitar el razonamiento visual de región sin reentrenamiento, optimizando tokens latentes mediante una función de energía específica de la tarea e incorporando estrategias mejoradas de optimización y desviación de sesgos en los prompts.

Mingrui Wu, Hao Chen, Jiayi Ji + 5 more2026-02-24💻 cs

Relational Feature Caching for Accelerating Diffusion Transformers

El artículo presenta el Enmascaramiento Relacional de Características (RFC), un marco novedoso que acelera los Transformadores de Difusión (DiT) mejorando la precisión de la predicción de características mediante el aprovechamiento de la correlación entre las entradas y salidas, superando así las limitaciones de los métodos de extrapolación temporal existentes.

Byunggwan Son, Jeimin Jeon, Jeongwoo Choi + 1 more2026-02-24🤖 cs.LG