cs.CV artículos | Gist.Science

PA-Attack: Guiding Gray-Box Attacks on LVLM Vision Encoders with Prototypes and Attention

El artículo presenta PA-Attack, un método de ataque de caja gris para modelos visuales-lingüísticos de gran escala que utiliza guías de prototipos y un mecanismo de mejora de atención en dos etapas para lograr una alta eficiencia, generalización de tareas y una reducción significativa del rendimiento del modelo.

Hefei Mei, Zirui Wang, Chang Xu + 2 more2026-02-24💻 cs

CountEx: Fine-Grained Counting via Exemplars and Exclusion

Este artículo presenta CountEx, un marco de conteo visual discriminativo que supera las limitaciones de los métodos existentes al permitir la especificación de inclusiones y exclusiones mediante prompts multimodales, utilizando un módulo de refinamiento de consultas para suprimir distractores visualmente similares y logrando un rendimiento superior en el nuevo benchmark CoCount.

Yifeng Huang, Gia Khanh Nguyen, Minh Hoai2026-02-24💻 cs

FinSight-Net:A Physics-Aware Decoupled Network with Frequency-Domain Compensation for Underwater Fish Detection in Smart Aquaculture

El artículo presenta FinSight-Net, un marco de detección eficiente y consciente de la física que utiliza un procesamiento desacoplado de doble flujo y una agregación de rutas optimizada para compensar la degradación óptica en entornos acuáticos, logrando un rendimiento superior y una menor complejidad computacional en la detección de peces para la acuicultura inteligente.

Jinsong Yang, Zeyuan Hu, Yichen Li + 1 more2026-02-24🤖 cs.AI

Decoupling Vision and Language: Codebook Anchored Visual Adaptation

El artículo presenta CRAFT, un método ligero que desacopla la adaptación visual de los modelos de visión y lenguaje mediante un código discreto, logrando mejoras significativas en tareas específicas de dominio sin alterar el modelo de lenguaje subyacente.

Jason Wu, Tianchen Zhao, Chang Liu + 7 more2026-02-24💻 cs

HD-TTA: Hypothesis-Driven Test-Time Adaptation for Safer Brain Tumor Segmentation

El artículo propone HD-TTA, un marco de adaptación en tiempo de prueba basado en hipótesis que mejora la seguridad en la segmentación de tumores cerebrales mediante la selección autónoma de la mejor hipótesis geométrica (compresión o inflación) y un mecanismo de filtrado, logrando una reducción significativa en la distancia de Hausdorff y una mayor precisión en dominios no vistos sin comprometer la puntuación Dice.

Kartik Jhawar, Lipo Wang2026-02-24💻 cs

Laplacian Multi-scale Flow Matching for Generative Modeling

Este artículo presenta LapFlow, un marco novedoso de flujo de coincidencia multiescala que utiliza una arquitectura de mezcla de transformadores con atención causal para generar representaciones de imágenes en paralelo, logrando una calidad superior, una inferencia más rápida y una menor carga computacional en comparación con los métodos existentes.

Zelin Zhao, Petr Molodyk, Haotian Xue + 1 more2026-02-24🤖 cs.LG

Physics-informed Active Polarimetric 3D Imaging for Specular Surfaces

Este artículo presenta un marco de aprendizaje profundo informado por la física que combina pistas de polarización e iluminación estructurada en un solo disparo para lograr una estimación robusta y precisa de las normales de superficies especulares complejas, superando las limitaciones de los métodos existentes en entornos dinámicos.

Jiazhang Wang, Hyelim Yang, Tianyi Wang + 1 more2026-02-24🔬 physics.optics

Forgetting-Resistant and Lesion-Aware Source-Free Domain Adaptive Fundus Image Analysis with Vision-Language Model

Este artículo presenta un método novedoso de adaptación de dominio libre de fuente para el análisis de imágenes del fondo de ojo que, mediante un modelo visión-lenguaje, resuelve problemas de olvido de predicciones y falta de conciencia de lesiones para superar a los métodos actuales.

Zheang Huai, Hui Tang, Hualiang Wang + 1 more2026-02-24💻 cs

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Este trabajo presenta MICON-Bench, un benchmark integral para evaluar la generación de imágenes con contexto múltiple en modelos multimodales unificados, junto con un marco de evaluación automatizado y un mecanismo de reequilibrio de atención dinámico (DAR) que mejora la coherencia y reduce las alucinaciones sin necesidad de entrenamiento.

Mingrui Wu, Hang Liu, Jiayi Ji + 2 more2026-02-24💻 cs

A Text-Guided Vision Model for Enhanced Recognition of Small Instances

Este artículo presenta un modelo de detección de objetos guiado por texto basado en una versión mejorada de YOLO-World, que sustituye la capa C2f por C3k2 para optimizar la identificación de objetos pequeños en imágenes de drones, logrando una mayor precisión y un diseño más ligero con menos parámetros y operaciones.

Hyun-Ki Jung2026-02-24💻 cs

Test-Time Computing for Referring Multimodal Large Language Models

El artículo presenta ControlMLLM++, un marco de adaptación en tiempo de prueba que inyecta marcadores visuales aprendibles en modelos multimodales congelados para habilitar el razonamiento visual de región sin reentrenamiento, optimizando tokens latentes mediante una función de energía específica de la tarea e incorporando estrategias mejoradas de optimización y desviación de sesgos en los prompts.

Mingrui Wu, Hao Chen, Jiayi Ji + 5 more2026-02-24💻 cs

Relational Feature Caching for Accelerating Diffusion Transformers

El artículo presenta el Enmascaramiento Relacional de Características (RFC), un marco novedoso que acelera los Transformadores de Difusión (DiT) mejorando la precisión de la predicción de características mediante el aprovechamiento de la correlación entre las entradas y salidas, superando así las limitaciones de los métodos de extrapolación temporal existentes.

Byunggwan Son, Jeimin Jeon, Jeongwoo Choi + 1 more2026-02-24🤖 cs.LG

Variational Trajectory Optimization of Anisotropic Diffusion Schedules

Este trabajo presenta un marco variacional para modelos de difusión que optimiza conjuntamente la red de puntuación y un programa de ruido anisotrópico parametrizado por una matriz, logrando mejoras consistentes sobre el modelo EDM en diversos conjuntos de datos mediante un nuevo solucionador de ODE inversa.

Pengxi Liu, Zeyu Michael Li, Xiang Cheng2026-02-24🤖 cs.LG

OSInsert: Towards High-authenticity and High-fidelity Image Composition

Este trabajo propone una estrategia de dos etapas llamada OSInsert que combina métodos de alta autenticidad y alta fidelidad para lograr composiciones de imágenes generativas que ajusten tanto la pose del objeto como preserven sus detalles con realismo.

Jingyuan Wang, Li Niu2026-02-24💻 cs

Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection

El artículo presenta Fore-Mamba3D, un nuevo esqueleto basado en Mamba que mejora la detección de objetos 3D mediante la codificación exclusiva de voxels de primer plano, mitigando la atenuación de la respuesta y la restricción contextual mediante una ventana deslizante regional-global y un módulo de fusión espacial de estado asistido por semántica.

Zhiwei Ning, Xuanang Gao, Jiaxi Cao + 5 more2026-02-24🤖 cs.AI

Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems

Este estudio demuestra que modificaciones cosméticas sencillas y accesibles, como barbas o maquillaje, pueden engañar eficazmente a los sistemas de estimación de edad basados en IA, clasificando a menores como adultos y revelando una vulnerabilidad crítica en los mecanismos de verificación de edad en línea.

Xingyu Shen, Tommy Duong, Xiaodong An + 6 more2026-02-24🤖 cs.LG

A Green Learning Approach to LDCT Image Restoration

Este trabajo propone un enfoque de aprendizaje verde (GL) para la restauración de imágenes de tomografía computarizada de baja dosis (LDCT), logrando un rendimiento de vanguardia con mayor transparencia matemática y eficiencia computacional en comparación con los métodos de aprendizaje profundo tradicionales.

Wei Wang, Yixing Wu, C. -C. Jay Kuo2026-02-24🤖 cs.AI

Vinedresser3D: Agentic Text-guided 3D Editing

Vinedresser3D es un marco agéntico que utiliza un modelo de lenguaje grande multimodal y un flujo rectificado basado en inversión para realizar ediciones 3D guiadas por texto de alta calidad, precisas y coherentes directamente en el espacio latente de un modelo generativo nativo.

Yankuan Chi, Xiang Li, Zixuan Huang + 1 more2026-02-24💻 cs

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

Este artículo presenta "Prune-then-Merge", un marco innovador de dos etapas que combina poda y fusión jerárquica para superar el compromiso entre compresión y fidelidad en la recuperación de documentos visuales, logrando un rendimiento superior y una compresión casi sin pérdida en 29 conjuntos de datos.

Yibo Yan, Mingdong Ou, Yi Cao + 5 more2026-02-24💬 cs.CL

A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

Este trabajo presenta un marco computacional multimodal que integra representaciones perceptuales basadas en SIFT y UQI con procesamiento lingüístico para modelar la interpretación referencial humana, logrando un rendimiento superior al de los interlocutores humanos en la tarea de alineación lenguaje-percepción del corpus de Stanford.

Joseph Bingham2026-02-24🤖 cs.AI

← Anterior Siguiente →