cs.CV artículos | Gist.Science

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

PhysDrape es un solucionador híbrido neural-físico que integra una red neuronal informada por física con un solver de proyección diferenciable para resolver el conflicto entre la viabilidad geométrica y la plausibilidad física en el drapeado de prendas, logrando un manejo robusto de colisiones y un equilibrio cuasi-estático mediante fuerzas explícitas y restricciones geométricas estrictas.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

El artículo presenta FlowAdapt, un marco de adaptación de dominio eficiente en parámetros basado en la teoría del transporte óptimo que, mediante una muestreo selectivo y una transferencia progresiva de conocimiento, supera las limitaciones de la adaptación directa en sistemas de percepción colaborativa V2X logrando un rendimiento de vanguardia con solo el 1% de parámetros entrenables.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

El marco SToRM propone un método de reducción supervisada de tokens para modelos de lenguaje multimodal que permite una conducción autónoma de extremo a extremo eficiente, reduciendo los costos computacionales hasta en un 30x sin sacrificar el rendimiento en comparación con el uso de todos los tokens.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

El artículo presenta 3DMedAgent, un agente unificado que habilita a modelos de lenguaje multimodal 2D para realizar análisis médicos 3D mediante la descomposición progresiva de tareas complejas y el uso de una memoria estructurada, superando así las limitaciones de los enfoques existentes y logrando un rendimiento superior en más de 40 tareas de análisis de tomografía computarizada.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Este artículo presenta arquitecturas que aprenden operadores equivariantes en un espacio latente para mejorar el reconocimiento de objetos ante transformaciones simétricas no vistas durante el entrenamiento, demostrando su eficacia en conjuntos de datos simples como MNIST ruidoso y rotado, aunque advierte sobre los desafíos de escalar estas soluciones a conjuntos de datos más complejos.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

El artículo presenta OVerSeeC, un marco modular de cero disparos que combina modelos de lenguaje y segmentación de visión abierta para generar mapas de costos globales adaptativos a misiones a partir de imágenes satelitales y descripciones en lenguaje natural, permitiendo la planificación de rutas para entidades y reglas desconocidas sin ontologías predefinidas.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Este artículo introduce el nuevo paradigma de generalización de dominio de vocabulario abierto en segmentación semántica (OVDG-SS) para entornos urbanos, presentando un primer benchmark y proponiendo el mecanismo S2-Corr para mitigar las distorsiones en las correlaciones texto-imagen causadas por cambios de dominio y mejorar la robustez en escenarios no vistos.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

El artículo presenta UniMatch, un marco de aprendizaje profundo que establece correspondencias densas semánticas entre formas 3D no isométricas de diferentes categorías mediante un enfoque de dos etapas que combina segmentación semántica agnóstica a la clase, orientación mediante modelos de lenguaje multimodal y un esquema de aprendizaje contrastivo basado en rangos.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

InfScene-SR es un enfoque de superresolución basado en difusión que utiliza la fusión de corrección de varianza y la corrección de varianza desacoplada espacialmente para lograr una superresolución de imágenes de tamaño arbitrario sin costuras ni inconsistencias espaciales, eliminando así los límites de memoria y permitiendo inferencia distribuida eficiente.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Este artículo propone un esquema de descomposición y recomposición en línea de objetos, escenas y cámaras para generar datos de entrenamiento sintéticos diversos y eficientes, mejorando así la detección 3D de objetos monocular con menos datos y anotaciones.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Este trabajo presenta un marco de descomposición de imágenes en contexto que utiliza modelos de difusión preentrenados adaptados mediante LoRA y una estrategia de ajuste cíclico para separar eficazmente logotipos de sus superficies subyacentes, mejorando la robustez mediante la consistencia de reconstrucción y un proceso progresivo de auto-mejora.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Este trabajo presenta un marco iterativo y sin entrenamiento que mejora el razonamiento multimodal en modelos de visión y lenguaje grandes mediante la supervisión de cada paso de razonamiento con evidencia visual dinámica, reduciendo así las alucinaciones y aumentando la precisión sin necesidad de reentrenamiento.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Este artículo presenta un enfoque unificado para la segmentación semántica en imágenes y videos que utiliza modelado de lenguaje para generar máscaras como secuencias de tokens discretos mediante codificación de longitudes de ejecución (RLE), incorporando estrategias de compresión y detalles de instancias para lograr resultados competitivos con el estado del arte.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

WISER es un marco de recuperación de imágenes compuestas sin entrenamiento que supera las limitaciones de los métodos existentes mediante una búsqueda más amplia, un pensamiento más profundo y una fusión adaptativa que unifica las búsquedas basadas en texto e imagen para lograr un rendimiento superior en diversos escenarios.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

El artículo presenta PackUV, un nuevo método de representación 4D que mapea atributos gaussianos en atlas UV compatibles con códecs de video estándar para lograr almacenamiento compacto y transmisión eficiente, junto con un conjunto de datos masivo (PackUV-2B) que demuestra una reconstrucción temporalmente consistente y de alta fidelidad en secuencias de larga duración.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

El artículo presenta HART, un marco de aprendizaje por refuerzo sin anotaciones que mejora el razonamiento visual de modelos multimodales de alta resolución mediante la optimización de la localización de regiones clave y la auto-verificación, logrando un rendimiento superior en diversas tareas sin depender de etiquetas de anclaje costosas.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Este artículo presenta InfSA y su variante lineal, Linear-InfSA, un enfoque de autoatención espectral que reformula la atención como un proceso de difusión para lograr complejidad lineal, permitiendo entrenar y realizar inferencia en imágenes de ultraalta resolución (hasta 9216x9216) con mayor eficiencia energética y rendimiento que los Transformers tradicionales.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

El artículo presenta WildActor, un marco de generación de video humano que, aprovechando el gran conjunto de datos Actor-18M y mecanismos avanzados de atención y muestreo, logra preservar la identidad corporal completa de manera consistente en escenas dinámicas con cambios de perspectiva y movimiento, superando las limitaciones de los métodos anteriores.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Este artículo de posición sostiene que la evaluación de los sistemas modernos de procesamiento visual debe dejar de centrarse exclusivamente en métricas objetivas para adoptar un enfoque más humano, consciente del contexto y detallado, que priorice la percepción y las preferencias de los usuarios.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

El artículo presenta DeAR, un marco que mejora la adaptación de modelos de visión y lenguaje mediante la descomposición de los roles de las cabezas de atención en capas profundas para equilibrar eficazmente el aprendizaje de tareas específicas y la preservación de la generalización cero-shot.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

← Anterior Siguiente →