cs.CV artículos | Gist.Science

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Este estudio demuestra que, para la estimación de biomasa de pastizales con datos escasos, la calidad del modelo base preentrenado y el uso de módulos de fusión locales y simples (como convoluciones) superan significativamente a arquitecturas complejas como los transformadores de atención cruzada o los SSMs, estableciendo un principio de "inversión de complejidad de fusión" que prioriza la simplicidad sobre la sofisticación en benchmarks agrícolas.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Este artículo presenta un marco de aprendizaje transferible basado en optimización bi-nivel que combina un extractor de características universal entrenado con datos heterogéneos y un adaptador específico del dominio para lograr una reconstrucción de alta calidad de imágenes de resonancia magnética submuestreadas, incluso cuando se dispone de datos de entrenamiento limitados.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

El artículo presenta GazeShift, un marco de estimación de la mirada no supervisado y eficiente en tiempo real para entornos de realidad virtual, junto con VRGaze, el primer conjunto de datos a gran escala de imágenes infrarrojas de cerca capturadas con cámaras fuera del eje, logrando una alta precisión mediante la disociación de la apariencia y la mirada sin necesidad de datos etiquetados.

Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut2026-03-10💻 cs

Training-free Temporal Object Tracking in Surgical Videos

Este trabajo presenta un método innovador y sin entrenamiento para el seguimiento temporal de objetos en videos de cirugía laparoscópica, que aprovecha las capacidades de localización de modelos de difusión preentrenados para lograr un alto rendimiento en la identificación de estructuras anatómicas e instrumentos sin necesidad de anotaciones pixel-level costosas.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver es un sistema de servicio sin entrenamiento y agnóstico al modelo que acelera la generación de audio texto-audio mediante el inicio en caliente con audio semánticamente similar almacenado en caché, logrando una reducción de latencia de 1,8 a 3,0 veces sin comprometer la calidad perceptual.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai2026-03-10💻 cs

Toward Unified Multimodal Representation Learning for Autonomous Driving

Este artículo propone el marco de preentrenamiento de tensor contrastivo (CTP) para alinear simultáneamente múltiples modalidades en un espacio de incrustación unificado, mejorando así el aprendizaje de representaciones multimodales para la conducción autónoma en comparación con los métodos tradicionales de similitud por pares.

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Este trabajo presenta VLM-SubtleBench, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para realizar razonamiento comparativo sutil en diferencias finas y diversos dominios, revelando brechas significativas entre su rendimiento y el humano.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Structure and Progress Aware Diffusion for Medical Image Segmentation

Este artículo presenta SPAD, un método de difusión consciente de la estructura y el progreso para la segmentación de imágenes médicas que utiliza un programador para guiar el aprendizaje desde estructuras morfológicas y semánticas gruesas hacia el ajuste de límites finos, abordando así la ambigüedad inherente en los contornos de lesiones.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Este artículo propone la segmentación de imágenes como banco de pruebas visual para estudiar la formación de coaliciones en juegos hedónicos, analizando cómo un parámetro de granularización afecta la estructura de equilibrio y la recuperación de objetos en benchmarks como el de Weizmann.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

El artículo presenta MINT, un marco de entrenamiento que mejora los modelos fundacionales de patología al integrar supervisión de transcriptómica espacial, logrando un rendimiento superior tanto en la predicción de expresión génica como en tareas generales de patología.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

El artículo presenta E²OAL, un marco unificado y sin detectores para el aprendizaje activo de conjunto abierto que aprovecha las clases desconocidas etiquetadas mediante agrupamiento estructurado y calibración dirichlet para lograr un rendimiento superior en precisión, eficiencia y selección de muestras en comparación con los métodos actuales.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Este paper presenta un marco bayesiano guiado por conceptos para el reconocimiento de imágenes en cero disparos que supera las limitaciones de los métodos heurísticos mediante la síntesis de conceptos discriminativos, la diversificación mediante procesos de puntos determinantes y un ajuste adaptativo de la verosimilitud para mitigar valores atípicos, logrando así un rendimiento superior al estado del arte.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

Este trabajo presenta un marco de compresión de video aprendido basado en una estrategia de transformación directa que integra un módulo Mamba en cascada con transformaciones geométricas y una red de refinamiento local, logrando un rendimiento superior en calidad perceptiva y consistencia temporal a bajas tasas de bits en comparación con los métodos más avanzados.

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

Este artículo propone un marco de fusión basado en desmezcla que, mediante la descomposición en valores singulares, un módulo de agregación deformable de coarse-to-fine y mecanismos de atención cruzada, mejora la super-resolución de imágenes hiperespectrales no registradas al desacoplar la información espacial-espectral y mitigar los efectos de la falta de registro.

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

El artículo presenta RLPR, un marco robusto de reconocimiento de lugares que alinea escaneos de radar con mapas LiDAR mediante una alineación cruzada asimétrica en dos etapas, logrando un rendimiento superior y una generalización cero-shot para la localización autónoma en todo tipo de clima.

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

El artículo presenta IMSE, un método de adaptación en tiempo de prueba que aprovecha expertos espectrales intrínsecos en Vision Transformers mediante la adaptación de valores singulares y una pérdida de maximización de diversidad, logrando un rendimiento superior con una fracción mínima de parámetros entrenables.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Este artículo presenta un enfoque híbrido de Vision Transformer con codificación posicional 2D y un decodificador de atención de cobertura para el reconocimiento de expresiones matemáticas, logrando un puntaje BLEU de 89.94 en el conjunto de datos IM2LATEX-100K y superando a los métodos más avanzados actuales.

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Este estudio compara la generación de código TikZ frente a la síntesis de imágenes directas para convertir diagramas de autómatas dibujados por estudiantes en representaciones digitales, demostrando que la corrección humana de las descripciones generadas por modelos de visión-lingüaje es esencial para lograr resultados precisos y facilitar la evaluación automatizada en la educación informática.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

$L^3$ :Scene-agnostic Visual Localization in the Wild

El artículo presenta $L^3$ , un marco de localización visual libre de mapas que logra una alta precisión y robustez en entornos naturales mediante la reconstrucción 3D en línea directa de imágenes RGB, eliminando la necesidad de preprocesamiento o almacenamiento de representaciones de escena.

Yu Zhang, Muhua Zhu, Yifei Xue, Tie Ji, Yizhen Lao2026-03-10💻 cs

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

El artículo presenta VisualAD, un marco de detección de anomalías cero-shot puramente visual basado en Vision Transformers que elimina la necesidad de un codificador de texto mediante tokens aprendibles y mecanismos de atención especializados, logrando un rendimiento de vanguardia en múltiples dominios.

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu2026-03-10💻 cs

← Anterior Siguiente →

cs.CV