Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Este estudio demuestra que, para la estimación de biomasa de pastizales con datos escasos, la calidad del modelo base preentrenado y el uso de módulos de fusión locales y simples (como convoluciones) superan significativamente a arquitecturas complejas como los transformadores de atención cruzada o los SSMs, estableciendo un principio de "inversión de complejidad de fusión" que prioriza la simplicidad sobre la sofisticación en benchmarks agrícolas.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Este artículo presenta un marco de aprendizaje transferible basado en optimización bi-nivel que combina un extractor de características universal entrenado con datos heterogéneos y un adaptador específico del dominio para lograr una reconstrucción de alta calidad de imágenes de resonancia magnética submuestreadas, incluso cuando se dispone de datos de entrenamiento limitados.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

El artículo presenta GazeShift, un marco de estimación de la mirada no supervisado y eficiente en tiempo real para entornos de realidad virtual, junto con VRGaze, el primer conjunto de datos a gran escala de imágenes infrarrojas de cerca capturadas con cámaras fuera del eje, logrando una alta precisión mediante la disociación de la apariencia y la mirada sin necesidad de datos etiquetados.

Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut2026-03-10💻 cs

Training-free Temporal Object Tracking in Surgical Videos

Este trabajo presenta un método innovador y sin entrenamiento para el seguimiento temporal de objetos en videos de cirugía laparoscópica, que aprovecha las capacidades de localización de modelos de difusión preentrenados para lograr un alto rendimiento en la identificación de estructuras anatómicas e instrumentos sin necesidad de anotaciones pixel-level costosas.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

Structure and Progress Aware Diffusion for Medical Image Segmentation

Este artículo presenta SPAD, un método de difusión consciente de la estructura y el progreso para la segmentación de imágenes médicas que utiliza un programador para guiar el aprendizaje desde estructuras morfológicas y semánticas gruesas hacia el ajuste de límites finos, abordando así la ambigüedad inherente en los contornos de lesiones.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

El artículo presenta E²OAL, un marco unificado y sin detectores para el aprendizaje activo de conjunto abierto que aprovecha las clases desconocidas etiquetadas mediante agrupamiento estructurado y calibración dirichlet para lograr un rendimiento superior en precisión, eficiencia y selección de muestras en comparación con los métodos actuales.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Este paper presenta un marco bayesiano guiado por conceptos para el reconocimiento de imágenes en cero disparos que supera las limitaciones de los métodos heurísticos mediante la síntesis de conceptos discriminativos, la diversificación mediante procesos de puntos determinantes y un ajuste adaptativo de la verosimilitud para mitigar valores atípicos, logrando así un rendimiento superior al estado del arte.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

Este artículo propone un marco de fusión basado en desmezcla que, mediante la descomposición en valores singulares, un módulo de agregación deformable de coarse-to-fine y mecanismos de atención cruzada, mejora la super-resolución de imágenes hiperespectrales no registradas al desacoplar la información espacial-espectral y mitigar los efectos de la falta de registro.

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

El artículo presenta IMSE, un método de adaptación en tiempo de prueba que aprovecha expertos espectrales intrínsecos en Vision Transformers mediante la adaptación de valores singulares y una pérdida de maximización de diversidad, logrando un rendimiento superior con una fracción mínima de parámetros entrenables.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Este estudio compara la generación de código TikZ frente a la síntesis de imágenes directas para convertir diagramas de autómatas dibujados por estudiantes en representaciones digitales, demostrando que la corrección humana de las descripciones generadas por modelos de visión-lingüaje es esencial para lograr resultados precisos y facilitar la evaluación automatizada en la educación informática.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs