Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Este estudo demonstra que, para a estimativa de biomassa de pastagens em conjuntos de dados escassos, a qualidade da pré-treinagem do backbone (como a atualização para DINOv3) e o uso de módulos de fusão locais e simples (como convoluções profundas) superam significativamente arquiteturas complexas baseadas em atenção ou SSMs, estabelecendo diretrizes para priorizar a robustez do backbone em detrimento da complexidade da fusão.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Este artigo apresenta uma nova estrutura de aprendizado por transferência baseada em otimização bi-nível que combina um extrator de características universal treinado em dados heterogêneos com um adaptador específico para domínio, permitindo a reconstrução de alta qualidade de imagens de ressonância magnética subamostradas mesmo com dados de treinamento limitados.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

Training-free Temporal Object Tracking in Surgical Videos

Este artigo apresenta um método inovador e sem treinamento para o rastreamento temporal de objetos em vídeos de colecistectomia laparoscópica, que aproveita as capacidades de localização de modelos de difusão pré-treinados para superar os desafios de anotação e alcançar desempenho superior na segmentação de estruturas anatômicas e instrumentos cirúrgicos.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

Structure and Progress Aware Diffusion for Medical Image Segmentation

Este artigo propõe o SPAD (Difusão Consciente de Estrutura e Progresso), um novo método para segmentação de imagens médicas que utiliza um agendador consciente do progresso para modular duas etapas de difusão distintas, focando inicialmente em estruturas morfológicas e semânticas estáveis e gradualmente refinando para bordas finas, superando assim as limitações das abordagens existentes que aprendem simultaneamente essas características.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

O artigo apresenta o MINT, um framework de ajuste fino que integra supervisão de transcriptômica espacial em modelos de visão pré-treinados para patologia, permitindo que representações morfológicas capturem estados moleculares subjacentes e alcançando desempenho superior na previsão de expressão gênica e em tarefas gerais de patologia.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

O artigo propõe o E²OAL, um quadro unificado e sem detectores para aprendizado ativo em conjunto aberto que elimina a sobrecarga de treinamento ao explorar rótulos de classes desconhecidas para melhorar a discriminação de classes conhecidas e a calibração, superando consistentemente os métodos mais avançados em precisão e eficiência.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Este artigo propõe um framework bayesiano orientado a conceitos para reconhecimento de imagens zero-shot, que supera as limitações de métodos heurísticos ao sintetizar conceitos discriminativos via LLMs, garantir diversidade com Processos de Pontos Determinantes e atenuar outliers através de uma verossimilhança adaptativa, alcançando desempenho superior ao estado da arte.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

Este artigo apresenta o GTEM-LVC, um novo framework de compressão de vídeo aprendido que substitui a estimativa de movimento explícita por uma estratégia de transformação direta baseada em módulos Mamba com transformações geométricas embutidas e uma rede de refinamento local, alcançando desempenho superior em qualidade perceptiva e consistência temporal sob restrições de baixo bitrate.

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

O artigo apresenta o RLPR, um framework robusto de reconhecimento de lugares que alinha varreduras de radar a mapas LiDAR por meio de uma estratégia de alinhamento cruzado assimétrico em duas etapas, superando os desafios do clima adverso e da escassez de dados parecidos para alcançar alta precisão e generalização.

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

O artigo apresenta o IMSE, um método de adaptação em tempo de teste que utiliza uma mistura intrínseca de especialistas espectrais em Vision Transformers, ajustando apenas os valores singulares via decomposição SVD e introduzindo uma perda de maximização de diversidade e recuperação de códigos espectrais para evitar o colapso de características e melhorar significativamente a precisão com parâmetros treináveis drasticamente reduzidos.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Este estudo compara a geração de diagramas de autômatos a partir de código TikZ versus síntese direta de imagens, demonstrando que a correção humana das descrições textuais geradas por modelos de visão e linguagem é essencial para produzir representações digitais precisas a partir de diagramas desenhados por estudantes, com potencial para automatizar a avaliação e melhorar materiais educacionais.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs