cs.CV artigos | Gist.Science

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Este estudo demonstra que, para a estimativa de biomassa de pastagens em conjuntos de dados escassos, a qualidade da pré-treinagem do backbone (como a atualização para DINOv3) e o uso de módulos de fusão locais e simples (como convoluções profundas) superam significativamente arquiteturas complexas baseadas em atenção ou SSMs, estabelecendo diretrizes para priorizar a robustez do backbone em detrimento da complexidade da fusão.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Este artigo apresenta uma nova estrutura de aprendizado por transferência baseada em otimização bi-nível que combina um extrator de características universal treinado em dados heterogêneos com um adaptador específico para domínio, permitindo a reconstrução de alta qualidade de imagens de ressonância magnética subamostradas mesmo com dados de treinamento limitados.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

O artigo apresenta o GazeShift, um framework de estimativa de olhar não supervisionado e o dataset VRGaze, que juntos oferecem uma solução eficiente em tempo real e com poucos parâmetros para rastreamento de olhar em realidade virtual, superando a escassez de dados rotulados em configurações de câmeras off-axis.

Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut2026-03-10💻 cs

Training-free Temporal Object Tracking in Surgical Videos

Este artigo apresenta um método inovador e sem treinamento para o rastreamento temporal de objetos em vídeos de colecistectomia laparoscópica, que aproveita as capacidades de localização de modelos de difusão pré-treinados para superar os desafios de anotação e alcançar desempenho superior na segmentação de estruturas anatômicas e instrumentos cirúrgicos.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

O SoundWeaver é um sistema de serviço sem treinamento e agnóstico a modelos que acelera a geração de áudio por difusão texto-para-áudio ao reiniciar o processo com base em áudio em cache semanticamente similar, reduzindo a latência em 1,8 a 3,0 vezes sem comprometer a qualidade perceptual.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai2026-03-10💻 cs

Toward Unified Multimodal Representation Learning for Autonomous Driving

Este artigo propõe o framework de Pré-treinamento de Tensor Contrastivo (CTP), que supera as limitações do alinhamento por pares ao realizar um alinhamento unificado e simultâneo de múltiplas modalidades (texto, imagem e nuvem de pontos) em um espaço de incorporação comum, melhorando assim a compreensão de cena para a condução autônoma.

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Este trabalho apresenta o VLM-SubtleBench, um novo benchmark que avalia a capacidade de raciocínio comparativo sutil de modelos de visão e linguagem (VLMs) em dez tipos de diferenças e diversos domínios, revelando lacunas significativas entre o desempenho desses modelos e o humano.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Structure and Progress Aware Diffusion for Medical Image Segmentation

Este artigo propõe o SPAD (Difusão Consciente de Estrutura e Progresso), um novo método para segmentação de imagens médicas que utiliza um agendador consciente do progresso para modular duas etapas de difusão distintas, focando inicialmente em estruturas morfológicas e semânticas estáveis e gradualmente refinando para bordas finas, superando assim as limitações das abordagens existentes que aprendem simultaneamente essas características.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Este artigo propõe a segmentação de imagens como um banco de testes visual para jogos hedônicos, demonstrando como um parâmetro de granularização influencia a estrutura de equilíbrio e a fragmentação de coalizões ao modelar pixels como agentes.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

O artigo apresenta o MINT, um framework de ajuste fino que integra supervisão de transcriptômica espacial em modelos de visão pré-treinados para patologia, permitindo que representações morfológicas capturem estados moleculares subjacentes e alcançando desempenho superior na previsão de expressão gênica e em tarefas gerais de patologia.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

O artigo propõe o E²OAL, um quadro unificado e sem detectores para aprendizado ativo em conjunto aberto que elimina a sobrecarga de treinamento ao explorar rótulos de classes desconhecidas para melhorar a discriminação de classes conhecidas e a calibração, superando consistentemente os métodos mais avançados em precisão e eficiência.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Este artigo propõe um framework bayesiano orientado a conceitos para reconhecimento de imagens zero-shot, que supera as limitações de métodos heurísticos ao sintetizar conceitos discriminativos via LLMs, garantir diversidade com Processos de Pontos Determinantes e atenuar outliers através de uma verossimilhança adaptativa, alcançando desempenho superior ao estado da arte.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

Este artigo apresenta o GTEM-LVC, um novo framework de compressão de vídeo aprendido que substitui a estimativa de movimento explícita por uma estratégia de transformação direta baseada em módulos Mamba com transformações geométricas embutidas e uma rede de refinamento local, alcançando desempenho superior em qualidade perceptiva e consistência temporal sob restrições de baixo bitrate.

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

Este artigo propõe um novo framework de fusão baseado em decomposição espectral e aprendizado de abundância, que integra módulos de agregação deformável e atenção cruzada para realizar super-resolução de imagens hiperespectrais não registradas com desempenho superior ao estado da arte.

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

O artigo apresenta o RLPR, um framework robusto de reconhecimento de lugares que alinha varreduras de radar a mapas LiDAR por meio de uma estratégia de alinhamento cruzado assimétrico em duas etapas, superando os desafios do clima adverso e da escassez de dados parecidos para alcançar alta precisão e generalização.

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

O artigo apresenta o IMSE, um método de adaptação em tempo de teste que utiliza uma mistura intrínseca de especialistas espectrais em Vision Transformers, ajustando apenas os valores singulares via decomposição SVD e introduzindo uma perda de maximização de diversidade e recuperação de códigos espectrais para evitar o colapso de características e melhorar significativamente a precisão com parâmetros treináveis drasticamente reduzidos.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Este artigo propõe uma abordagem híbrida que combina um Vision Transformer com codificação posicional 2D e um decodificador com atenção de cobertura para reconhecimento de expressões matemáticas, alcançando um desempenho superior ao estado da arte no conjunto de dados IM2LATEX-100K.

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Este estudo compara a geração de diagramas de autômatos a partir de código TikZ versus síntese direta de imagens, demonstrando que a correção humana das descrições textuais geradas por modelos de visão e linguagem é essencial para produzir representações digitais precisas a partir de diagramas desenhados por estudantes, com potencial para automatizar a avaliação e melhorar materiais educacionais.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

$L^3$ :Scene-agnostic Visual Localization in the Wild

O artigo apresenta a $L^3$ , um novo framework de localização visual sem mapas que utiliza redes de reconstrução 3D feed-forward para realizar inferência online direta a partir de imagens RGB, alcançando alta precisão e robustez em cenas esparsas sem a necessidade de pré-processamento ou armazenamento de representações de cena offline.

Yu Zhang, Muhua Zhu, Yifei Xue, Tie Ji, Yizhen Lao2026-03-10💻 cs

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

O VisualAD é um método de detecção de anomalias zero-shot que dispensa o uso de modelos de linguagem, utilizando apenas tokens aprendíveis e mecanismos de atenção em Vision Transformers para alcançar desempenho de ponta em diversos domínios.

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu2026-03-10💻 cs

← Anterior Próximo →

cs.CV