cs.CV artigos | Gist.Science

Local-Global Prompt Learning via Sparse Optimal Transport

O artigo apresenta o SOT-GLP, um método de aprendizado de prompts que combina alinhamento global e local utilizando transporte ótimo esparso para particionar regiões visuais salientes entre prompts específicos de classe, alcançando desempenho superior em classificação com poucos exemplos e detecção de dados fora de distribuição ao preservar a geometria nativa do modelo CLIP.

Deniz Kizaro\u{g}lu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel2026-03-10💻 cs

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

O artigo apresenta o $\Delta$ VLA, um modelo de Visão-Linguagem-Ação que supera as abordagens preditivas tradicionais ao gerar ações baseadas na variação do conhecimento do mundo em relação a um prior explícito, utilizando um extrator de prior, quantização latente e atenção condicional para alcançar desempenho superior e maior eficiência em tarefas robóticas.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

Este trabalho apresenta o UniDiffDA, um quadro analítico unificado que decompõe métodos de aumento de dados baseados em difusão em três componentes principais, permitindo uma avaliação sistemática e justa de suas estratégias em tarefas de classificação com poucos dados, além de oferecer insights práticos e garantir reprodutibilidade através da reimplantação de todos os métodos em uma base de código comum.

Zekun Li, Yinghuan Shi, Yang Gao, Dong Xu2026-03-10💻 cs

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

O artigo propõe o framework Adaptive Manifold Prototypes (AMP), que utiliza otimização riemanniana na variedade de Stiefel para representar protótipos de classe como bases ortonormais, mitigando o colapso de protótipos e melhorando simultaneamente a precisão de classificação e a fidelidade causal em tarefas de reconhecimento fino.

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng2026-03-10💻 cs

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Este estudo apresenta um modelo de fluxo retificado que gera previsões realistas de ressonância magnética cerebral pós-tratamento para pacientes com glioma, utilizando dados pré-terapêuticos e mapas de dose de radioterapia para permitir simulações contrafactuais e otimização do planejamento terapêutico com alta fidelidade e velocidade de inferência.

Selena Huisman, Nordin Belkacemi, Vera Keil, Joost Verhoeff, Szabolcs David2026-03-10💻 cs

Real-Time Drone Detection in Event Cameras via Per-Pixel Frequency Analysis

O artigo propõe o método DDHF, que utiliza a Transformada de Fourier Discreta Não Uniforme (NDFT) para analisar a frequência temporal por pixel em câmeras de eventos, permitindo a detecção e localização em tempo real de drones com maior precisão e menor latência do que abordagens baseadas em deep learning como o YOLO.

Michael Bezick, Majid Sahin2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

O artigo apresenta o AULLM++, um framework baseado em Modelos de Linguagem Grande (LLMs) que supera as limitações de métodos anteriores na detecção de Unidades de Ação (AU) de microexpressões ao integrar evidências visuais multigranulares e modelagem estrutural de relações entre AUs para alcançar desempenho superior e melhor generalização.

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

O artigo apresenta o StructBiHOI, um framework inovador que utiliza modelagem de articulação estruturada com um denoiser baseado em Mamba para gerar interações bimanuais mão-objeto de longo horizonte, superando desafios de estabilidade temporal e coordenação complexa ao separar o planejamento de juntas de longo prazo do refinamento de poses em nível de quadro.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

O artigo apresenta o SPIRAL, um framework de malha fechada que utiliza agentes de planejamento e reflexão iterativa para aprimorar a geração de vídeos de longo prazo condicionados a ações semânticas, superando as limitações de consistência temporal e alinhamento semântico dos modelos existentes.

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

O artigo propõe o framework GRACE, uma estratégia cíclica de "Crescer, Avaliar e Comprimir" que gerencia adaptativamente a capacidade do modelo no Aprendizado Incremental de Classes, alcançando desempenho de ponta enquanto reduz a pegada de memória em até 73% ao evitar o crescimento descontrolado de parâmetros.

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

Information Maximization for Long-Tailed Semi-Supervised Domain Generalization

O artigo propõe o IMaX, um método simples e eficaz baseado no princípio de maximização de informação mútua que, ao integrar um objetivo entrópico α, supera as limitações de distribuições de classe de cauda longa em cenários de generalização de domínio semi-supervisionada, melhorando consistentemente o desempenho de técnicas existentes.

Leo Fillioux, Omprakash Chakraborty, Quentin Gopée, Pierre Marza, Paul-Henry Cournède, Stergios Christodoulidis, Maria Vakalopoulou, Ismail Ben Ayed, Jose Dolz2026-03-10💻 cs

Can Vision-Language Models Solve the Shell Game?

O artigo apresenta o VET-Bench, um teste diagnóstico que revela as limitações atuais dos modelos de visão e linguagem no rastreamento de entidades, e propõe o método SGCoT, que alcança mais de 90% de precisão ao gerar trajetórias de objetos como estados intermediários explícitos.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

Alfa: Attentive Low-Rank Filter Adaptation for Structure-Aware Cross-Domain Personalized Gaze Estimation

O artigo apresenta o Alfa, um método de adaptação de filtros de baixo posto com mecanismo de atenção que repondera padrões semânticos em modelos de estimativa de olhar pré-treinados para realizar personalização eficiente no momento do teste, superando técnicas existentes em benchmarks cruzados e demonstrando aplicabilidade em outros domínios além da visão computacional.

He-Yen Hsieh, Wei-Te Mark Ting, H. T. Kung2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

O artigo apresenta o X-AVDT, um detector de deepfakes robusto que explora mecanismos de atenção cruzada interna dos geradores para alinhar áudio e vídeo, alcançando desempenho superior e generalização em um novo conjunto de dados multimodal (MMDF) que abrange diversas tecnologias de síntese.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

O artigo propõe o Visual Self-Fulfilling Alignment (VSFA), um método de ajuste fino que utiliza imagens relacionadas a ameaças em tarefas neutras para moldar implicitamente personas orientadas à segurança em modelos de linguagem multimodal, reduzindo ataques e melhorando a qualidade das respostas sem a necessidade de rótulos explícitos de segurança.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

O artigo apresenta o Spherical-GOF, um novo framework de renderização panorâmica baseado em Gaussian Opacity Fields que opera diretamente no espaço esférico para superar as distorções geométricas das adaptações convencionais, alcançando reconstruções 3D com qualidade fotométrica competitiva e consistência geométrica superior em benchmarks sintéticos e no novo conjunto de dados real OmniRob.

Zhe Yang, Guoqiang Zhao, Sheng Wu, Kai Luo, Kailun Yang2026-03-10💻 cs

OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

O artigo apresenta o OccTrack360, um novo benchmark para rastreamento de ocupação panorâmica 4D a partir de câmeras de visão surround com lentes fish-eye, juntamente com o método FoSOcc, que aborda desafios específicos de projeção esférica e localização em voxel para melhorar a consistência temporal e espacial em ambientes dinâmicos.

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

O artigo apresenta o "Interactive World Simulator", um framework que utiliza modelos de consistência para criar simulações interativas rápidas e fisicamente consistentes a partir de dados moderados, permitindo o treinamento e avaliação escaláveis de políticas robóticas com desempenho comparável ao real.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Online Sparse Synthetic Aperture Radar Imaging

O artigo propõe o algoritmo Online FISTA, um método de reconstrução online de imagens de Radar de Abertura Sintética (SAR) que utiliza codificação esparsa para atualizar recursivamente os dados de armazenamento, permitindo processamento eficiente em drones autônomos e facilitando tarefas downstream como reconhecimento automático de alvos.

Conor Flynn, Radoslav Ivanov, Birsen Yazici2026-03-10💻 cs

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

O artigo apresenta o DualFlexKAN (DFKAN), uma arquitetura inovadora de redes Kolmogorov-Arnold que, ao empregar um mecanismo de estágio duplo com controle independente de transformações e ativações, supera as limitações de escalabilidade e rigidez das KANs tradicionais, oferecendo maior precisão, eficiência computacional e adaptabilidade para tarefas científicas com significativamente menos parâmetros.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

← Anterior Próximo →

cs.CV