cs.CV artigos | Gist.Science

Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

Este artigo apresenta um quadro unificado para a navegação aérea visão-linguagem que permite a UAVs navegar em ambientes urbanos complexos baseando-se exclusivamente em instruções de linguagem natural e observações monoculares RGB, alcançando desempenho superior através de uma abordagem de previsão de próximo token que otimiza conjuntamente a percepção espacial, o raciocínio de trajetória e a previsão de ações.

Huilin Xu, Zhuoyang Liu, Yixiang Luomei + 1 more2026-02-26🤖 cs.AI

KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification

Este artigo apresenta o KD-OCT, um novo framework de distilação de conhecimento que comprime um modelo ConvNeXtV2-Large pesado em um modelo EfficientNet-B2 leve, mantendo desempenho diagnóstico clínico de alta precisão para a classificação de OCT retiniano e permitindo a implantação em tempo real para triagem de degeneração macular relacionada à idade.

Erfan Nourbakhsh, Nasrin Sanjari, Ali Nourbakhsh2026-02-26🤖 cs.AI

VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding

Este artigo apresenta o VULCA-Bench, um benchmark multicultural de arte e crítica que avalia a compreensão cultural de Modelos Visuais-Linguísticos através de um framework de cinco camadas, indo além da percepção visual superficial para abranger interpretações filosóficas e estéticas em oito tradições culturais.

Haorui Yu, Diji Yang, Hang He + 2 more2026-02-26💬 cs.CL

FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures

O artigo apresenta o FigEx2, um framework visual-condicionado que localiza e gera legendas para painéis individuais em figuras compostas científicas, utilizando um módulo de fusão gateado à prova de ruído e uma estratégia de otimização em estágios com aprendizado por reforço para alcançar alto desempenho e transferência zero-shot em diversos domínios científicos.

Jifeng Song, Arun Das, Pan Wang + 3 more2026-02-26💬 cs.CL

Pay Attention to Where You Looked

Este artigo propõe um mecanismo de ponderação de câmeras que ajusta a importância das vistas de entrada com base na sua relevância para a vista alvo, utilizando esquemas determinísticos ou baseados em atenção cruzada para melhorar a qualidade e a precisão da síntese de novas vistas em cenários com poucas amostras.

Alex Berian, JhihYang Wu, Daniel Brignac + 2 more2026-02-26💻 cs

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

O artigo apresenta o DenseGRPO, um novo framework que alinha a preferência humana em modelos de fluxo para geração de imagens por meio de recompensas densas que avaliam contribuições passo a passo e de um esquema adaptativo que calibra o espaço de exploração, superando assim o problema de recompensas esparsas e melhorando o treinamento.

Haoyou Deng, Keyu Yan, Chaojie Mao + 4 more2026-02-26💻 cs

Rectifying Geometry-Induced Similarity Distortions for Real-World Aerial-Ground Person Re-Identification

Este artigo propõe o método GIQT, que corrige as distorções de similaridade induzidas pela geometria extrema em re-identificação de pessoas aéreo-terrestre ao adaptar o cálculo de similaridade e gerar prompts condicionados à geometria da câmera, melhorando a robustez com baixo custo computacional.

Kailash A. Hambarde, Hugo Proença2026-02-26💻 cs

TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs

O artigo apresenta o TimeBlind, um benchmark diagnóstico que revela a incapacidade dos atuais Modelos de Linguagem Multimodal de Grande Escala (MLLMs) de realizar raciocínio temporal genuíno, evidenciando sua dependência de atalhos visuais estáticos em vez de compreender a lógica dinâmica temporal.

Baiqi Li, Kangyi Zhao, Ce Zhang + 3 more2026-02-26🤖 cs.AI

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

O artigo apresenta o LatentLens, um método interpretável que mapeia representações latentes de tokens visuais em descrições naturais ao compará-las com um corpus textual, demonstrando que a maioria desses tokens é altamente interpretável em todas as camadas de Modelos de Linguagem Multimodais e superando as limitações de técnicas existentes como o LogitLens.

Benno Krojer, Shravan Nayak, Oscar Mañas + 4 more2026-02-26🤖 cs.AI

Enhancing Multi-Image Understanding through Delimiter Token Scaling

O artigo propõe uma abordagem que escala os estados ocultos dos tokens delimitadores em Modelos de Linguagem e Visão (LVLMs) para mitigar o vazamento de informações entre imagens, melhorando significativamente o raciocínio em tarefas de múltiplas imagens e documentos sem custos adicionais de treinamento ou inferência.

Minyoung Lee, Yeji Park, Dongjun Hwang + 3 more2026-02-26💻 cs

HetroD: A High-Fidelity Drone Dataset and Benchmark for Autonomous Driving in Heterogeneous Traffic

O artigo apresenta o HetroD, um conjunto de dados e benchmark de alta fidelidade baseado em drones que aborda os desafios da condução autónoma em tráfego heterogéneo dominado por utilizadores vulneráveis da estrada, fornecendo trajetórias detalhadas e demonstrando que os modelos atuais têm dificuldades significativas em prever e planear manobras não estruturadas nestes cenários complexos.

Yu-Hsiang Chen, Wei-Jer Chang, Christian Kotulla + 7 more2026-02-26💻 cs

TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection

O artigo apresenta o TIPS, uma abordagem de detecção de anomalias em cenários zero-shot que utiliza um modelo de visão-linguagem treinado com objetivos espacialmente conscientes e prompts desacoplados para superar as limitações de alinhamento e sensibilidade do CLIP, alcançando melhor desempenho em detecção e localização sem depender de módulos auxiliares complexos.

Alireza Salehi, Ehsan Karami, Sepehr Noey + 4 more2026-02-26💻 cs

Progressive Checkerboards for Autoregressive Multiscale Image Generation

Este trabalho propõe um método de geração de imagens autoregressiva multiescala baseado em tabuleiros de xadrez progressivos, que equilibra amostragem paralela e condicionamento serial para alcançar desempenho competitivo no ImageNet com menos etapas de amostragem.

David Eigen2026-02-26💻 cs

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

O V-Retrver é um framework de recuperação multimodal baseado em agentes que supera as limitações dos métodos atuais ao permitir que modelos de linguagem grandes realizem raciocínio intercalado, alternando entre geração de hipóteses e verificação visual ativa por meio de ferramentas externas, resultando em ganhos significativos de precisão e confiabilidade.

Dongyang Chen, Chaoyang Wang, Dezhao Su + 6 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Este estudo demonstra que, embora os modelos de fundação apresentem sensibilidade superior na detecção de lesões intestinais em TC abdominal, sua especificidade é severamente comprometida pela heterogeneidade de patologias negativas (como lesões de órgãos sólidos), indicando que a adaptação por meio de treinamento específico é necessária antes da implementação clínica.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

Este artigo propõe um framework de decomposição tensorial multi-visão que utiliza embeddings do TimeSformer para analisar vídeos de cruzamentos ferroviários, revelando que a localização geográfica é um determinante mais forte dos padrões comportamentais dos motoristas do que o horário do dia e permitindo a identificação de assinaturas comportamentais distintas para intervenções de segurança direcionadas.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG

MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation

O MALLVI é um framework de múltiplos agentes baseado em modelos de linguagem e visão que utiliza feedback em loop fechado e agentes especializados para coordenar a percepção, o raciocínio e a recuperação de erros, permitindo manipulação robótica generalizada e bem-sucedida em tarefas zero-shot.

Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani + 3 more2026-02-26🤖 cs.AI

Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

Este artigo apresenta o PixTrace e o CopyNCE, duas inovações que utilizam o rastreamento explícito de coordenadas de pixels e uma perda de contraste geometricamente guiada para melhorar a detecção de cópias em imagens, alcançando desempenho superior e maior interpretabilidade em comparação com métodos existentes.

Yichen Lu, Siwei Nie, Minlong Lu + 3 more2026-02-26🤖 cs.AI

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

O artigo propõe o DCAG, um método sem treinamento que controla a intensidade de edição em modelos Diffusion Transformer manipulando simultaneamente os canais de Chave e Valor da atenção, resultando em maior precisão e fidelidade em tarefas de edição de imagem.

Guandong Li2026-02-26🤖 cs.AI

Hyperbolic Busemann Neural Networks

Este trabalho apresenta as Redes Neurais Busemann Hiperbólicas (HBNN), que elevam componentes fundamentais como regressão logística multinomial e camadas totalmente conectadas para o espaço hiperbólico usando funções de Busemann, oferecendo uma interpretação unificada e demonstrando melhorias em eficácia e eficiência em diversas tarefas de aprendizado de máquina.

Ziheng Chen, Bernhard Schölkopf, Nicu Sebe2026-02-26🤖 cs.AI

← Anterior Próximo →