cs.CV artigos | Gist.Science

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Este artigo apresenta o FaceCoT, o primeiro conjunto de dados de grande escala com raciocínio passo a passo (Chain-of-Thought) para detecção de fraudes faciais, e uma estratégia de aprendizado progressivo que, ao integrar multimodalidade e raciocínio linguístico, supera os métodos atuais em robustez e generalização.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

O artigo apresenta o OmniSpatial, um benchmark abrangente baseado na psicologia cognitiva com mais de 8.400 pares de perguntas e respostas para avaliar e melhorar o raciocínio espacial de modelos de visão e linguagem, demonstrando suas limitações atuais e propondo estratégias como PointGraph e SpatialCoT para superá-las.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

O artigo apresenta o UniCUE, um framework unificado pioneiro que gera fala diretamente a partir de vídeos de Linguagem de Sinais Visual (Cued Speech) em mandarim sem depender de texto intermediário, integrando tarefas de reconhecimento e geração para superar as limitações de pipelines existentes e validado com um novo conjunto de dados em larga escala.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Este estudo demonstra que métodos baseados em características, especificamente o Nearest Class Mean (NCM) com recursos pré-treinados no ImageNet, superam os métodos de detecção de distribuição fora do padrão (OOD) existentes na identificação de animais da "Grande Cincão" africana, melhorando significativamente a capacidade de generalização e reduzindo a confiança excessiva em classes desconhecidas.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

O artigo propõe uma abordagem de meta-aprendizado chamada "Meta-Adaptive Prompt Distillation" que supera as limitações da aprendizagem em contexto (ICL) em Modelos Multimodais Grandes (LMMs) ao distilar características visuais relevantes em prompts suaves adaptáveis, alcançando desempenho superior em tarefas de Visual Question Answering com poucos exemplos.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

O artigo apresenta o BitVLA, um modelo nativo de 1-bit para manipulação robótica que combina um LLM pré-treinado com uma estratégia de quantização e destilação no backbone visual, alcançando desempenho comparável a modelos de precisão total enquanto reduz a memória em 11 vezes e a latência em 4,4 vezes para implantação em dispositivos de borda.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

O artigo apresenta o PD $^{2}$ GS, um novo framework não supervisionado que utiliza Gaussian Splatting para realizar a reconstrução, o desacoplamento por partes e o controle contínuo de objetos articulados através de um campo gaussiano canônico compartilhado e deformações contínuas, superando métodos anteriores em precisão geométrica e cinemática e introduzindo o conjunto de dados RS-Art para avaliação em cenários reais.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

O artigo apresenta o VITA, um método de aprendizado de funções de valor *zero-shot* que supera as limitações de raciocínio temporal e generalização dos Modelos Visão-Linguagem congelados através de adaptação em tempo de teste e amostragem baseada em dissimilaridade, demonstrando superioridade em tarefas de manipulação robótica e no aprendizado por reforço offline.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

O artigo apresenta o VINCIE, um modelo baseado em transformador de difusão treinado exclusivamente em vídeos que, ao aprender diretamente de sequências multimodais anotadas, alcança resultados state-of-the-art em edição de imagens em contexto e demonstra capacidades promissoras em composição de conceitos, geração de histórias e edição em cadeia.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Este artigo apresenta o NIC-RobustBench, um toolkit de código aberto que preenche uma lacuna na avaliação de robustez adversarial para compressão de imagem neural, oferecendo um framework abrangente para testar múltiplos ataques e defesas, analisar métricas de taxa-distorção e avaliar o impacto em tarefas subsequentes.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

O artigo propõe o framework ConCM, que aborda o aprendizado incremental de classes com poucos exemplos através de uma calibração de protótipos baseada em memória e um ajuste dinâmico de estrutura, garantindo consistência de características e estrutura para superar conflitos de conhecimento e alcançar desempenho superior em benchmarks de grande escala.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Este trabalho apresenta o VisionDrop, um método de redução de tokens visuais sem treinamento que supera as limitações da dependência de sinais textuais ao identificar e preservar tokens informativos exclusivamente com base na atenção intra-modal, resultando em ganhos significativos de eficiência computacional com mínima perda de desempenho em Modelos Visuais-Linguísticos.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

O artigo apresenta o EchoMimicV3, um framework eficiente de apenas 1,3 bilhão de parâmetros que unifica a animação humana multimodal e multitarefa através de uma arquitetura inovadora e estratégias de treinamento avançadas, superando as limitações de velocidade e custo computacional dos modelos de vídeo em larga escala.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

O artigo propõe o CLiFT, uma abordagem de renderização neural que representa cenas como "tokens de campo de luz comprimidos", permitindo a síntese de novas visões com qualidade comparável e eficiência computacional adaptável ao ajustar dinamicamente o número de tokens utilizados.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

O artigo apresenta o SeC, um novo framework de segmentação de objetos em vídeo baseado na construção progressiva de conceitos por meio de Modelos Visuais-Linguísticos, que supera os métodos atuais ao introduzir o benchmark SeCVOS e alcançar desempenho superior em cenários complexos.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Este artigo apresenta um framework unificado de gêmeo digital e robótico que integra simulação acelerada e bancadas de teste robóticas do Laboratório de Encontro Espacial de Stanford para validar e verificar o desempenho de sistemas de orientação, navegação e controle em operações de proximidade e voo em formação.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

O artigo apresenta o MonoFusion, um método que reconstroi cenas dinâmicas a partir de vídeos de poucas câmeras ao alinhar reconstruções monoculares independentes, superando as limitações de abordagens anteriores que exigem capturas multiview densas e caras.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Este artigo apresenta o HGTS-Former, uma nova rede Transformer baseada em hipergrafos hierárquicos para análise de séries temporais multivariadas que supera desafios de alta dimensionalidade e interações complexas, demonstrando desempenho superior em diversas tarefas e no reconhecimento de modos localizados de borda (ELM) em fusão nuclear.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Este trabalho propõe um novo método de simulação de Ressonância Magnética que agrupa isocromatos com propriedades idênticas para compartilhar cálculos, resultando em uma aceleração de 3 a 72 vezes em comparação com os métodos convencionais.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Este trabalho propõe o uso de "Causal Delta Embeddings" para representar intervenções de forma invariante ao cenário visual e esparsa em relação às variáveis causais afetadas, demonstrando que essa estratégia melhora significativamente a robustez fora de distribuição (OOD) em tarefas de aprendizado de representação causal sem supervisão adicional.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

← Anterior Próximo →

cs.CV