cs.CV artigos | Gist.Science

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

O DeepEyes é um modelo de linguagem visual que utiliza aprendizado por reforço para aprender a "pensar com imagens" de forma nativa, integrando ativamente a percepção visual ao raciocínio sem necessidade de dados de treinamento pré-coletados, resultando em melhorias significativas em tarefas de percepção, raciocínio e redução de alucinações.

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

O artigo apresenta o GradPCA, um método de detecção de dados fora de distribuição (OOD) que aproveita a estrutura de baixo posto dos gradientes induzida pelo alinhamento do Kernel Tangente Neural (NTK) para alcançar desempenho superior e consistente em benchmarks de classificação de imagens, apoiado por uma análise teórica sobre as propriedades do espaço de características.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

Este artigo apresenta o DTR, uma defesa inovadora em tempo de inferência que mitiga ataques de jailbreak multimodal em modelos visão-linguagem ao otimizar dinamicamente os pesos dos tokens visuais nos caches de chave-valor, melhorando a robustez sem comprometer o desempenho em tarefas benignas.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

O artigo apresenta o Seek-CAD, um método pioneiro de geração de modelos CAD paramétricos 3D que utiliza o modelo de linguagem aberto DeepSeek-R1 com um mecanismo de auto-refinamento baseado em feedback visual e raciocínio encadeado, dispensando o treinamento e validando sua eficácia através de um novo dataset estruturado.

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

Este artigo propõe funções de kernel probabilísticas baseadas em projeções determinísticas e ângulos de referência para testes de ângulo em espaços de alta dimensão, demonstrando superioridade teórica e experimental em relação aos métodos gaussianos e alcançando um aumento de 2,5 a 3 vezes na taxa de consultas por segundo (QPS) em comparação com o algoritmo HNSW para busca aproximada de vizinhos mais próximos.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

O artigo apresenta o Point-MoE, uma arquitetura baseada em Mistura de Especialistas que permite o treinamento conjunto em larga escala de múltiplos conjuntos de dados heterogêneos para segmentação semântica 3D, superando métodos anteriores ao aprender a selecionar especialistas especializados sem a necessidade de rótulos de dataset durante o treinamento ou inferência.

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

O artigo apresenta o SenseFlow, uma abordagem que supera as limitações de convergência da distilação de correspondência de distribuição em modelos de texto para imagem baseados em fluxo de grande escala, como SD 3.5 e FLUX, por meio da introdução de alinhamento implícito de distribuição e orientação intra-segmento, resultando em desempenho superior tanto para modelos de difusão quanto de correspondência de fluxo.

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Este artigo apresenta o FaceCoT, o primeiro conjunto de dados de grande escala com raciocínio passo a passo (Chain-of-Thought) para detecção de fraudes faciais, e uma estratégia de aprendizado progressivo que, ao integrar multimodalidade e raciocínio linguístico, supera os métodos atuais em robustez e generalização.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

O artigo apresenta o OmniSpatial, um benchmark abrangente baseado na psicologia cognitiva com mais de 8.400 pares de perguntas e respostas para avaliar e melhorar o raciocínio espacial de modelos de visão e linguagem, demonstrando suas limitações atuais e propondo estratégias como PointGraph e SpatialCoT para superá-las.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

O artigo apresenta o UniCUE, um framework unificado pioneiro que gera fala diretamente a partir de vídeos de Linguagem de Sinais Visual (Cued Speech) em mandarim sem depender de texto intermediário, integrando tarefas de reconhecimento e geração para superar as limitações de pipelines existentes e validado com um novo conjunto de dados em larga escala.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Este estudo demonstra que métodos baseados em características, especificamente o Nearest Class Mean (NCM) com recursos pré-treinados no ImageNet, superam os métodos de detecção de distribuição fora do padrão (OOD) existentes na identificação de animais da "Grande Cincão" africana, melhorando significativamente a capacidade de generalização e reduzindo a confiança excessiva em classes desconhecidas.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

O artigo propõe uma abordagem de meta-aprendizado chamada "Meta-Adaptive Prompt Distillation" que supera as limitações da aprendizagem em contexto (ICL) em Modelos Multimodais Grandes (LMMs) ao distilar características visuais relevantes em prompts suaves adaptáveis, alcançando desempenho superior em tarefas de Visual Question Answering com poucos exemplos.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

O artigo apresenta o BitVLA, um modelo nativo de 1-bit para manipulação robótica que combina um LLM pré-treinado com uma estratégia de quantização e destilação no backbone visual, alcançando desempenho comparável a modelos de precisão total enquanto reduz a memória em 11 vezes e a latência em 4,4 vezes para implantação em dispositivos de borda.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

O artigo apresenta o PD $^{2}$ GS, um novo framework não supervisionado que utiliza Gaussian Splatting para realizar a reconstrução, o desacoplamento por partes e o controle contínuo de objetos articulados através de um campo gaussiano canônico compartilhado e deformações contínuas, superando métodos anteriores em precisão geométrica e cinemática e introduzindo o conjunto de dados RS-Art para avaliação em cenários reais.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

O artigo apresenta o VITA, um método de aprendizado de funções de valor *zero-shot* que supera as limitações de raciocínio temporal e generalização dos Modelos Visão-Linguagem congelados através de adaptação em tempo de teste e amostragem baseada em dissimilaridade, demonstrando superioridade em tarefas de manipulação robótica e no aprendizado por reforço offline.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

O artigo apresenta o VINCIE, um modelo baseado em transformador de difusão treinado exclusivamente em vídeos que, ao aprender diretamente de sequências multimodais anotadas, alcança resultados state-of-the-art em edição de imagens em contexto e demonstra capacidades promissoras em composição de conceitos, geração de histórias e edição em cadeia.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Este artigo apresenta o NIC-RobustBench, um toolkit de código aberto que preenche uma lacuna na avaliação de robustez adversarial para compressão de imagem neural, oferecendo um framework abrangente para testar múltiplos ataques e defesas, analisar métricas de taxa-distorção e avaliar o impacto em tarefas subsequentes.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

O artigo propõe o framework ConCM, que aborda o aprendizado incremental de classes com poucos exemplos através de uma calibração de protótipos baseada em memória e um ajuste dinâmico de estrutura, garantindo consistência de características e estrutura para superar conflitos de conhecimento e alcançar desempenho superior em benchmarks de grande escala.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Este trabalho apresenta o VisionDrop, um método de redução de tokens visuais sem treinamento que supera as limitações da dependência de sinais textuais ao identificar e preservar tokens informativos exclusivamente com base na atenção intra-modal, resultando em ganhos significativos de eficiência computacional com mínima perda de desempenho em Modelos Visuais-Linguísticos.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

O artigo apresenta o EchoMimicV3, um framework eficiente de apenas 1,3 bilhão de parâmetros que unifica a animação humana multimodal e multitarefa através de uma arquitetura inovadora e estratégias de treinamento avançadas, superando as limitações de velocidade e custo computacional dos modelos de vídeo em larga escala.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

← Anterior Próximo →

cs.CV