cs.CV artigos | Gist.Science

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

O artigo apresenta o v-HUB, um novo benchmark para compreensão de humor em vídeos que utiliza vídeos não verbais e anotações ricas para avaliar modelos de linguagem multimodal, demonstrando que a integração de pistas auditivas melhora significativamente a capacidade desses modelos de entender o humor.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

O artigo apresenta o LLaVAShield, um sistema de segurança projetado para dialogos multimodais multi-turno que supera as limitações das abordagens atuais ao lidar com intenções maliciosas ocultas e riscos contextuais acumulados, apoiado pelo novo conjunto de dados MMDS e pelo framework de red teaming MMRT.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun Shen2026-03-11💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Este estudo apresenta um pipeline de aprendizado profundo escalável baseado em uma abordagem U-Net de dupla passagem para extrair o primeiro conjunto de dados nacional de pegada urbana da França (1925-1950) a partir de mapas históricos Scan Histo, superando desafios de ruído e complexidade estilística para alcançar uma precisão global de 73% e liberar os dados e códigos resultantes para pesquisas futuras.

Walid Rabehi, Marion Le Texier, Rémi Lemoy2026-03-11💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Este trabalho apresenta o benchmark NavSpace para avaliar sistematicamente a inteligência espacial de agentes de navegação e propõe o modelo SNav, que supera os agentes existentes tanto no benchmark quanto em testes com robôs reais.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artigo apresenta o DuNe, um novo framework de dupla visão que alcança o estado da arte na segmentação semântica de LiDAR com generalização de domínio sob rótulos ruidosos, superando as limitações dos métodos existentes ao lidar com a estrutura esparsa e irregular de nuvens de pontos.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

O artigo apresenta o RECODE, um framework agêntico que supera as limitações de raciocínio visual dos modelos multimodais ao transformar imagens estruturadas em código executável para verificação e refinamento iterativo, alcançando desempenho superior em benchmarks de raciocínio visual.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Este artigo apresenta um novo framework de compressão de vídeo neural em tempo real que unifica codificação intra e inter em um único modelo adaptativo, superando as limitações de propagação de erro e gerência de novos conteúdos para alcançar uma redução média de 12,1% na taxa BD em comparação com o estado da arte DCVC-RT, mantendo simultaneamente desempenho de codificação e decodificação em tempo real.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

O artigo apresenta o FALCON, um novo paradigma que integra priores espaciais 3D ricos em modelos de fundação diretamente no cabeçalho de ação de modelos Visão-Linguagem-Ação, permitindo raciocínio espacial robusto e desempenho de ponta em tarefas do mundo real sem comprometer o alinhamento linguístico ou exigir reestruturação arquitetural.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Este artigo demonstra que a seleção de um subconjunto adequado de marcos corporais, combinada com técnicas de imputação por splines e o uso do MediaPipe, permite reconhecer sinais isolados da LIBRAS com precisão superior ou comparável aos métodos atuais, reduzindo o tempo de processamento em mais de 5 vezes.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

O artigo apresenta o SynHLMA, um novo framework que gera sequências de manipulação de mãos para objetos articulados a partir de instruções em linguagem natural, utilizando uma representação discreta de interação mão-objeto e uma perda consciente das juntas para garantir a coerência dinâmica e funcionalidade em tarefas como geração, previsão e interpolação de gestos.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

O artigo apresenta o FRIDA, um framework leve e eficiente que utiliza características de modelos de difusão pré-treinados para detectar imagens sintéticas e identificar sua fonte geradora, alcançando resultados de última geração no benchmark GenImage com dados limitados.

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

O artigo propõe o SPAN (Spatial-Projection Alignment), um novo método para detecção 3D monocular que supera as limitações de consistência geométrica dos detectores existentes ao alinhar espacialmente as caixas 3D previstas com os verdadeiros e garantir que sua projeção 2D corresponda às caixas de detecção na imagem, resultando em melhor desempenho e estabilidade de treinamento.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

O artigo apresenta o MediRound, um modelo e um novo conjunto de dados (MR-MedSeg) que habilitam a segmentação de imagens médicas por meio de diálogos de múltiplas rodadas com raciocínio em nível de entidade, superando as limitações de métodos anteriores ao incorporar um mecanismo de julgamento e correção para mitigar erros de propagação.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Este artigo propõe o módulo Adaptive Diversity Cache (ADC), uma solução de treinamento livre e plug-and-play que mitiga o viés de cauda longa na detecção de Interação Humano-Objeto (HOI) ao acumular representações de características diversas e de alta confiança durante a inferência, melhorando significativamente a detecção de categorias raras sem necessidade de ajuste adicional.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

O artigo propõe o V-Attack, um novo método de ataque adversarial para Modelos Visuais-Linguísticos de Grande Escala (LVLMs) que supera as limitações de controle semântico existentes ao manipular diretamente as características de valor (V) desentrelaçadas, resultando em uma taxa de sucesso de ataque significativamente maior ao permitir a alteração precisa de conceitos locais nas imagens.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

O artigo apresenta o UPA-RFAS, um quadro unificado que gera um ataque de patch adversarial universal e transferível para modelos Visão-Linguagem-Ação (VLA), capaz de comprometer robôs em cenários de caixa preta, diferentes arquiteturas e transições simulação-realidade ao manipular representações de recursos, atenção e semântica.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

O artigo apresenta o AFRO, um framework de aprendizado auto-supervisionado que gera representações 3D dinâmicas e conscientes de ações para robótica, superando métodos existentes ao modelar transições causais sem necessidade de supervisão por reconstrução geométrica ou dados de ação, resultando em taxas de sucesso significativamente maiores em tarefas de manipulação.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Este trabalho apresenta o primeiro framework formal para Modelos de Mundo Audiovisuais (AVWM), introduzindo o conjunto de dados AVW-4k e o modelo AV-CDiT para simular dinâmicas ambientais sincronizadas de áudio e vídeo, demonstrando melhorias significativas em tarefas de navegação contínua.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

O artigo AVGGT propõe um esquema de aceleração sem treinamento que, baseado na análise das funções das camadas de atenção global, converte camadas iniciais em atenção de quadro e subsampleia as camadas finais, resultando em ganhos de velocidade de 2x a 10x em modelos como VGGT e $\pi^3$ sem comprometer a precisão em cenários de visão 3D multi-visão densa.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

O artigo apresenta o LiM-YOLO, um detector de navios otimizado para imagens de sensoriamento remoto que, ao deslocar os níveis da pirâmide de características de P3-P5 para P2-P4 e empregar normalização por grupos, resolve desafios de escala e estabilidade de treinamento, alcançando precisão superior com menos parâmetros.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

← Anterior Próximo →