cs.CV artigos | Gist.Science

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

O artigo apresenta o MARRS, um novo framework que utiliza representações contínuas e um modelo autoregressivo baseado em unidades corporais distintas para sintetizar reações humanas coordenadas e de alta qualidade, superando as limitações de perda de informação e complexidade computacional dos métodos anteriores baseados em quantização vetorial.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong Liu2026-03-11💻 cs

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Este artigo apresenta a primeira revisão sistemática sobre a integração de modelos fundamentais na robótica de serviços móveis, analisando como essas tecnologias superam desafios técnicos e éticos para habilitar robôs mais adaptáveis, seguros e socialmente responsivos em ambientes reais.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

O artigo apresenta o EasyText, um framework baseado em Diffusion Transformer que, utilizando codificação de posicionamento de caracteres e interpolação, permite a renderização precisa e controlada de texto multilíngue, apoiado por um novo conjunto de dados sintéticos em larga escala.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren Song2026-03-11💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

O artigo apresenta o SpikeSMOKE, uma arquitetura de redes neurais de pulso (SNN) para detecção de objetos 3D monoculares que introduz um mecanismo de codificação de portão cruzado (CSGC) e blocos residuais leves para superar a perda de informação das SNNs, resultando em maior precisão e consumo energético drasticamente reduzido em comparação com métodos tradicionais.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

O artigo apresenta o FieldLVLM, um novo framework que aprimora a compreensão de modelos de linguagem-visão grandes sobre dados de campos científicos, como escoamentos, por meio de uma estratégia de geração de linguagem orientada a características físicas e um ajuste de modelo multimodal com compressão de dados, superando métodos existentes em benchmarks especializados.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

O artigo propõe o MGCR-Net, uma rede de reconstrução visão-linguagem condicionada a grafos multimodais que utiliza modelos de linguagem grandes (MLLM) para gerar dados textuais e integrar características visuais e textuais através de atenção gráfica e transformadores, alcançando desempenho superior na detecção de mudanças em imagens de sensoriamento remoto.

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

O artigo propõe o método SFDA-PFT, uma abordagem leve de adaptação de domínio sem fonte que utiliza tradução de características no espaço latente para personalizar modelos de reconhecimento de expressões faciais usando apenas dados de alvo neutros, superando as limitações de métodos existentes e evitando a geração instável de imagens.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

O artigo apresenta o EgoCross, um novo benchmark abrangente para avaliar a generalização de modelos de linguagem multimodal em cenários de vídeo egocêntrico que transcendem atividades cotidianas, cobrindo domínios desafiadores como cirurgia, indústria, esportes extremos e perspectiva animal.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

O artigo apresenta o YOPO, um método de detecção baseado em transformers que unifica a detecção 2D e a estimativa de pose 9D de objetos em nível de categoria a partir de imagens RGB monoculares em uma única etapa, alcançando desempenho superior ao estado da arte sem depender de dados adicionais como profundidade ou modelos CAD.

Hakjin Lee, Junghoon Seo, Jaehoon Sim2026-03-11💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

O artigo apresenta o CoRe-GS, um framework de Gaussian Splatting que otimiza seletivamente apenas as regiões de interesse (POIs) em uma abordagem de "grossa para refinada", reduzindo drasticamente o tempo de treinamento e melhorando a qualidade da reconstrução para aplicações robóticas críticas, ao mesmo tempo que mitiga artefatos visuais sem necessidade de rasterização de máscaras.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

O artigo apresenta o VocSegMRI, um framework de aprendizado multimodal que integra vídeo, áudio e sinais fonológicos para alcançar a segmentação de precisão das estruturas articulatórias em ressonância magnética em tempo real, superando os métodos existentes com uma pontuação Dice de 0,95.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs

Kuramoto Orientation Diffusion Models

Este artigo propõe um modelo generativo baseado em pontuação que utiliza dinâmicas estocásticas de Kuramoto em domínios periódicos para capturar padrões direcionais coerentes em imagens ricas em orientação, como impressões digitais e texturas, superando as limitações dos métodos de difusão euclidiana isotrópica ao modelar a sincronização e dessincronização de fases.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Este artigo apresenta o Sistema de Câmera de Imagem de Desova e Larvas de Coral (CSLICS), uma solução automatizada de baixo custo que utiliza visão computacional para contar desovas de coral com precisão, reduzindo drasticamente o trabalho manual e facilitando a restauração de recifes em grande escala.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett Raine2026-03-11💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Este artigo propõe um método não supervisionado para recuperar os mecanismos de codificação e decodificação de conceitos em redes de visão profunda, identificando pares de direções latentes que permitem interpretar, depurar e intervir no comportamento do modelo sem depender de reconstrução de características.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios Zarpalas2026-03-11💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

O artigo apresenta o VSSFlow, um framework unificado baseado em fluxo que, através de um mecanismo de agregação de condições disjuntas e aprendizado conjunto, supera os métodos específicos de domínio ao gerar simultaneamente som e fala a partir de vídeos.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

O artigo apresenta o v-HUB, um novo benchmark para compreensão de humor em vídeos que utiliza vídeos não verbais e anotações ricas para avaliar modelos de linguagem multimodal, demonstrando que a integração de pistas auditivas melhora significativamente a capacidade desses modelos de entender o humor.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

O artigo apresenta o LLaVAShield, um sistema de segurança projetado para dialogos multimodais multi-turno que supera as limitações das abordagens atuais ao lidar com intenções maliciosas ocultas e riscos contextuais acumulados, apoiado pelo novo conjunto de dados MMDS e pelo framework de red teaming MMRT.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun Shen2026-03-11💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Este estudo apresenta um pipeline de aprendizado profundo escalável baseado em uma abordagem U-Net de dupla passagem para extrair o primeiro conjunto de dados nacional de pegada urbana da França (1925-1950) a partir de mapas históricos Scan Histo, superando desafios de ruído e complexidade estilística para alcançar uma precisão global de 73% e liberar os dados e códigos resultantes para pesquisas futuras.

Walid Rabehi, Marion Le Texier, Rémi Lemoy2026-03-11💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Este trabalho apresenta o benchmark NavSpace para avaliar sistematicamente a inteligência espacial de agentes de navegação e propõe o modelo SNav, que supera os agentes existentes tanto no benchmark quanto em testes com robôs reais.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artigo apresenta o DuNe, um novo framework de dupla visão que alcança o estado da arte na segmentação semântica de LiDAR com generalização de domínio sob rótulos ruidosos, superando as limitações dos métodos existentes ao lidar com a estrutura esparsa e irregular de nuvens de pontos.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

← Anterior Próximo →