cs.CV artigos | Gist.Science

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

O artigo propõe o SSL-SLR, um framework de aprendizado auto-supervisionado para reconhecimento de língua de sinais que supera as limitações dos métodos contrastivos tradicionais ao introduzir pares negativos livres e uma nova técnica de aumento de dados, resultando em representações mais discriminativas e desempenho superior em diversas tarefas.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

O artigo apresenta o RED, uma rede de desembaçamento de movimento guiada por eventos que utiliza uma estratégia de perturbação robusta e um mecanismo de desentrelaçamento específico de modalidades para superar a subnotificação de eventos e alcançar desempenho superior em condições reais.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

O artigo propõe o Kernel VICReg, um novo framework de aprendizado auto-supervisionado que leva o objetivo VICReg para um Espaço de Hilbert de Reprodutor de Kernel (RKHS) para capturar dependências não lineares e melhorar a representação de dados sem rótulos, demonstrando ganhos consistentes sobre métodos euclidianos em diversos conjuntos de dados.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

O artigo apresenta o C²Prompt, um novo método para aprendizado contínuo federado que mitiga o esquecimento temporal e espacial ao aprimorar a coerência do conhecimento entre classes por meio de um mecanismo de compensação de distribuição local e um esquema de agregação de prompts consciente das classes, alcançando desempenho superior em diversos benchmarks.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Este trabalho propõe uma abordagem baseada em visão para exploração semântica orientada a decisões em robôs com pernas, que utiliza arbitragem de evidências semânticas calibradas por confiança, memória topológica de crescimento controlado e seleção de subobjetivos baseada em utilidade semântica para transformar observações ruidosas em decisões de exploração estáveis e executáveis sem depender de reconstrução geométrica densa.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

O artigo apresenta o DeCLIP, um framework eficiente e sem necessidade de replay que decopla as representações do CLIP por meio de prompts específicos para cada classe e de uma estratégia de temperamento de similaridade adaptativa, permitindo assim o aprendizado incremental multi-rótulo com alta precisão e mitigação do esquecimento catastrófico.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

Beyond Flat Unknown Labels in Open-World Object Detection

O artigo apresenta o BOUND, um detector de objetos para cenários de mundo aberto que supera as limitações das abordagens atuais ao inferir categorias grosseiras para objetos desconhecidos em vez de apenas rotulá-los genericamente, permitindo assim uma tomada de decisão mais informada e estruturada.

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

O artigo apresenta o LikePhys, um método livre de treinamento que avalia a compreensão de física intuitiva em modelos de difusão de vídeo utilizando uma métrica de preferência de plausibilidade, demonstrando forte alinhamento com preferências humanas e revelando que, apesar das dificuldades em dinâmicas complexas, a compreensão física melhora com o aumento da capacidade do modelo e das configurações de inferência.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

O artigo apresenta o CanvasMAR, um modelo autoregressivo inovador para previsão de vídeo que utiliza uma "tela" global desfocada e um currículo de amostragem do fácil ao difícil para gerar vídeos de alta fidelidade com menos etapas de amostragem, superando métodos anteriores e rivalizando com abordagens baseadas em difusão.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

O artigo apresenta o 3DThinker, um framework inovador que permite a modelos de linguagem e visão raciocinar sobre relações espaciais 3D a partir de vistas limitadas, alinhando latentes 3D gerados durante o raciocínio com modelos fundacionais sem a necessidade de dados 3D explicitamente rotulados.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

O artigo apresenta o AURASeg, um framework de segmentação de áreas navegáveis para robôs embarcados que utiliza refinamento de bordas assistido por resíduos e upsampling guiado por atenção para superar desafios de precisão e eficiência em ambientes variados, validando seu desempenho em múltiplos conjuntos de dados e em dispositivos de borda como o Jetson Nano.

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

Culture in Action: Evaluating Text-to-Image Models through Social Activities

O artigo apresenta o CULTIVate, um novo benchmark que avalia a fidelidade cultural de modelos de texto para imagem ao analisar atividades sociais em 16 países, revelando disparidades sistemáticas entre nações do Norte e do Sul Global e propondo métricas que superam as existentes na correlação com julgamentos humanos.

Sina Malakouti, Boqing Gong, Adriana Kovashka2026-03-09💻 cs

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

O artigo propõe um quadro de otimização colaborativa de dupla mecânica que integra o desacoplamento estrutural de viés e o alinhamento global de distribuições para melhorar a justiça inter e intra-grupos em detectores de deepfakes, mantendo a precisão geral de detecção.

Feng Ding, Wenhui Yi, Yunpeng Zhou, Xinan He, Hong Rao, Shu Hu2026-03-09💻 cs

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

O artigo apresenta o LaxMotion, um framework que supera as limitações de generalização dos modelos atuais de geração de movimento humano 3D ao substituir a supervisão precisa de coordenadas por uma abordagem baseada em consistência estrutural e pistas cinemáticas 2D, resultando em movimentos mais diversificados e robustos.

Sheng Liu, Yuanzhi Liang, Sidan Du2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Este artigo propõe um novo quadro de avaliação e a métrica CRT para analisar a "iconicidade multimodal" em modelos de difusão, distinguindo entre o reconhecimento de referências culturais e sua realização (replicação ou reinterpretação), demonstrando que o comportamento desses modelos em contextos culturalmente icônicos depende de fatores como frequência de dados, unicidade textual e popularidade, indo além da simples reprodução de imagens.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

O artigo apresenta o Co-Layout, um novo framework que combina modelos de linguagem grandes (LLMs) com programação inteira baseada em grade para otimizar conjuntamente o layout de interiores e a disposição de móveis, utilizando uma estratégia de otimização de grossa para fina que supera os pipelines de design em duas etapas existentes.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

O artigo apresenta o SPARK, um framework de jailbreak para modelos de texto-para-vídeo que contorna as barreiras de segurança combinando âncoras de cena neutras, gatilhos auditivos latentes e moduladores estilísticos para induzir a geração de vídeos semanticamente inseguros de forma imperceptível.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

O artigo apresenta o MRIQT, um modelo de difusão condicional 3D que utiliza degradação de espaço-K realista e atenção volumétrica para transferir com sucesso a qualidade de imagens de ressonância magnética neonatal de ultra-baixo campo para padrões de alto campo, superando métodos anteriores e garantindo fidelidade anatômica para avaliação clínica confiável.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

O artigo apresenta o FunnyNodules, um conjunto de dados sintético totalmente parametrizado com nódulos pulmonares abstratos e anotações densas que permitem avaliar e desenvolver modelos de IA explicável na medicina ao verificar se as previsões são baseadas nos atributos visuais corretos.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

O artigo apresenta o FireScope, um novo framework baseado em modelos de linguagem visual que utiliza raciocínio passo a passo para prever mapas de risco de incêndio com alta generalização entre continentes, apoiado pelo conjunto de dados e benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

← Anterior Próximo →