SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

O artigo propõe o SSL-SLR, um framework de aprendizado auto-supervisionado para reconhecimento de língua de sinais que supera as limitações dos métodos contrastivos tradicionais ao introduzir pares negativos livres e uma nova técnica de aumento de dados, resultando em representações mais discriminativas e desempenho superior em diversas tarefas.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

O artigo propõe o Kernel VICReg, um novo framework de aprendizado auto-supervisionado que leva o objetivo VICReg para um Espaço de Hilbert de Reprodutor de Kernel (RKHS) para capturar dependências não lineares e melhorar a representação de dados sem rótulos, demonstrando ganhos consistentes sobre métodos euclidianos em diversos conjuntos de dados.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

O artigo apresenta o C²Prompt, um novo método para aprendizado contínuo federado que mitiga o esquecimento temporal e espacial ao aprimorar a coerência do conhecimento entre classes por meio de um mecanismo de compensação de distribuição local e um esquema de agregação de prompts consciente das classes, alcançando desempenho superior em diversos benchmarks.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Este trabalho propõe uma abordagem baseada em visão para exploração semântica orientada a decisões em robôs com pernas, que utiliza arbitragem de evidências semânticas calibradas por confiança, memória topológica de crescimento controlado e seleção de subobjetivos baseada em utilidade semântica para transformar observações ruidosas em decisões de exploração estáveis e executáveis sem depender de reconstrução geométrica densa.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

O artigo apresenta o DeCLIP, um framework eficiente e sem necessidade de replay que decopla as representações do CLIP por meio de prompts específicos para cada classe e de uma estratégia de temperamento de similaridade adaptativa, permitindo assim o aprendizado incremental multi-rótulo com alta precisão e mitigação do esquecimento catastrófico.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

O artigo apresenta o LikePhys, um método livre de treinamento que avalia a compreensão de física intuitiva em modelos de difusão de vídeo utilizando uma métrica de preferência de plausibilidade, demonstrando forte alinhamento com preferências humanas e revelando que, apesar das dificuldades em dinâmicas complexas, a compreensão física melhora com o aumento da capacidade do modelo e das configurações de inferência.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

O artigo apresenta o 3DThinker, um framework inovador que permite a modelos de linguagem e visão raciocinar sobre relações espaciais 3D a partir de vistas limitadas, alinhando latentes 3D gerados durante o raciocínio com modelos fundacionais sem a necessidade de dados 3D explicitamente rotulados.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

O artigo apresenta o AURASeg, um framework de segmentação de áreas navegáveis para robôs embarcados que utiliza refinamento de bordas assistido por resíduos e upsampling guiado por atenção para superar desafios de precisão e eficiência em ambientes variados, validando seu desempenho em múltiplos conjuntos de dados e em dispositivos de borda como o Jetson Nano.

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Este artigo propõe um novo quadro de avaliação e a métrica CRT para analisar a "iconicidade multimodal" em modelos de difusão, distinguindo entre o reconhecimento de referências culturais e sua realização (replicação ou reinterpretação), demonstrando que o comportamento desses modelos em contextos culturalmente icônicos depende de fatores como frequência de dados, unicidade textual e popularidade, indo além da simples reprodução de imagens.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

O artigo apresenta o Co-Layout, um novo framework que combina modelos de linguagem grandes (LLMs) com programação inteira baseada em grade para otimizar conjuntamente o layout de interiores e a disposição de móveis, utilizando uma estratégia de otimização de grossa para fina que supera os pipelines de design em duas etapas existentes.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

O artigo apresenta o SPARK, um framework de jailbreak para modelos de texto-para-vídeo que contorna as barreiras de segurança combinando âncoras de cena neutras, gatilhos auditivos latentes e moduladores estilísticos para induzir a geração de vídeos semanticamente inseguros de forma imperceptível.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

O artigo apresenta o MRIQT, um modelo de difusão condicional 3D que utiliza degradação de espaço-K realista e atenção volumétrica para transferir com sucesso a qualidade de imagens de ressonância magnética neonatal de ultra-baixo campo para padrões de alto campo, superando métodos anteriores e garantindo fidelidade anatômica para avaliação clínica confiável.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

O artigo apresenta o FireScope, um novo framework baseado em modelos de linguagem visual que utiliza raciocínio passo a passo para prever mapas de risco de incêndio com alta generalização entre continentes, apoiado pelo conjunto de dados e benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG