TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

O artigo TALON propõe um framework de aprendizado adaptativo em tempo de teste para descoberta de categorias sob demanda, que supera as limitações de métodos baseados em hash ao atualizar dinamicamente protótipos semânticos e o codificador, evitando a fragmentação de classes e melhorando significativamente a precisão na identificação de novas categorias.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Este artigo propõe uma transição da inteligência artificial reativa para uma baseada em mapas, utilizando um modelo Llama-2 ajustado via LoRA para inferir zonas semânticas e integrar essas informações a um sistema de mapeamento híbrido, resultando em uma navegação a objetivos mais eficiente e com menor exploração redundante em ambientes desconhecidos.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

O artigo apresenta o DSH-Bench, um novo benchmark abrangente para geração de imagens de texto orientada a sujeitos que supera as limitações existentes através de uma taxonomia hierárquica, uma avaliação granular de dificuldade e cenários, e uma nova métrica de consistência de identidade, oferecendo insights diagnósticos cruciais para o aprimoramento de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

O artigo apresenta o SAMoE-VLA, um modelo de visão-linguagem-ação para direção autônoma que substitui os mecanismos de mistura de especialistas baseados em tokens por uma seleção adaptativa ao cenário baseada em representações de visão de pássaro, resultando em desempenho superior e maior estabilidade de segurança.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

O artigo apresenta o UniGround, um método de treinamento livre que supera as limitações dos modelos pré-treinados no Grounding Visual 3D ao utilizar raciocínio visual e geométrico em duas etapas para localizar objetos em qualquer cena, estabelecendo novos recordes de estado da arte em métodos zero-shot sem supervisão 3D.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

O artigo apresenta o MV-Fashion, um grande conjunto de dados de vídeo multi-visão com anotações detalhadas e pares de imagens de roupas vestidas e planas, projetado para superar as limitações existentes em pesquisas de moda e permitir tarefas como provação virtual e estimativa de tamanho.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

O artigo apresenta o MERLIN, um novo framework de treinamento para Modelos de Linguagem Multimodal (MLLMs) no domínio de sinais eletromagnéticos, que supera desafios críticos de escassez de dados e robustez em baixas relações sinal-ruído através da introdução do conjunto de dados EM-100k, da avaliação padronizada EM-Bench e de um modelo otimizado para ambientes desafiadores.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

O artigo apresenta o ALOOD, uma abordagem inovadora que utiliza representações linguísticas de modelos visão-linguagem para alinhar características de detecção LiDAR e tratar a identificação de objetos fora da distribuição como uma tarefa de classificação zero-shot, melhorando a segurança em sistemas de direção autônoma.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

O artigo apresenta o MM-TS, um método que melhora o aprendizado contrastivo multimodal com dados de cauda longa ao introduzir agendamentos dinâmicos de temperatura e margem que adaptam as forças de atração e repulsão com base na distribuição local das amostras, unificando as abordagens InfoNCE e de margem máxima para alcançar resultados state-of-the-art em diversos conjuntos de dados de imagem e vídeo.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Este estudo propõe duas estratégias de fusão multimodal, RGIF e RGMAF, que combinam registro espacial e mecanismos de atenção ponderados por confiabilidade para superar as limitações de sensores heterogêneos e melhorar significativamente a detecção de veículos aéreos não tripulados (UAVs) em ambientes complexos.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

O artigo apresenta o Video2LoRA, um framework escalável e eficiente que utiliza uma hiper-rede leve para prever pesos LoRA personalizados a partir de vídeos de referência, permitindo a geração de vídeos semanticamente alinhados com alta generalização e sem necessidade de treinamento adicional por condição.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

O artigo apresenta o SAVE, um método de aprendizado de representação de vídeo que supera os atuais métodos de ponta ao incorporar uma ramificação dedicada para processar o conteúdo de fala e utilizar o soft-ALBEF para alinhamento precoce entre visão e áudio, resultando em melhorias significativas em cinco benchmarks de recuperação vídeo-texto.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs