Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Este artigo identifica e mitiga a "cegueira linguística" em modelos Visão-Linguagem-Ação (VLA), onde políticas robóticas ignoram instruções contraditórias em favor de pistas visuais, propondo o método IGAR, uma técnica de recalibração de atenção sem treinamento que restaura a fidelidade às instruções sem modificar a arquitetura do modelo.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

MOSIV: Multi-Object System Identification from Videos

O artigo apresenta o MOSIV, um novo framework que resolve o desafio da identificação de sistemas com múltiplos objetos a partir de vídeos, otimizando parâmetros de material contínuos por objeto através de um simulador diferenciável guiado por objetivos geométricos e demonstrando superioridade em precisão e fidelidade de simulação em um novo benchmark sintético.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

O artigo apresenta o StruVis, um novo framework que aprimora a geração de imagens a partir de texto baseada em raciocínio ao utilizar representações visuais estruturadas em texto como estados intermediários, permitindo que modelos de linguagem multimodal percebam a estrutura visual sem a necessidade de gerar imagens intermediárias, o que resulta em melhor desempenho e integração agnóstica a geradores.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Este trabalho aborda a complexidade computacional dos hipercolunas densos em segmentação de imagens, demonstrando que o uso de subamostragem estratificada e aprendizado de conjunto em hipercolunas esparsos melhora significativamente o desempenho em tarefas de baixa disponibilidade de dados, superando a linha de base UNet em 24,53% no conjunto de dados de tumores cerebrais.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

O artigo apresenta o FontUse, uma abordagem centrada em dados que utiliza um pipeline de anotação automatizado para criar um conjunto de dados de 70 mil imagens, permitindo que modelos de geração de imagem aprendam a renderizar tipografia consistente com prompts que especificam estilos de fonte e casos de uso sem necessidade de modificações arquitetônicas.

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

O artigo propõe o GvU, um mecanismo de recompensa intrínseca baseado em alinhamento texto-imagem que utiliza a capacidade de compreensão do modelo para guiar e aprimorar sua própria geração, fechando assim a lacuna entre entendimento e criação em modelos multimodais unificados.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

O artigo apresenta o GenHOI, uma técnica leve que aprimora modelos de geração de vídeo pré-treinados para garantir interações mão-objeto consistentes e fisicamente plausíveis em cenários complexos, utilizando injeção de objetos equilibrada temporalmente e seletiva espacialmente.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

O artigo apresenta o Curious-VLA, um framework que supera a limitação de políticas restritivas em modelos VLA de direção autônoma através de uma estratégia de expansão de trajetórias viáveis e amostragem adaptativa, alcançando resultados state-of-the-art no benchmark Navsim ao desbloquear o potencial exploratório desses modelos.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudo investiga as falhas de Modelos Visuais-Linguísticos (VLMs) em cenários de condução autónoma, identificando que, embora alguns conceitos visuais sejam linearmente codificados, outros dependem de estruturas espaciais implícitas, e que as falhas podem ser classificadas como perceptivas (ausência de codificação linear) ou cognitivas (falha no alinhamento semântico), sendo a capacidade de distinção linear degradada rapidamente com o aumento da distância do objeto.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

O artigo propõe a nova tarefa de Geração de Rosto Falante Emocionalmente Contínuo (EC-TFG) e apresenta o modelo TIE-TFG, que utiliza modelagem de flutuação emocional temporalmente intensiva para sintetizar vídeos realistas onde as expressões faciais mudam continuamente em sincronia com variações emocionais descritas no texto.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

O artigo propõe o FedARKS, um novo framework de aprendizado federado para re-identificação de pessoas que supera as limitações de métodos existentes ao integrar mecanismos de Seleção e Integração de Conhecimento Robusto e Discriminativo, permitindo capturar detalhes locais invariantes ao domínio e ponderar a agregação de modelos com base na qualidade dos clientes.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs