cs.CV artigos | Gist.Science

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Este artigo identifica e mitiga a "cegueira linguística" em modelos Visão-Linguagem-Ação (VLA), onde políticas robóticas ignoram instruções contraditórias em favor de pistas visuais, propondo o método IGAR, uma técnica de recalibração de atenção sem treinamento que restaura a fidelidade às instruções sem modificar a arquitetura do modelo.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

O artigo apresenta o RepKAN, uma nova arquitetura que combina a eficiência das CNNs com o poder de representação não linear dos KANs para criar um modelo de classificação de imagens de sensoriamento remoto que é ao mesmo tempo de alto desempenho e fisicamente interpretável.

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

O artigo apresenta o EffectMaker, um framework unificado de raciocínio e geração que utiliza um modelo de linguagem multimodal e um transformador de difusão para criar efeitos visuais personalizados e consistentes sem necessidade de ajuste fino por efeito, apoiado pelo novo e extenso conjunto de dados EffectData.

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

O artigo apresenta o MOSIV, um novo framework que resolve o desafio da identificação de sistemas com múltiplos objetos a partir de vídeos, otimizando parâmetros de material contínuos por objeto através de um simulador diferenciável guiado por objetivos geométricos e demonstrando superioridade em precisão e fidelidade de simulação em um novo benchmark sintético.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

O artigo apresenta o ViewFusion, um framework de duas etapas que separa o pré-alinhamento espacial entre múltiplas visões do raciocínio final, utilizando treinamento supervisionado e aprendizado por reforço (GRPO) para melhorar significativamente a precisão em tarefas de raciocínio espacial multiview.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

O artigo apresenta o StruVis, um novo framework que aprimora a geração de imagens a partir de texto baseada em raciocínio ao utilizar representações visuais estruturadas em texto como estados intermediários, permitindo que modelos de linguagem multimodal percebam a estrutura visual sem a necessidade de gerar imagens intermediárias, o que resulta em melhor desempenho e integração agnóstica a geradores.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

O artigo apresenta o OA-SORT, um framework de rastreamento multi-objeto plug-and-play e sem treinamento que introduz módulos de consciência de oclusão para mitigar a confusão de custos posicionais e melhorar a estabilidade da estimativa, demonstrando ganhos significativos em desempenho em diversos conjuntos de dados.

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Este trabalho aborda a complexidade computacional dos hipercolunas densos em segmentação de imagens, demonstrando que o uso de subamostragem estratificada e aprendizado de conjunto em hipercolunas esparsos melhora significativamente o desempenho em tarefas de baixa disponibilidade de dados, superando a linha de base UNet em 24,53% no conjunto de dados de tumores cerebrais.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

O artigo apresenta o FontUse, uma abordagem centrada em dados que utiliza um pipeline de anotação automatizado para criar um conjunto de dados de 70 mil imagens, permitindo que modelos de geração de imagem aprendam a renderizar tipografia consistente com prompts que especificam estilos de fonte e casos de uso sem necessidade de modificações arquitetônicas.

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

O artigo propõe o GvU, um mecanismo de recompensa intrínseca baseado em alinhamento texto-imagem que utiliza a capacidade de compreensão do modelo para guiar e aprimorar sua própria geração, fechando assim a lacuna entre entendimento e criação em modelos multimodais unificados.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

O artigo apresenta o GenHOI, uma técnica leve que aprimora modelos de geração de vídeo pré-treinados para garantir interações mão-objeto consistentes e fisicamente plausíveis em cenários complexos, utilizando injeção de objetos equilibrada temporalmente e seletiva espacialmente.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

O artigo apresenta o Curious-VLA, um framework que supera a limitação de políticas restritivas em modelos VLA de direção autônoma através de uma estratégia de expansão de trajetórias viáveis e amostragem adaptativa, alcançando resultados state-of-the-art no benchmark Navsim ao desbloquear o potencial exploratório desses modelos.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudo investiga as falhas de Modelos Visuais-Linguísticos (VLMs) em cenários de condução autónoma, identificando que, embora alguns conceitos visuais sejam linearmente codificados, outros dependem de estruturas espaciais implícitas, e que as falhas podem ser classificadas como perceptivas (ausência de codificação linear) ou cognitivas (falha no alinhamento semântico), sendo a capacidade de distinção linear degradada rapidamente com o aumento da distância do objeto.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

O artigo apresenta o TempoSyncDiff, um framework de difusão latente baseado em distilação que utiliza um modelo professor-aluno e regularização temporal para gerar cabeças falantes acionadas por áudio com alta fidelidade, estabilidade temporal e baixa latência, viabilizando sua implementação em dispositivos de borda.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Este artigo apresenta um pipeline inovador que transforma logs arquivados de sensores omnidirecionais RGB-LiDAR em inicializações robustas para 3D Gaussian Splatting, superando desafios de distorção e sobrecarga computacional para criar gêmeos digitais de alta qualidade a partir de dados existentes.

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

O artigo propõe a nova tarefa de Geração de Rosto Falante Emocionalmente Contínuo (EC-TFG) e apresenta o modelo TIE-TFG, que utiliza modelagem de flutuação emocional temporalmente intensiva para sintetizar vídeos realistas onde as expressões faciais mudam continuamente em sincronia com variações emocionais descritas no texto.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

O artigo propõe os "Lyapunov Probes", uma abordagem que utiliza a teoria de estabilidade de sistemas dinâmicos para detectar alucinações em modelos de linguagem, identificando essas falhas como regiões instáveis nas bordas do espaço de representação onde a confiança do modelo decai sob perturbações.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

O artigo apresenta o DeepSight, o primeiro modelo multimodal focado em profundidade que supera as limitações dos modelos existentes ao utilizar mapas de profundidade monocromáticos, um novo conjunto de dados instrucional e um codificador ViT modificado para aprimorar significativamente a compreensão de cenas tridimensionais e o raciocínio espacial.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

Este artigo propõe um método de compressão de vídeo neural para cenas estáticas que incorpora ruído de incentivo positivo para separar variações transitórias do fundo persistente, permitindo uma redução significativa na taxa de bits com fidelidade de nível de pixel, sem introduzir detalhes alucinados.

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

O artigo propõe o FedARKS, um novo framework de aprendizado federado para re-identificação de pessoas que supera as limitações de métodos existentes ao integrar mecanismos de Seleção e Integração de Conhecimento Robusto e Discriminativo, permitindo capturar detalhes locais invariantes ao domínio e ponderar a agregação de modelos com base na qualidade dos clientes.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

← Anterior Próximo →