Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Este estudo apresenta uma abordagem multimodelo baseada em redes neurais pré-treinadas e personalizadas, combinando técnicas avançadas de visão computacional e aprendizado profundo para aprimorar a detecção de sinais de trânsito, veículos e faixas, bem como o clonagem de comportamento, visando aumentar a robustez e confiabilidade dos sistemas de direção autônoma.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

O artigo propõe o framework DiP, uma nova abordagem para aprendizado de representação em grafos multimodais que utiliza nós pseudo-específicos e caminhos de informação dinâmicos para alcançar propagação de mensagens adaptativa, expressiva e esparsa com complexidade linear, superando métodos existentes em tarefas como previsão de links e classificação de nós.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este artigo apresenta um novo quadro de trabalho para navegação visão-linguagem que utiliza vídeos de tours de ambientes reais da web e representações geométricas implícitas para superar as limitações de escalabilidade e diversidade dos simuladores, estabelecendo novos recordes de desempenho e permitindo agentes de navegação zero-shot mais robustos.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

O artigo apresenta o ForgeDreamer, um novo framework que supera as limitações atuais na geração de modelos 3D industriais a partir de texto ao combinar um mecanismo de ensemble Multi-Expert LoRA para evitar interferência de conhecimento entre categorias e uma abordagem de hipergrafo multivista para capturar dependências estruturais de alta ordem essenciais para a precisão na manufatura.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

O artigo apresenta o SVOR, um novo framework robusto que supera os desafios de remoção de objetos em vídeos sob condições imperfeitas, como sombras e máscaras defeituosas, através de três inovações principais: a estratégia MUSE para fusão de máscaras, o cabeçote de segmentação DA-Seg e um treinamento em duas etapas com currículo, alcançando resultados state-of-the-art e viabilizando aplicações no mundo real.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

O artigo apresenta o CogBlender, um framework inovador que permite a intervenção contínua e multidimensional de propriedades cognitivas (como valência, excitação, domínio e memorabilidade) na geração de imagens a partir de texto, alinhando a criação visual a intenções psicológicas específicas através da reformulação do campo de velocidade no processo de correspondência de fluxo.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

O artigo apresenta o SPR (See, Plan, Rewind), um modelo de visão-linguagem-ação que melhora a manipulação robótica ao monitorar o progresso do tarefa através de marcos espaciais, permitindo o planejamento de trajetórias e a recuperação automática de falhas, o que resulta em maior robustez e generalização em benchmarks desafiadores.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

O artigo apresenta o IntroSVG, um framework que utiliza um modelo de linguagem visual unificado atuando como gerador e crítico em um ciclo fechado de "gerar-revisar-refinar", aprimorado por ajuste fino supervisionado e otimização direta de preferências, para superar as limitações dos métodos atuais de geração de SVGs a partir de texto ao incorporar feedback visual explícito.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

O artigo apresenta o NLiPsCalib, um framework de calibração eficiente e consistente com a física que utiliza estereoscopia fotométrica de luz próxima (NLiPs) e fontes de luz controláveis para permitir a reconstrução 3D de alta fidelidade em sensores visuotáteis curvos, simplificando o processo para poucos contatos com objetos cotidianos e reduzindo a barreira de entrada para o desenvolvimento de sensores personalizados.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

O artigo apresenta o SpaceSense-Bench, um benchmark de grande escala e multimodal gerado em simulação de alta fidelidade que oferece dados sincronizados de RGB, profundidade e LiDAR com anotações densas para superar as limitações de dados reais e impulsionar a pesquisa em percepção e estimativa de pose de espaçonaves.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

O artigo apresenta o OddGridBench, um benchmark controlado que revela a baixa sensibilidade dos Modelos de Linguagem Multimodal (MLLMs) a discrepâncias visuais finas, e propõe o OddGrid-GRPO, um framework de aprendizado por reforço que melhora significativamente essa capacidade através de aprendizado curricular e recompensas sensíveis à distância espacial.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Este artigo apresenta o benchmark STAR, um novo framework de avaliação multiagente que demonstra que a inteligência estratégica de Grandes Modelos de Linguagem em ambientes competitivos e dinâmicos depende não apenas da profundidade do raciocínio, mas também da capacidade de traduzir planos em ações rápidas, revelando uma lacuna significativa entre modelos de raciocínio profundo e modelos otimizados para velocidade em cenários de tempo real.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

O artigo propõe o EPPINN, um novo framework de redes neurais informadas por física que integra aprendizado evidencial para quantificar incertezas e melhorar a precisão e confiabilidade da estimativa de parâmetros de perfusão em imagens de tomografia computadorizada para avaliação de AVC isquêmico agudo.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs