cs.CV artigos | Gist.Science

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Este estudo apresenta uma abordagem multimodelo baseada em redes neurais pré-treinadas e personalizadas, combinando técnicas avançadas de visão computacional e aprendizado profundo para aprimorar a detecção de sinais de trânsito, veículos e faixas, bem como o clonagem de comportamento, visando aumentar a robustez e confiabilidade dos sistemas de direção autônoma.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

O artigo propõe o framework DiP, uma nova abordagem para aprendizado de representação em grafos multimodais que utiliza nós pseudo-específicos e caminhos de informação dinâmicos para alcançar propagação de mensagens adaptativa, expressiva e esparsa com complexidade linear, superando métodos existentes em tarefas como previsão de links e classificação de nós.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este artigo apresenta um novo quadro de trabalho para navegação visão-linguagem que utiliza vídeos de tours de ambientes reais da web e representações geométricas implícitas para superar as limitações de escalabilidade e diversidade dos simuladores, estabelecendo novos recordes de desempenho e permitindo agentes de navegação zero-shot mais robustos.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

O artigo apresenta o ForgeDreamer, um novo framework que supera as limitações atuais na geração de modelos 3D industriais a partir de texto ao combinar um mecanismo de ensemble Multi-Expert LoRA para evitar interferência de conhecimento entre categorias e uma abordagem de hipergrafo multivista para capturar dependências estruturais de alta ordem essenciais para a precisão na manufatura.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Este artigo propõe novas estratégias de treinamento e funções de perda que encurtam as listas de Gaussianas necessárias para renderizar pixels, acelerando significativamente o processo de aprendizado do 3D Gaussian Splatting sem comprometer a qualidade da renderização.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

O artigo apresenta o SVOR, um novo framework robusto que supera os desafios de remoção de objetos em vídeos sob condições imperfeitas, como sombras e máscaras defeituosas, através de três inovações principais: a estratégia MUSE para fusão de máscaras, o cabeçote de segmentação DA-Seg e um treinamento em duas etapas com currículo, alcançando resultados state-of-the-art e viabilizando aplicações no mundo real.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

Este trabalho propõe um novo método de aprendizado de campos de características que permite, pela primeira vez, um modelo feed-forward para decomposição convexa em cenários abertos, gerando decomposições de alta qualidade de formas 3D essenciais para simulações físicas e generalizando-se para diversas representações geométricas.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

O artigo apresenta o CogBlender, um framework inovador que permite a intervenção contínua e multidimensional de propriedades cognitivas (como valência, excitação, domínio e memorabilidade) na geração de imagens a partir de texto, alinhando a criação visual a intenções psicológicas específicas através da reformulação do campo de velocidade no processo de correspondência de fluxo.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

O artigo apresenta o MDTrack, um novo framework para rastreamento de objetos multimodal que supera as limitações das abordagens existentes ao utilizar fusão adaptativa baseada em Mixture of Experts e propagação temporal desacoplada via State Space Models, alcançando desempenho state-of-the-art em cinco benchmarks.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

O artigo apresenta o DenoiseSplat, um método feed-forward de Gaussian Splatting que supera os limites de ruído em reconstrução 3D, utilizando um benchmark de grande escala e treinamento supervisionado apenas por renderizações 2D limpas para gerar cenas robustas a partir de imagens multiview ruidosas.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

O artigo apresenta o SPR (See, Plan, Rewind), um modelo de visão-linguagem-ação que melhora a manipulação robótica ao monitorar o progresso do tarefa através de marcos espaciais, permitindo o planejamento de trajetórias e a recuperação automática de falhas, o que resulta em maior robustez e generalização em benchmarks desafiadores.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

O artigo apresenta o IntroSVG, um framework que utiliza um modelo de linguagem visual unificado atuando como gerador e crítico em um ciclo fechado de "gerar-revisar-refinar", aprimorado por ajuste fino supervisionado e otimização direta de preferências, para superar as limitações dos métodos atuais de geração de SVGs a partir de texto ao incorporar feedback visual explícito.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

O artigo apresenta o CLoE, um framework de aprendizado de consistência que utiliza objetivos de consistência global e regional entre especialistas para melhorar a segmentação de imagens médicas multimodais na presença de modalidades faltantes, garantindo robustez e precisão em estruturas críticas.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

O artigo apresenta o NLiPsCalib, um framework de calibração eficiente e consistente com a física que utiliza estereoscopia fotométrica de luz próxima (NLiPs) e fontes de luz controláveis para permitir a reconstrução 3D de alta fidelidade em sensores visuotáteis curvos, simplificando o processo para poucos contatos com objetos cotidianos e reduzindo a barreira de entrada para o desenvolvimento de sensores personalizados.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

O artigo apresenta o SpaceSense-Bench, um benchmark de grande escala e multimodal gerado em simulação de alta fidelidade que oferece dados sincronizados de RGB, profundidade e LiDAR com anotações densas para superar as limitações de dados reais e impulsionar a pesquisa em percepção e estimativa de pose de espaçonaves.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

O artigo apresenta o OddGridBench, um benchmark controlado que revela a baixa sensibilidade dos Modelos de Linguagem Multimodal (MLLMs) a discrepâncias visuais finas, e propõe o OddGrid-GRPO, um framework de aprendizado por reforço que melhora significativamente essa capacidade através de aprendizado curricular e recompensas sensíveis à distância espacial.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Este artigo apresenta o benchmark STAR, um novo framework de avaliação multiagente que demonstra que a inteligência estratégica de Grandes Modelos de Linguagem em ambientes competitivos e dinâmicos depende não apenas da profundidade do raciocínio, mas também da capacidade de traduzir planos em ações rápidas, revelando uma lacuna significativa entre modelos de raciocínio profundo e modelos otimizados para velocidade em cenários de tempo real.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

O artigo propõe a Calibração Espectral Preditiva (PSC), um framework sem fonte que estende o alinhamento de subespaço para correspondência espectral de blocos, melhorando a adaptação em tempo de teste para regressão de imagens sob mudanças de distribuição.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy Hieu2026-03-11💻 cs

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Este artigo propõe um framework de esteganografia de imagem robusto e comprovadamente seguro baseado em otimização iterativa no espaço latente, que melhora significativamente a precisão na extração de mensagens sob compressão e processamento de imagem sem comprometer a segurança teórica.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen Ren2026-03-11💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

O artigo propõe o EPPINN, um novo framework de redes neurais informadas por física que integra aprendizado evidencial para quantificar incertezas e melhorar a precisão e confiabilidade da estimativa de parâmetros de perfusão em imagens de tomografia computadorizada para avaliação de AVC isquêmico agudo.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

← Anterior Próximo →