cs.CV artigos | Gist.Science

Grounding Synthetic Data Generation With Vision and Language Models

Este trabalho propõe um framework fundamentado em visão e linguagem para a geração e avaliação interpretável de dados sintéticos em sensoriamento remoto, introduzindo o conjunto de dados ARAS400k e demonstrando que o treinamento com dados aumentados (reais e sintéticos) supera consistentemente as bases de dados reais em tarefas de segmentação semântica e legendagem de imagens.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

O artigo apresenta o X-GS, um framework aberto e extensível que unifica técnicas de 3DGS com modelos multimodais downstream, permitindo a criação de mapas 3D semânticos em tempo real a partir de vídeos não calibrados para habilitar tarefas como detecção de objetos e geração de legendas.

Yueen Ma, Irwin King2026-03-11💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

O artigo apresenta o OTPL-VIO, um sistema de odometria visual-inercial estéreo robusto que utiliza descritores profundos livres de treinamento e correspondência baseada em transporte ótimo para associar linhas, superando limitações em cenas de baixa textura e mudanças bruscas de iluminação com maior precisão e estabilidade em tempo real.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

O artigo apresenta o KV-Lock, uma abordagem livre de treinamento para modelos de difusão de vídeo baseados em DiT que otimiza a consistência de fundo e a qualidade do primeiro plano ajustando dinamicamente a fusão de chaves-valor (KVs) e a escala de orientação condicional (CFG) com base na detecção de alucinação.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

O artigo apresenta o DiffWind, um framework diferenciável baseado em física que unifica a modelagem de interação vento-objeto, reconstrução a partir de vídeos e simulação avançada, utilizando métodos como MPM e LBM para recuperar campos de vento e dinâmicas de objetos deformáveis com alta precisão.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

O artigo apresenta o VarSplat, um sistema de SLAM RGB-D baseado em 3D Gaussian Splatting que melhora a robustez e a precisão da reconstrução em cenas complexas ao aprender explicitamente a variância de aparência por gaussiana e gerar mapas de incerteza diferenciáveis para guiar o rastreamento e a otimização.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

O artigo apresenta o FootMR, um método de refinamento de movimento dos pés que supera as limitações das abordagens atuais em captura de movimento humana monocular sem marcadores ao levantar sequências 2D para 3D utilizando dados de captura de movimento em larga escala, resultando em uma reconstrução de articulações dos pés significativamente mais precisa.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Este trabalho explora a Resposta Visual a Perguntas (VQA) em vietnamita utilizando arquiteturas baseadas em transformers, comparando sistematicamente métricas de avaliação automática em cenários multilíngues para aprimorar o alinhamento com o julgamento humano.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

O artigo apresenta o DRIFT, um modelo baseado em transformador que utiliza uma arquitetura de dupla representação para fundir características locais e globais de nuvens de pontos 4D de radar, superando os métodos existentes na detecção de objetos e estimativa de estrada livre em sistemas de direção autônoma.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

O artigo apresenta o TemporalDoRA, uma nova técnica de ajuste fino eficiente em parâmetros que integra atenção temporal no gargalo de baixa dimensão para melhorar a robustez e a precisão na resposta a perguntas sobre vídeos cirúrgicos, validada no novo conjunto de dados REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

O artigo apresenta o TriFusion-SR, um novo framework baseado em difusão condicional guiada por wavelets que realiza a fusão conjunta e a super-resolução de imagens médicas tri-modais, superando os métodos existentes ao decompor características em bandas de frequência e calibrar coeficientes latentes para obter ganhos significativos em qualidade perceptual e métricas de precisão.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

O artigo apresenta o ProGS, um codec inovador que utiliza uma estrutura de octree e mecanismos de aprimoramento de informação mútua para habilitar a codificação progressiva de 3D Gaussian Splatting, reduzindo o armazenamento em 45 vezes e melhorando a qualidade visual em mais de 10% em comparação ao formato original.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

O artigo apresenta o GSStream, um sistema inovador de streaming de cenas volumétricas baseado em 3D Gaussian Splatting que utiliza previsão de viewport colaborativa e adaptação de taxa de bits por aprendizado por reforço profundo para otimizar a entrega de dados e superar os sistemas existentes em qualidade visual e eficiência de rede.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

O artigo apresenta o FrameDiT, uma arquitetura de Transformer de Difusão que introduz o mecanismo de Atenção Matricial em nível de quadro para superar o compromisso entre eficiência e modelagem de dinâmicas espaço-temporais complexas, alcançando resultados de ponta na geração de vídeo com alta coerência temporal e qualidade.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

O artigo apresenta o EXPLORE-Bench, um novo benchmark derivado de vídeos em primeira pessoa para avaliar a capacidade de modelos de linguagem multimodal em prever cenas finais após sequências longas de ações, revelando uma lacuna significativa em relação ao desempenho humano e demonstrando que a decomposição passo a passo das ações pode melhorar o raciocínio a longo prazo, embora com custos computacionais adicionais.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

O artigo apresenta o FetalAgents, o primeiro sistema multi-agente que orquestra especialistas de visão computacional para analisar ultrassons fetais em vídeo e gerar relatórios clínicos estruturados, superando modelos existentes em precisão e adaptabilidade ao fluxo de trabalho clínico.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

O artigo apresenta o $M^2$ -Occ, um framework inovador para previsão de oclusão semântica 3D em direção autônoma que utiliza reconstrução mascarada multiview e memória de características para manter a precisão geométrica e semântica mesmo na ausência de múltiplas câmeras, superando significativamente os métodos existentes em cenários de falha de visão.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Este artigo apresenta o SACA, um novo quadro de alinhamento contrastivo sensível a etapas que extrai supervisão densa de trajetórias imperfeitas para superar as limitações de generalização e estabilidade no treinamento de agentes de Navegação Visão-Linguagem em Ambientes Contínuos, alcançando desempenho state-of-the-art.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

O artigo apresenta o ENIGMA-360, um novo conjunto de dados sincronizado de vídeos egocêntricos e exocêntricos em cenários industriais reais, equipado com anotações temporais e espaciais para impulsionar a compreensão do comportamento humano e estabelecer linhas de base para tarefas como segmentação de ações e detecção de interações.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

O artigo apresenta o LAP, um modelo inovador que utiliza a expressividade da linguagem para superar a ambiguidade visual no planejamento de procedimentos em vídeos instrucionais, alcançando desempenho superior ao estado da arte em múltiplos benchmarks ao empregar um modelo de linguagem visual para gerar representações textuais distintas que alimentam um modelo de difusão para prever sequências de ações.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

← Anterior Próximo →

cs.CV