cs.CV artigos | Gist.Science

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

O artigo propõe o MC-INR, um novo framework baseado em redes neurais que utiliza meta-aprendizado e agrupamento dinâmico para codificar eficientemente dados de simulação científica multivariada em grades não estruturadas, superando as limitações das representações neurais implícitas existentes.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

CoBELa: Steering Transparent Generation via Concept Bottlenecks on Energy Landscapes

O artigo apresenta o CoBELa, um framework baseado em energia que elimina representações de gargalo não explícitas e decodificadores treinados, permitindo a geração interpretável e a intervenção composicional em conceitos através de funções de energia aditivas sobre um gerador pré-treinado congelado.

Sangwon Kim, Kyoungoh Lee, Jeyoun Dong + 1 more2026-03-04🤖 cs.AI

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

O artigo apresenta o InstructVLA, um modelo de Visão-Linguagem-Ação que utiliza um novo paradigma de ajuste instrucional (VLA-IT) para preservar o raciocínio multimodal de modelos pré-treinados enquanto alcança desempenho superior em manipulação robótica e generalização em ambientes simulados e do mundo real.

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

O artigo apresenta o DMTrack, uma nova arquitetura de rastreamento multimodal espaço-temporal baseada em dois adaptadores (STMA e PMCA) que, utilizando apenas 0,93 milhão de parâmetros treináveis, alcança resultados state-of-the-art em cinco benchmarks ao facilitar a fusão e a complementaridade progressiva entre modalidades.

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

Este trabalho propõe um novo framework de super-resolução zero-shot para tomografia computadorizada 3D que integra priores de projeção 2D baseados em difusão e uma técnica de splatting gaussiano com blendagem alfa negativa para reconstruir volumes de alta resolução a partir de entradas de baixa resolução sem necessidade de dados pareados.

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

O artigo apresenta o MMTok, um método que maximiza a cobertura multimodal combinando informações visuais e textuais para selecionar tokens de visão mais informativos, resultando em uma inferência significativamente mais rápida e eficiente em Modelos Visão-Linguagem sem comprometer substancialmente o desempenho.

Sixun Dong, Juhua Hu, Mian Zhang + 3 more2026-03-04💻 cs

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

Este artigo apresenta o problema de Resposta a Perguntas Corporificadas Concorrentes (EQsA), introduz o framework agêntico ConEQsA para agendamento e resposta assíncronos baseados em urgência, e propõe o benchmark CAEQs com métricas específicas para avaliar o desempenho de agentes em ambientes 3D sob múltiplas solicitações.

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

Este trabalho avalia sistematicamente a capacidade de Modelos Visão-Linguagem (VLMs) de compreender a topologia viária para condução autónoma, revelando que, apesar de alguns modelos proprietários alcançarem resultados moderados, tanto estes como os modelos de código aberto enfrentam dificuldades significativas em raciocínio espacial, indicando que esta competência permanece um gargalo fundamental.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

SiNGER: A Clearer Voice Distills Vision Transformers Further

O artigo apresenta o SiNGER, um novo framework de destilação de conhecimento que utiliza perturbações guiadas pelo espaço nulo para refinar as características de Vision Transformers, suprimindo artefatos de alta norma e preservando sinais informativos, resultando em modelos alunos com desempenho superior e representações mais claras.

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

O artigo apresenta o Earth-Agent, um novo quadro de trabalho baseado em agentes que integra dados de observação terrestre RGB e espectrais em um ecossistema de ferramentas unificado, permitindo raciocínio espaciotemporal quantitativo complexo e avaliando seu desempenho por meio do benchmark Earth-Bench.

Peilin Feng, Zhutao Lv, Junyan Ye + 8 more2026-03-04💻 cs

PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization

O artigo apresenta o PROFusion, um sistema de reconstrução densa em tempo real que combina regressão de pose baseada em aprendizado para inicialização robusta com otimização baseada em princípios para refino preciso, superando as limitações de sistemas SLAM RGB-D existentes em cenários de movimento instável.

Siyan Dong, Zijun Wang, Lulu Cai + 2 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

O Proxy-GS é um pipeline inovador que utiliza um sistema de proxy ultrarrápido para introduzir consciência de oclusão no treinamento e inferência de 3DGS estruturado, otimizando a eliminação de primitivas redundantes e a densificação para alcançar tanto maior velocidade de renderização quanto qualidade visual superior em cenas complexas.

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

O artigo apresenta o EchoGen, um framework pioneiro de geração orientada a sujeitos baseado em modelos auto-regressivos visuais (VAR) que utiliza uma estratégia de injeção de dupla via para equilibrar fidelidade e controle, oferecendo uma alternativa eficiente e rápida aos métodos difusivos tradicionais.

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

TTT3R: 3D Reconstruction as Test-Time Training

O artigo apresenta o TTT3R, uma abordagem de treinamento no tempo de teste que utiliza uma taxa de aprendizado de forma fechada baseada na confiança de alinhamento para melhorar significativamente a generalização de comprimento em modelos de reconstrução 3D, alcançando resultados superiores com baixo custo computacional.

Xingyu Chen, Yue Chen, Yuliang Xiu + 2 more2026-03-04💻 cs

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

O artigo apresenta o BindWeave, um framework unificado que utiliza um modelo de linguagem multimodal pré-treinado para realizar raciocínio cruzado e ancorar semânticas complexas em sujeitos visuais específicos, permitindo a geração de vídeos de alta fidelidade e consistentes com o tema, superando os modelos existentes em benchmarks como o OpenS2V.

Zhaoyang Li, Dongjun Qian, Kai Su + 6 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

O artigo apresenta o ArbInterp, um novo framework de interpolação generativa de vídeo que permite a síntese de quadros intermediários em qualquer timestamp e de qualquer duração, superando as limitações de rigidez dos métodos anteriores através de uma codificação posicional temporal adaptativa e uma estratégia de condicionamento que decopla aparência e movimento para garantir consistência e continuidade.

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

O artigo apresenta o D2E, um framework que valida a pré-treinagem em dados de desktop (como jogos) como uma abordagem escalável e eficaz para transferir habilidades sensoriomotoras para robótica física, alcançando desempenho superior a modelos maiores com apenas 1 bilhão de parâmetros.

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Human3R: Everyone Everywhere All at Once

O artigo apresenta o Human3R, um modelo unificado e feed-forward que realiza a reconstrução 4D online de múltiplos humanos e cenas em tempo real a partir de vídeos monoculares, eliminando a necessidade de pipelines complexos e dependências externas.

Yue Chen, Xingyu Chen, Yuxuan Xue + 3 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

O MIRAGE é um framework de agendamento em tempo real para recuperação de imagens que utiliza decomposição hierárquica e consistência de similaridade para melhorar a precisão e reduzir significativamente a computação em sistemas de recuperação multimodais.

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Este artigo demonstra que a capacidade de generalização de modelos de avaliação de qualidade de imagem baseados em raciocínio e aprendizado por reforço deriva da conversão de representações visuais redundantes em representações textuais compactas, propondo o algoritmo RALI que, ao alinhar diretamente imagens a essas representações textuais via aprendizado contrastivo, elimina a necessidade de processos de raciocínio e grandes modelos de linguagem, alcançando desempenho comparável com menos de 5% dos parâmetros e tempo de inferência.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

← Anterior Próximo →