cs.CV artigos | Gist.Science

HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views

O HeroGS é um quadro unificado que emprega orientação hierárquica em níveis de imagem, recurso e parâmetro para superar as limitações da Splatting 3D de Gaussianas sob condições de visão esparsa, garantindo reconstruções de alta fidelidade e qualidade de renderização superiores às dos métodos existentes.

Jiashu Li, Xumeng Han, Zhaoyang Wei + 5 more2026-03-04💻 cs

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

Este artigo apresenta o ET-Turb, um grande conjunto de dados sintéticos de turbulência atmosférica que utiliza um novo modelo de MTF dependente do tempo de exposição para gerar borrões realistas e contínuos, melhorando significativamente a generalização e a qualidade de modelos de restauração em comparação com métodos existentes.

Junwei Zeng, Dong Liang, Sheng-Jun Huang + 2 more2026-03-04💻 cs

UETrack: A Unified and Efficient Framework for Single Object Tracking

O UETrack é um framework unificado e eficiente para rastreamento de objetos únicos que supera as limitações de métodos existentes ao suportar múltiplos modos (RGB, profundidade, térmico, eventos e linguagem) através de mecanismos inovadores de mistura de especialistas e destilação adaptativa, alcançando um equilíbrio superior entre velocidade e precisão em diversas plataformas de hardware.

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation

O artigo apresenta o FACE, um novo framework de autoencoder autoregressivo que gera malhas 3D de alta fidelidade de forma eficiente ao tratar cada face triangular como um único token, reduzindo drasticamente o comprimento da sequência e os custos computacionais enquanto mantém ou supera a qualidade do estado da arte.

Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu + 6 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

O artigo apresenta o InterCoG, um novo framework de raciocínio intercalado de cadeia de ancoragem que, combinado com o dataset GroundEdit-45K, permite edições de imagem espacialmente precisas em cenas complexas e multi-entidades ao primeiro deduzir a localização do alvo via texto, depois ancorá-lo visualmente e finalmente reescrever a descrição da edição.

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

O artigo apresenta o BiCAM, um método de mapeamento de ativação de classe bidirecional que captura tanto contribuições positivas quanto negativas para melhorar a interpretabilidade e a detecção de exemplos adversariais em Vision Transformers.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

O artigo apresenta o PromptStereo, um método de correspondência estéreo zero-shot que introduz a Unidade Recorrente de Prompt (PRU) para integrar pistas de estrutura monoculárica e movimento estéreo em modelos de profundidade fundacionais, alcançando desempenho de ponta e inferência rápida através de um refinamento iterativo aprimorado.

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

O artigo apresenta o Nano-EmoX, um modelo de linguagem multimodal compacto de 2,2 bilhões de parâmetros que, guiado por uma hierarquia cognitiva de três níveis e um framework de treinamento curricular chamado P2E, unifica seis tarefas afetivas fundamentais para superar a lacuna entre percepção e empatia, alcançando desempenho de ponta com alta eficiência.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

O artigo apresenta o SimRecon, um framework que realiza a reconstrução composicional de cenas a partir de vídeos reais através de um pipeline "Percepção-Geração-Simulação" aprimorado por módulos de otimização de viewpoint ativo e síntese de grafos de cena, garantindo assim alta fidelidade visual e plausibilidade física em ambientes complexos.

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

O artigo apresenta o OnlineX, um framework feed-forward que supera as limitações de reconstrução offline ao introduzir um paradigma de evolução de estado "ativo para estável" para reconstruir continuamente e com estabilidade tanto a aparência visual quanto campos de linguagem em cenas 3D a partir de imagens em fluxo.

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

O artigo apresenta o HiFi-Inpaint, um novo quadro de inpainting baseado em referência que, através de mecanismos como a Atenção de Melhoria Compartilhada e uma Perda Consciente de Detalhes, supera as limitações existentes na preservação de detalhes de produtos em imagens humano-produto, validado por um novo conjunto de dados de 40 mil amostras.

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

O artigo apresenta o TimeGS, um novo framework de previsão de séries temporais que supera as limitações das abordagens baseadas em imagens ao reformular a previsão como renderização 2D, utilizando kernels gaussianos adaptativos e blocos de geração e rasterização para garantir continuidade temporal e modelar com precisão padrões não estacionários complexos.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

CamDirector: Towards Long-Term Coherent Video Trajectory Editing

O artigo apresenta o CamDirector, um novo framework para edição de trajetórias de vídeo que utiliza um esquema de warping híbrido e um modelo difusivo autoregressivo guiado por histórico para garantir coerência temporal de longo prazo e controle preciso da câmera, além de introduzir o benchmark iPhone-PTZ para avaliar essas capacidades.

Zhihao Shi, Kejia Yin, Weilin Wan + 5 more2026-03-04💻 cs

Social-JEPA: Emergent Geometric Isomorphism

O artigo "Social-JEPA" demonstra que agentes de visão independentes, treinados sem coordenação para prever observações futuras a partir de diferentes perspectivas, desenvolvem espontaneamente um espaço latente geometricamente alinhado por uma isometria linear aproximada, permitindo a transferência direta de classificadores e a aceleração do aprendizado entre sistemas descentralizados.

Haoran Zhang, Youjin Wang, Yi Duan + 6 more2026-03-04🤖 cs.AI

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

Este estudo apresenta um framework de verificação multimodal para identificação de animais que, ao combinar um vasto corpus de 1,9 milhão de imagens com descrições textuais sintéticas e uma estratégia de fusão gateada, supera as abordagens unimodais em 11%, alcançando uma precisão Top-1 de 84,28% para o reencontro de pets perdidos.

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

O artigo apresenta o PDP, um novo framework de detecção incremental de objetos que utiliza um paradigma de desacoplamento de prompts em duplo pool e geração de pseudorótulos prototípicos para mitigar a degradação de prompts e alcançar desempenho superior nos benchmarks MS-COCO e PASCAL VOC.

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

AutoFFS: Adversarial Deformations for Facial Feminization Surgery Planning

O artigo apresenta o AutoFFS, um novo framework baseado em dados que utiliza deformações livres adversariais para gerar morfologias cranianas contrafactuais femininas, oferecendo uma base quantitativa e reprodutível para o planejamento cirúrgico de feminização facial.

Paul Friedrich, Florentin Bieder, Florian M. Thieringer + 1 more2026-03-04⚡ eess

Loss Design and Architecture Selection for Long-Tailed Multi-Label Chest X-Ray Classification

Este trabalho apresenta uma avaliação sistemática de funções de perda e arquiteturas para classificação de raios-X torácicos com distribuição de cauda longa, demonstrando que a combinação de LDAM-DRW, ConvNeXt-Large e estratégias de pós-treinamento alcançou o 5º lugar no benchmark CXR-LT 2026.

Nikhileswara Rao Sulake2026-03-04⚡ eess

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

O artigo apresenta o HAMMER, um novo framework que utiliza modelos de linguagem multimodal (MLLM) para realizar a ancoragem de affordance 3D baseada em intenções de interação, empregando uma integração cruzada hierárquica e um módulo de elevação geométrica para refinar representações e localizar affordances com precisão, superando métodos existentes em benchmarks públicos e novos.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Preconditioned Score and Flow Matching

Este artigo demonstra que a condição da covariância das distribuições intermediárias em modelos de Flow Matching e Score-based Diffusion causa viés de otimização que leva a platôs subótimos, propondo mapas de pré-condicionamento reversíveis que remodelam a geometria do problema para mitigar esse estagnação e permitir o treinamento contínuo de modelos mais eficazes.

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI

← Anterior Próximo →