cs.CV artigos | Gist.Science

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

O artigo propõe o CLiFT, uma abordagem de renderização neural que representa cenas como "tokens de campo de luz comprimidos", permitindo a síntese de novas visões com qualidade comparável e eficiência computacional adaptável ao ajustar dinamicamente o número de tokens utilizados.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

O artigo apresenta o SeC, um novo framework de segmentação de objetos em vídeo baseado na construção progressiva de conceitos por meio de Modelos Visuais-Linguísticos, que supera os métodos atuais ao introduzir o benchmark SeCVOS e alcançar desempenho superior em cenários complexos.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Este artigo apresenta um framework unificado de gêmeo digital e robótico que integra simulação acelerada e bancadas de teste robóticas do Laboratório de Encontro Espacial de Stanford para validar e verificar o desempenho de sistemas de orientação, navegação e controle em operações de proximidade e voo em formação.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

O artigo apresenta o MonoFusion, um método que reconstroi cenas dinâmicas a partir de vídeos de poucas câmeras ao alinhar reconstruções monoculares independentes, superando as limitações de abordagens anteriores que exigem capturas multiview densas e caras.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Este artigo apresenta o HGTS-Former, uma nova rede Transformer baseada em hipergrafos hierárquicos para análise de séries temporais multivariadas que supera desafios de alta dimensionalidade e interações complexas, demonstrando desempenho superior em diversas tarefas e no reconhecimento de modos localizados de borda (ELM) em fusão nuclear.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Este trabalho propõe um novo método de simulação de Ressonância Magnética que agrupa isocromatos com propriedades idênticas para compartilhar cálculos, resultando em uma aceleração de 3 a 72 vezes em comparação com os métodos convencionais.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Este trabalho propõe o uso de "Causal Delta Embeddings" para representar intervenções de forma invariante ao cenário visual e esparsa em relação às variáveis causais afetadas, demonstrando que essa estratégia melhora significativamente a robustez fora de distribuição (OOD) em tarefas de aprendizado de representação causal sem supervisão adicional.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

O artigo apresenta o Uni-CoT, um framework unificado que supera as limitações atuais no raciocínio multimodal ao combinar compreensão e geração de imagens em um único modelo, utilizando uma abordagem de raciocínio em dois níveis (macro e micro) e treinamento estruturado para alcançar desempenho state-of-the-art com eficiência computacional.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

O artigo apresenta o ImagiDrive, um novo quadro unificado para direção autônoma que integra um agente baseado em Modelos de Linguagem e Visão (VLM) com um imaginador de cenas baseado em Modelos de Mundo de Direção (DWM), criando um ciclo de imaginação e planejamento iterativo que refina as decisões de trajetória através da geração de cenários futuros, demonstrando superioridade em testes nos conjuntos de dados nuScenes e NAVSIM.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

O artigo apresenta o CineTrans, um novo framework baseado em modelos de difusão mascarada que gera vídeos coerentes com múltiplas tomadas e transições cinematográficas, utilizando um novo conjunto de dados (Cine250K) e um mecanismo de controle baseado em máscaras para superar as limitações atuais na síntese de vídeos multi-shot.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Este artigo apresenta o MOON, o primeiro modelo generativo baseado em MLLM para aprendizado de representação de produtos em e-commerce, que supera as limitações das arquiteturas existentes ao empregar um módulo MoE guiado, detecção de regiões semânticas e uma estratégia de amostragem negativa, além de lançar o benchmark MBE para avaliação de tarefas de compreensão de produtos.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

Os autores propõem o framework Next Visual Granularity (NVG), uma abordagem inovadora para geração de imagens que decomõe o processo em uma sequência estruturada de granularidades visuais progressivas, desde o layout global até detalhes finos, superando consistentemente os modelos VAR anteriores no conjunto de dados ImageNet.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

O artigo apresenta o ARMed, um novo framework de aprendizado por reforço que mitiga o colapso de recompensas semânticas através de um mecanismo adaptativo e ajuste supervisionado, permitindo raciocínio médico aberto e mais robusto em modelos de visão e linguagem.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Este artigo propõe um quadro de aprendizado multi-modal desconectado que integra histopatologia e transcriptômica para caracterização de câncer, superando desafios como heterogeneidade de dados e dependência de pares através de fusão em subespaços, consistência de expressão gênica multi-escala e distilação de conhecimento para inferência sem transcriptoma.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

O artigo apresenta o TADSR, uma rede de difusão de um único passo com percepção temporal que supera as limitações de métodos anteriores ao utilizar codificadores e funções de perda adaptativos aos timesteps, permitindo a extração mais eficaz de priores generativos de modelos de difusão pré-treinados para super-resolução de imagens do mundo real com resultados state-of-the-art e controle flexível entre fidelidade e realismo.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

O FastAvatar é um framework feedforward unificado que utiliza um Transformer de Reconstrução Gaussiana de Grande Escala (LGRT) para reconstruir rapidamente avatares 3D de alta qualidade a partir de registros diários variados, permitindo uma reconstrução incremental e ajustável em termos de qualidade e velocidade.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

O artigo propõe o método GACD, uma técnica de decodificação baseada em inferência que utiliza gradientes de primeira ordem para estimar e mitigar vieses textuais e de coocorrência em modelos de linguagem multimodal, reduzindo alucinações e melhorando a fundamentação visual sem necessidade de ajuste fino.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

O artigo apresenta o RTGMFF, um novo quadro de trabalho que aprimora o diagnóstico de transtornos cerebrais a partir de fMRI ao integrar a geração de texto orientada por regiões de interesse (ROI) com fusão de características multimodais, superando os métodos atuais em precisão diagnóstica nos conjuntos de dados ADHD-200 e ABIDE.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Este artigo apresenta o T2I-CoReBench, um benchmark abrangente e complexo que avalia as capacidades de composição e raciocínio de modelos de texto-para-imagem, revelando que, embora a composição tenha avançado, o raciocínio permanece um gargalo crítico onde os modelos falham em inferir elementos implícitos.

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

O artigo apresenta o UniView, um modelo inovador que aprimora a síntese de novas vistas a partir de uma única imagem ao unificar características de imagens de referência recuperadas e selecionadas por um modelo de linguagem multimodal, utilizando um adaptador plug-and-play e um mecanismo de atenção tripla decoplado para reduzir distorções e preservar detalhes.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

← Anterior Próximo →