cs.CV artigos | Gist.Science

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

O artigo apresenta o SR3R, um novo framework feed-forward que reformula a reconstrução 3D de super-resolução ao mapear diretamente vistas de baixa resolução esparsas para representações 3DGS de alta resolução, permitindo a aprendizagem autônoma de detalhes de alta frequência e uma generalização robusta em cenas não vistas, superando os métodos atuais de otimização por cena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

O artigo apresenta o SteerVAD, um novo framework que supera as limitações dos modelos de linguagem multimodal congelados na detecção de anomalias em vídeos ao identificar e ativamente corrigir representações latentes específicas por meio de um controlador hierárquico, alcançando desempenho superior com apenas 1% dos dados de treinamento.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

O GuardAlign é uma defesa sem treinamento para modelos de linguagem grandes multimodais que utiliza detecção de segurança aprimorada por transporte ótimo e calibração atenta cruzada para reduzir significativamente respostas inseguras sem comprometer a utilidade do modelo.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

O artigo propõe o AIR, uma estrutura sem treinamento que mitiga alucinações em Modelos de Linguagem Multimodal ao reduzir a redundância de tokens visuais e reforçar seletivamente os patches mais alinhados com o estado oculto do modelo, melhorando assim a precisão sem comprometer as capacidades gerais.

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este artigo apresenta um framework unificado para a reconstrução 3D de alta fidelidade de roupas a partir de imagens monoculares e vídeos, combinando Padrões de Costura Implícitos com um modelo difusivo generativo para aprender prios de forma em espaço UV e garantir consistência temporal, superando métodos existentes na reconstrução de roupas justas e folgadas com detalhes geométricos realistas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabalho apresenta o Quant Experts (QE), um método de pós-treinamento para quantização de Modelos Visuais-Linguísticos que utiliza uma arquitetura de Mixture of Experts adaptativa e consciente de tokens para compensar erros de quantização de forma dinâmica, melhorando a precisão em modelos de 2B a 70B parâmetros sem necessidade de retreinamento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Este artigo apresenta um quadro de verificação neurosimbólico que utiliza solvers SMT e bases de conhecimento clínico para auditar a consistência lógica de relatórios radiológicos gerados por modelos de visão e linguagem, eliminando alucinações e garantindo a validade dedutiva das conclusões diagnósticas.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

O artigo apresenta o AgenticOCR, um paradigma de parseamento dinâmico e orientado a consultas que otimiza a recuperação aumentada por geração (RAG) multimodal ao extrair seletivamente apenas as regiões relevantes de documentos visuais complexos, superando as limitações do processamento de páginas inteiras e melhorando significativamente a eficiência e a precisão na compreensão de documentos longos.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

Este artigo propõe uma estratégia de poda integrada e adaptativa combinada com primitivas de Diferença de Gaussianas 3D para reduzir significativamente o número de gaussianas em Splatting 3D, alcançando até 90% de compactação sem comprometer a qualidade visual.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

O artigo propõe o TASOT, um método não supervisionado para segmentação temporal de fases e passos cirúrgicos que utiliza transporte ótimo multimodal combinando informações visuais e textuais, alcançando desempenho superior a métodos zero-shot existentes sem a necessidade de pré-treinamento massivo em dados cirúrgicos.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

O artigo apresenta o HumanOrbit, um modelo de difusão de vídeo que gera vídeos de órbita 360° a partir de uma única imagem para criar visualizações multi-visuais geometricamente consistentes e preservar a identidade, permitindo a reconstrução de malhas 3D texturizadas com maior fidelidade e completude do que os métodos existentes.

Keito Suzuki, Kunyao Chen, Lei Wang + 5 more2026-03-02💻 cs

RAViT: Resolution-Adaptive Vision Transformer

O RAViT é um novo framework de classificação de imagens baseado em Vision Transformers que utiliza uma arquitetura multi-branch com diferentes resoluções e um mecanismo de saída antecipada para reduzir significativamente o custo computacional (aproximadamente 70% dos FLOPs) mantendo a precisão equivalente aos modelos clássicos.

Martial Guidez, Stefan Duffner, Christophe Garcia2026-03-02🤖 cs.LG

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

Este artigo apresenta uma nova hierarquia de superpixels para imagens de alta dimensão que incorpora a estrutura do manifold de atributos durante a construção, permitindo uma exploração consistente e espacialmente coerente tanto no espaço da imagem quanto no espaço de atributos.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

O artigo propõe o "Omnivorous Vision Encoder", um novo quadro de aprendizado que alinha representações de diferentes modalidades (como RGB e profundidade) em um espaço de características comum, preservando a semântica discriminativa de modelos fundacionais como o DINOv2 através de um processo de distilação e alinhamento cruzado.

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Este artigo apresenta o primeiro framework automatizado de auditoria multimodal para descoberta de fatias, projetado para detectar e explicar falhas sistemáticas em classificadores de imagens médicas, demonstrando sua eficácia no conjunto de dados MIMIC-CXR-JPG.

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

O artigo apresenta o UMPIRE, uma nova estrutura de quantificação de incerteza sem treinamento para Modelos de Linguagem Multimodal (MLLMs) que calcula o volume semântico ajustado à incoerência das respostas, superando as métricas existentes na detecção de erros e calibração de incerteza em diversas modalidades e cenários desafiadores.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

O artigo apresenta o SenCache, um método de aceleração para modelos de difusão que utiliza uma política de cache dinâmica e sensível a perturbações para reduzir o custo computacional mantendo a qualidade visual superior em comparação com abordagens heurísticas existentes.

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

O artigo apresenta o MuViT, uma arquitetura de Transformer que integra observações de múltiplas resoluções em um sistema de coordenadas globais compartilhado, demonstrando melhorias consistentes em tarefas de análise de imagens de microscopia ao combinar contexto de campo amplo com detalhes de alta resolução.

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

O artigo apresenta um novo método que aprimora a compreensão espacial em modelos de geração de imagens, criando o conjunto de dados SpatialReward-Dataset e o modelo de recompensa SpatialScore para avaliar e otimizar, via aprendizado por reforço online, a precisão das relações espaciais complexas descritas em prompts de texto.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

O artigo propõe o GTASR, um paradigma de treinamento leve baseado em Consistency Models que supera as limitações de deriva e desconexão geométrica em super-resolução de imagens do mundo real através de alinhamento de trajetória e retificação estrutural, permitindo geração de alta qualidade em um único passo com baixa latência.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

← Anterior Próximo →