cs.CV artigos | Gist.Science

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

O artigo apresenta o MSVBench, o primeiro benchmark abrangente para avaliação de geração de vídeos multi-cena, que utiliza um framework híbrido de modelos multimodais e especialistas para demonstrar que os métodos atuais carecem de coerência narrativa e oferece um sinal supervisionado escalável para alinhar o desempenho dos modelos com julgamentos humanos.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

O artigo apresenta o Venus, um novo framework e conjunto de dados (AesGuide) que capacita Modelos de Linguagem Multimodais a fornecer orientação estética acionável e realizar recortes estéticos otimizados, superando as limitações atuais dos modelos existentes na identificação de problemas e no refinamento de composições fotográficas.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

O artigo apresenta o MINT, um framework inovador de transferência de conhecimento que alinha representações de fala a um espaço de biomarcadores neurais derivados de ressonância magnética durante o treinamento, permitindo a triagem precoce da doença de Alzheimer com a precisão de métodos multimodais, mas sem a necessidade de exames de imagem na fase de inferência.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

O artigo apresenta o MIGM-Shortcut, um método que acelera a geração de imagens mascaradas em mais de 4x ao aprender um modelo leve que integra características anteriores e tokens amostrados para prever a evolução dinâmica dos recursos, superando as limitações de precisão de abordagens anteriores de cache.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Ordinal Diffusion Models for Color Fundus Images

Este artigo propõe um modelo de difusão latente ordinal para gerar imagens de fundo de olho que incorpora explicitamente a estrutura ordenada da progressão da retinopatia diabética, demonstrando superioridade em realismo visual e consistência clínica em comparação com modelos condicionais padrão.

Gustav Schmidt, Philipp Berens, Sarah Müller2026-03-02💻 cs

Interpretable Debiasing of Vision-Language Models for Social Fairness

Este trabalho apresenta o DeBiasLens, um framework interpretável e agnóstico a modelos que utiliza autoencoders esparsos para localizar e desativar seletivamente neurônios associados a atributos sociais em Modelos Visão-Linguagem, mitigando vieses sociais sem comprometer o conhecimento semântico.

Na Min An, Yoonna Jang, Yusuke Hirota + 3 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

O artigo apresenta o SR3R, um novo framework feed-forward que reformula a reconstrução 3D de super-resolução ao mapear diretamente vistas de baixa resolução esparsas para representações 3DGS de alta resolução, permitindo a aprendizagem autônoma de detalhes de alta frequência e uma generalização robusta em cenas não vistas, superando os métodos atuais de otimização por cena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

O artigo apresenta o SteerVAD, um novo framework que supera as limitações dos modelos de linguagem multimodal congelados na detecção de anomalias em vídeos ao identificar e ativamente corrigir representações latentes específicas por meio de um controlador hierárquico, alcançando desempenho superior com apenas 1% dos dados de treinamento.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

O GuardAlign é uma defesa sem treinamento para modelos de linguagem grandes multimodais que utiliza detecção de segurança aprimorada por transporte ótimo e calibração atenta cruzada para reduzir significativamente respostas inseguras sem comprometer a utilidade do modelo.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

O artigo propõe o AIR, uma estrutura sem treinamento que mitiga alucinações em Modelos de Linguagem Multimodal ao reduzir a redundância de tokens visuais e reforçar seletivamente os patches mais alinhados com o estado oculto do modelo, melhorando assim a precisão sem comprometer as capacidades gerais.

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este artigo apresenta um framework unificado para a reconstrução 3D de alta fidelidade de roupas a partir de imagens monoculares e vídeos, combinando Padrões de Costura Implícitos com um modelo difusivo generativo para aprender prios de forma em espaço UV e garantir consistência temporal, superando métodos existentes na reconstrução de roupas justas e folgadas com detalhes geométricos realistas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabalho apresenta o Quant Experts (QE), um método de pós-treinamento para quantização de Modelos Visuais-Linguísticos que utiliza uma arquitetura de Mixture of Experts adaptativa e consciente de tokens para compensar erros de quantização de forma dinâmica, melhorando a precisão em modelos de 2B a 70B parâmetros sem necessidade de retreinamento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Este artigo apresenta um quadro de verificação neurosimbólico que utiliza solvers SMT e bases de conhecimento clínico para auditar a consistência lógica de relatórios radiológicos gerados por modelos de visão e linguagem, eliminando alucinações e garantindo a validade dedutiva das conclusões diagnósticas.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

O artigo apresenta o AgenticOCR, um paradigma de parseamento dinâmico e orientado a consultas que otimiza a recuperação aumentada por geração (RAG) multimodal ao extrair seletivamente apenas as regiões relevantes de documentos visuais complexos, superando as limitações do processamento de páginas inteiras e melhorando significativamente a eficiência e a precisão na compreensão de documentos longos.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

Este artigo propõe uma estratégia de poda integrada e adaptativa combinada com primitivas de Diferença de Gaussianas 3D para reduzir significativamente o número de gaussianas em Splatting 3D, alcançando até 90% de compactação sem comprometer a qualidade visual.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

O artigo propõe o TASOT, um método não supervisionado para segmentação temporal de fases e passos cirúrgicos que utiliza transporte ótimo multimodal combinando informações visuais e textuais, alcançando desempenho superior a métodos zero-shot existentes sem a necessidade de pré-treinamento massivo em dados cirúrgicos.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

O artigo apresenta o HumanOrbit, um modelo de difusão de vídeo que gera vídeos de órbita 360° a partir de uma única imagem para criar visualizações multi-visuais geometricamente consistentes e preservar a identidade, permitindo a reconstrução de malhas 3D texturizadas com maior fidelidade e completude do que os métodos existentes.

Keito Suzuki, Kunyao Chen, Lei Wang + 5 more2026-03-02💻 cs

RAViT: Resolution-Adaptive Vision Transformer

O RAViT é um novo framework de classificação de imagens baseado em Vision Transformers que utiliza uma arquitetura multi-branch com diferentes resoluções e um mecanismo de saída antecipada para reduzir significativamente o custo computacional (aproximadamente 70% dos FLOPs) mantendo a precisão equivalente aos modelos clássicos.

Martial Guidez, Stefan Duffner, Christophe Garcia2026-03-02🤖 cs.LG

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

Este artigo apresenta uma nova hierarquia de superpixels para imagens de alta dimensão que incorpora a estrutura do manifold de atributos durante a construção, permitindo uma exploração consistente e espacialmente coerente tanto no espaço da imagem quanto no espaço de atributos.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

O artigo propõe o "Omnivorous Vision Encoder", um novo quadro de aprendizado que alinha representações de diferentes modalidades (como RGB e profundidade) em um espaço de características comum, preservando a semântica discriminativa de modelos fundacionais como o DINOv2 através de um processo de distilação e alinhamento cruzado.

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

← Anterior Próximo →