cs.CV artigos | Gist.Science

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

O SwitchCraft é uma abordagem sem treinamento que melhora a geração de vídeos com múltiplos eventos ao utilizar o direcionamento de consultas alinhado a eventos (EAQS) e um solucionador de força de equilíbrio automático (ABSS) para garantir a clareza narrativa e a consistência temporal.

Qianxun Xu, Chenxi Song, Yujun Cai + 1 more2026-03-02💻 cs

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Este artigo apresenta o NV-CoT, um novo framework que permite que modelos de linguagem multimodal realizem raciocínio visual por meio da geração direta de coordenadas numéricas contínuas, superando as limitações de métodos baseados em texto ou patches fixos e demonstrando melhorias significativas em precisão de localização, acurácia e velocidade de convergência.

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

Este artigo apresenta um framework de segmentação de AVC isquêmico e pontuação ASPECTS em TC não contrastada que integra representações de modelos foundation com uma perda de porta consciente do território (TAGL) para impor consistência anatômica entre os níveis basais e supraganglionares, resultando em desempenho superior sem aumentar a complexidade na inferência.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

O artigo propõe uma estratégia de segmentação volumétrica que estende representações 2D congeladas do DINOv3 para a segmentação de estruturas do cérebro neonatal em 3D, utilizando um mecanismo estruturado de desmontagem e remontagem baseada em janelas que alcança um escore Dice de 0,65 no conjunto de dados ALBERT.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

O artigo apresenta o SpikeTrack, um framework inovador de redes neurais de pulso (SNN) que utiliza um design assimétrico e um módulo de recuperação de memória para alcançar rastreamento visual RGB com precisão de ponta e eficiência energética superior, superando trackers baseados em ANN como o TransT com uma fração do consumo de energia.

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

O artigo apresenta o MSVBench, o primeiro benchmark abrangente para avaliação de geração de vídeos multi-cena, que utiliza um framework híbrido de modelos multimodais e especialistas para demonstrar que os métodos atuais carecem de coerência narrativa e oferece um sinal supervisionado escalável para alinhar o desempenho dos modelos com julgamentos humanos.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

O artigo apresenta o Venus, um novo framework e conjunto de dados (AesGuide) que capacita Modelos de Linguagem Multimodais a fornecer orientação estética acionável e realizar recortes estéticos otimizados, superando as limitações atuais dos modelos existentes na identificação de problemas e no refinamento de composições fotográficas.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

O artigo apresenta o MINT, um framework inovador de transferência de conhecimento que alinha representações de fala a um espaço de biomarcadores neurais derivados de ressonância magnética durante o treinamento, permitindo a triagem precoce da doença de Alzheimer com a precisão de métodos multimodais, mas sem a necessidade de exames de imagem na fase de inferência.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

O artigo apresenta o MIGM-Shortcut, um método que acelera a geração de imagens mascaradas em mais de 4x ao aprender um modelo leve que integra características anteriores e tokens amostrados para prever a evolução dinâmica dos recursos, superando as limitações de precisão de abordagens anteriores de cache.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Ordinal Diffusion Models for Color Fundus Images

Este artigo propõe um modelo de difusão latente ordinal para gerar imagens de fundo de olho que incorpora explicitamente a estrutura ordenada da progressão da retinopatia diabética, demonstrando superioridade em realismo visual e consistência clínica em comparação com modelos condicionais padrão.

Gustav Schmidt, Philipp Berens, Sarah Müller2026-03-02💻 cs

Interpretable Debiasing of Vision-Language Models for Social Fairness

Este trabalho apresenta o DeBiasLens, um framework interpretável e agnóstico a modelos que utiliza autoencoders esparsos para localizar e desativar seletivamente neurônios associados a atributos sociais em Modelos Visão-Linguagem, mitigando vieses sociais sem comprometer o conhecimento semântico.

Na Min An, Yoonna Jang, Yusuke Hirota + 3 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

O artigo apresenta o SR3R, um novo framework feed-forward que reformula a reconstrução 3D de super-resolução ao mapear diretamente vistas de baixa resolução esparsas para representações 3DGS de alta resolução, permitindo a aprendizagem autônoma de detalhes de alta frequência e uma generalização robusta em cenas não vistas, superando os métodos atuais de otimização por cena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

O artigo apresenta o SteerVAD, um novo framework que supera as limitações dos modelos de linguagem multimodal congelados na detecção de anomalias em vídeos ao identificar e ativamente corrigir representações latentes específicas por meio de um controlador hierárquico, alcançando desempenho superior com apenas 1% dos dados de treinamento.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

O GuardAlign é uma defesa sem treinamento para modelos de linguagem grandes multimodais que utiliza detecção de segurança aprimorada por transporte ótimo e calibração atenta cruzada para reduzir significativamente respostas inseguras sem comprometer a utilidade do modelo.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

O artigo propõe o AIR, uma estrutura sem treinamento que mitiga alucinações em Modelos de Linguagem Multimodal ao reduzir a redundância de tokens visuais e reforçar seletivamente os patches mais alinhados com o estado oculto do modelo, melhorando assim a precisão sem comprometer as capacidades gerais.

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este artigo apresenta um framework unificado para a reconstrução 3D de alta fidelidade de roupas a partir de imagens monoculares e vídeos, combinando Padrões de Costura Implícitos com um modelo difusivo generativo para aprender prios de forma em espaço UV e garantir consistência temporal, superando métodos existentes na reconstrução de roupas justas e folgadas com detalhes geométricos realistas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabalho apresenta o Quant Experts (QE), um método de pós-treinamento para quantização de Modelos Visuais-Linguísticos que utiliza uma arquitetura de Mixture of Experts adaptativa e consciente de tokens para compensar erros de quantização de forma dinâmica, melhorando a precisão em modelos de 2B a 70B parâmetros sem necessidade de retreinamento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Este artigo apresenta um quadro de verificação neurosimbólico que utiliza solvers SMT e bases de conhecimento clínico para auditar a consistência lógica de relatórios radiológicos gerados por modelos de visão e linguagem, eliminando alucinações e garantindo a validade dedutiva das conclusões diagnósticas.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

O artigo apresenta o AgenticOCR, um paradigma de parseamento dinâmico e orientado a consultas que otimiza a recuperação aumentada por geração (RAG) multimodal ao extrair seletivamente apenas as regiões relevantes de documentos visuais complexos, superando as limitações do processamento de páginas inteiras e melhorando significativamente a eficiência e a precisão na compreensão de documentos longos.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

Este artigo propõe uma estratégia de poda integrada e adaptativa combinada com primitivas de Diferença de Gaussianas 3D para reduzir significativamente o número de gaussianas em Splatting 3D, alcançando até 90% de compactação sem comprometer a qualidade visual.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

← Anterior Próximo →