cs.CV artigos | Gist.Science

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

Este artigo propõe um novo framework de estimativa de transferibilidade baseado em topologia, composto por divergência global de representação, consistência topológica local e fusão adaptativa, que supera significativamente os métodos existentes ao permitir a seleção eficiente e sem treinamento de modelos fundamentais médicos para tarefas de segmentação.

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

O artigo propõe o GPU-SDF, um novo framework de reconstrução neural para ambientes internos que supera as limitações de detalhes finos ao estimar explicitamente a incerteza dos priores geométricos e aplicar restrições complementares para refinar a superfície sem descartar informações úteis.

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

Este trabalho propõe o STE-VLN, uma abordagem que aprimora a navegação visão-linguagem em ambientes não vistos ao integrar o YE-KG, um novo grafo de conhecimento espaço-temporal multimodal derivado de vídeos reais, permitindo que agentes recuperem sequências de eventos causais para resolver instruções vagas e tarefas de longo horizonte com maior eficácia.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

O artigo apresenta o PointCoT, um novo framework e benchmark de grande escala que aprimora o raciocínio geométrico 3D em Modelos de Linguagem Multimodal ao adotar um paradigma explícito de "observar, pensar e responder" com cadeias de raciocínio fundamentadas em dados, superando assim as alucinações geométricas comuns em abordagens anteriores.

Dongxu Zhang, Yiding Sun, Pengcheng Li + 12 more2026-03-02🤖 cs.AI

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

Este artigo propõe uma rede de extração de características de microexpressões baseada em dois ramos com atenção paralela e fusão adaptativa, que supera os métodos existentes ao atingir 74,67% de precisão no conjunto de dados CASME II.

Mingjie Zhang, Bo Li, Wanting Liu + 5 more2026-03-02🤖 cs.AI

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

O artigo apresenta o CC-VQA, um método inovador e sem necessidade de treinamento para a Resposta Visual a Perguntas Baseada em Conhecimento (KB-VQA) que mitiga conflitos de conhecimento através da análise visual-semantic e da codificação guiada por correlação, alcançando desempenho superior em benchmarks como E-VQA, InfoSeek e OK-VQA.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting

Este estudo apresenta o GDA-YOLO11, um novo modelo de segmentação amodal que melhora a robustez à oclusão e a precisão na colheita robótica de frutas, alcançando taxas de sucesso superiores em cenários com diferentes níveis de oclusão em citrinos.

Caner Beldek, Emre Sariyildiz, Son Lam Phung + 1 more2026-03-02💻 cs

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

O SwitchCraft é uma abordagem sem treinamento que melhora a geração de vídeos com múltiplos eventos ao utilizar o direcionamento de consultas alinhado a eventos (EAQS) e um solucionador de força de equilíbrio automático (ABSS) para garantir a clareza narrativa e a consistência temporal.

Qianxun Xu, Chenxi Song, Yujun Cai + 1 more2026-03-02💻 cs

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Este artigo apresenta o NV-CoT, um novo framework que permite que modelos de linguagem multimodal realizem raciocínio visual por meio da geração direta de coordenadas numéricas contínuas, superando as limitações de métodos baseados em texto ou patches fixos e demonstrando melhorias significativas em precisão de localização, acurácia e velocidade de convergência.

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

Este artigo apresenta um framework de segmentação de AVC isquêmico e pontuação ASPECTS em TC não contrastada que integra representações de modelos foundation com uma perda de porta consciente do território (TAGL) para impor consistência anatômica entre os níveis basais e supraganglionares, resultando em desempenho superior sem aumentar a complexidade na inferência.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

O artigo propõe uma estratégia de segmentação volumétrica que estende representações 2D congeladas do DINOv3 para a segmentação de estruturas do cérebro neonatal em 3D, utilizando um mecanismo estruturado de desmontagem e remontagem baseada em janelas que alcança um escore Dice de 0,65 no conjunto de dados ALBERT.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

O artigo apresenta o SpikeTrack, um framework inovador de redes neurais de pulso (SNN) que utiliza um design assimétrico e um módulo de recuperação de memória para alcançar rastreamento visual RGB com precisão de ponta e eficiência energética superior, superando trackers baseados em ANN como o TransT com uma fração do consumo de energia.

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

O artigo apresenta o MSVBench, o primeiro benchmark abrangente para avaliação de geração de vídeos multi-cena, que utiliza um framework híbrido de modelos multimodais e especialistas para demonstrar que os métodos atuais carecem de coerência narrativa e oferece um sinal supervisionado escalável para alinhar o desempenho dos modelos com julgamentos humanos.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

O artigo apresenta o Venus, um novo framework e conjunto de dados (AesGuide) que capacita Modelos de Linguagem Multimodais a fornecer orientação estética acionável e realizar recortes estéticos otimizados, superando as limitações atuais dos modelos existentes na identificação de problemas e no refinamento de composições fotográficas.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

O artigo apresenta o MINT, um framework inovador de transferência de conhecimento que alinha representações de fala a um espaço de biomarcadores neurais derivados de ressonância magnética durante o treinamento, permitindo a triagem precoce da doença de Alzheimer com a precisão de métodos multimodais, mas sem a necessidade de exames de imagem na fase de inferência.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

O artigo apresenta o MIGM-Shortcut, um método que acelera a geração de imagens mascaradas em mais de 4x ao aprender um modelo leve que integra características anteriores e tokens amostrados para prever a evolução dinâmica dos recursos, superando as limitações de precisão de abordagens anteriores de cache.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Ordinal Diffusion Models for Color Fundus Images

Este artigo propõe um modelo de difusão latente ordinal para gerar imagens de fundo de olho que incorpora explicitamente a estrutura ordenada da progressão da retinopatia diabética, demonstrando superioridade em realismo visual e consistência clínica em comparação com modelos condicionais padrão.

Gustav Schmidt, Philipp Berens, Sarah Müller2026-03-02💻 cs

Interpretable Debiasing of Vision-Language Models for Social Fairness

Este trabalho apresenta o DeBiasLens, um framework interpretável e agnóstico a modelos que utiliza autoencoders esparsos para localizar e desativar seletivamente neurônios associados a atributos sociais em Modelos Visão-Linguagem, mitigando vieses sociais sem comprometer o conhecimento semântico.

Na Min An, Yoonna Jang, Yusuke Hirota + 3 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

O artigo apresenta o SR3R, um novo framework feed-forward que reformula a reconstrução 3D de super-resolução ao mapear diretamente vistas de baixa resolução esparsas para representações 3DGS de alta resolução, permitindo a aprendizagem autônoma de detalhes de alta frequência e uma generalização robusta em cenas não vistas, superando os métodos atuais de otimização por cena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

O artigo apresenta o SteerVAD, um novo framework que supera as limitações dos modelos de linguagem multimodal congelados na detecção de anomalias em vídeos ao identificar e ativamente corrigir representações latentes específicas por meio de um controlador hierárquico, alcançando desempenho superior com apenas 1% dos dados de treinamento.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

← Anterior Próximo →