cs.CV artigos | Gist.Science

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

O artigo apresenta o TripleSumm, uma arquitetura inovadora que funde adaptativamente modalidades visuais, textuais e auditivas ao nível de quadro para sumarização de vídeo, e introduz o MoSu, o primeiro benchmark em larga escala com essas três modalidades, demonstrando desempenho superior ao estado da arte.

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

O artigo apresenta o VP-Hype, um novo framework híbrido que combina a eficiência linear dos modelos de espaço de estado (Mamba) com a modelagem relacional de Transformers e prompts visuais-textuais, alcançando desempenho superior na classificação de imagens hiperespectrais mesmo com extrema escassez de dados rotulados.

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

O artigo apresenta o RnG, um Transformer feed-forward unificado que supera as limitações de modelos de reconstrução 3D ao inferir estruturas completas a partir de observações parciais, combinando reconstrução precisa de geometria visível com a geração coerente de geometria não observada para renderização em tempo real de novas vistas.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

O artigo propõe o VisNec, um framework de seleção de dados que mede a necessidade visual para identificar e priorizar amostras críticas em tarefas de ajuste instrucional multimodal, demonstrando que treinar com apenas uma fração dos dados selecionados pode igualar ou superar o desempenho obtido com conjuntos de dados completos.

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

O artigo apresenta o CoSMo3D, um método inovador que alcança a segmentação semântica de partes 3D em mundo aberto e com prompts ao induzir um quadro de referência canônico latente via alinhamento guiado por LLM, permitindo que o modelo interprete partes funcionais independentemente da pose de entrada e estabelecendo um novo estado da arte.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Este trabalho apresenta um modelo de Linguagem e Visão (VLM) ajustado para estimar a posição 3D de objetos a partir de imagens monoculares em robótica colaborativa, alcançando uma precisão mediana de 13 mm e melhorando significativamente o desempenho em relação a baselines não ajustados.

Ari Wahl, Dorian Gawlinski, David Przewozny + 3 more2026-03-03🤖 cs.LG

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

Este artigo apresenta o SafeEditBench, um novo benchmark para avaliar a generalização de modelos de linguagem e visão (VLMs) sob diferentes políticas de segurança, e propõe o SafeGuard-VL, um método baseado em aprendizado por reforço com recompensas verificáveis para criar guardrails de imagem adaptáveis e robustos a políticas em evolução.

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

O artigo "AgilePruner" apresenta um estudo empírico que revela as limitações dos métodos de poda de tokens visuais baseados apenas em atenção ou diversidade, propondo uma estratégia adaptativa que ajusta dinamicamente a poda conforme a complexidade da imagem para melhorar a eficiência e reduzir alucinações em Modelos Grandes Visuais-Linguísticos (LVLMs).

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

O desafio MAMA-MIA estabeleceu um benchmark de grande escala com dados de múltiplos centros para avaliar e promover o desenvolvimento de sistemas de inteligência artificial mais generalizáveis e equitativos na segmentação de tumores e previsão de resposta ao tratamento em ressonância magnética mamária.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Cross-Modal Guidance for Fast Diffusion-Based Computed Tomography

Este trabalho propõe um método que incorpora uma modalidade de imagem complementar, como a tomografia computadorizada por raios-X, para guiar modelos de difusão na reconstrução de dados esparsos de tomografia por nêutrons sem a necessidade de retreinamento do modelo, melhorando significativamente a qualidade da imagem.

Timofey Efimov, Singanallur Venkatakrishnan, Maliha Hossain + 2 more2026-03-03💻 cs

Certifiable Estimation with Factor Graphs

Este artigo apresenta um quadro unificado que integra a otimização de grafos de fatores com estimadores certificáveis, preservando a estrutura do grafo sob relaxações convexas para permitir a implementação de soluções globalmente ótimas utilizando bibliotecas e fluxos de trabalho existentes e maduros da robótica e visão computacional.

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

O artigo apresenta o FoSS, um novo framework de dupla ramificação que integra modelagem no domínio da frequência e estados espaciais seletivos para prever trajetórias em direção autônoma com alta precisão e incerteza multimodal, superando os métodos existentes ao reduzir significativamente a complexidade computacional e o número de parâmetros.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

Este artigo propõe um novo quadro de aprendizado multi-tarefa para análise de ultrassom mamário que supera as limitações das abordagens convencionais através de uma interação bidirecional em múltiplos níveis entre os decodificadores e um mecanismo de coordenação adaptativa baseado em incerteza, resultando em segmentação de lesões e classificação de tecidos mais precisas e robustas.

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Este estudo demonstra que o Aprendizado por Reforço (RL) otimiza principalmente a distribuição de saída e a eficiência de amostragem em Modelos Visuais-Linguísticos médicos quando já existe um suporte significativo induzido pelo Ajuste Fino Supervisionado (SFT), propondo uma estratégia de treinamento que combina SFT e RL para alcançar alto desempenho em benchmarks de VQA médica.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

O artigo apresenta o AG-VAS, um novo framework de segmentação de anomalias visuais zero-shot que expande o vocabulário de Modelos Multimodais Grandes com tokens âncora semânticos e um módulo de alinhamento para superar limitações na localização precisa de anomalias, alcançando desempenho superior em diversos benchmarks industriais e médicos.

Zhen Qu, Xian Tao, Xiaoyi Bao + 4 more2026-03-03🤖 cs.AI

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Este trabalho apresenta uma avaliação comparativa entre métodos de aprendizado supervisionado e modelos de visão de vocabulário aberto para a compreensão de cenas pós-desastre, concluindo que, embora os modelos de vocabulário aberto ofereçam flexibilidade, o aprendizado supervisionado permanece a abordagem mais confiável para a segmentação e detecção precisas em cenários complexos e com objetos pequenos.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

O artigo apresenta o NVB-Face, um método inovador de estágio único que gera imagens de faces consistentes sob novos ângulos diretamente a partir de uma única imagem facial degradada, superando as limitações das abordagens tradicionais de dois estágios ao extrair características diretamente da imagem cega e utilizá-las em um modelo de difusão para criar representações latentes 3D.

Taoyue Wang, Xiang Zhang, Xiaotian Li + 2 more2026-03-03🤖 cs.AI

Perspective-Equivariant Fine-tuning for Multispectral Demosaicing without Ground Truth

O artigo propõe o PEFD, um quadro de ajuste fino equivariante a perspectiva que permite a demosaicing espectral de alta fidelidade sem necessidade de dados de referência, explorando a geometria projetiva e adaptando modelos fundacionais pré-treinados para superar métodos clássicos e supervisionados em cenários como neurocirurgia e condução autônoma.

Andrew Wang, Mike Davies2026-03-03💻 cs

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

O MixerCSeg é uma arquitetura de mistura eficiente para segmentação de fissuras que integra vias locais, globais e sequenciais através de um TransMixer e mecanismos de borda direcionados, alcançando desempenho de última geração com baixo custo computacional.

Zilong Zhao, Zhengming Ding, Pei Niu + 2 more2026-03-03🤖 cs.AI

TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity

O artigo apresenta o TIMI, uma nova abordagem sem necessidade de treinamento para a geração multi-instância de imagens em 3D que, através dos módulos ISG e SGU, alcança alta fidelidade espacial e desentrelaçamento de instâncias sem a sobrecarga de ajuste fino.

Xiao Cai, Lianli Gao, Pengpeng Zeng + 3 more2026-03-03💻 cs

← Anterior Próximo →