cs.CV artigos | Gist.Science

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

O artigo apresenta o GuiDINO, um framework que reposiciona modelos de visão fundamentais como geradores de orientação visual para segmentação médica, utilizando um mecanismo leve para transformar características do DINOv3 em máscaras-guia que melhoram a precisão e a robustez de bordas sem a necessidade de ajuste fino completo.

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

O artigo apresenta o ClinCoT, um framework de cadeia de pensamento visual consciente do contexto clínico que supera as alucinações factuais em modelos de linguagem e visão médica ao transformar a otimização de preferência de correção de resposta para raciocínio guiado por evidências visuais, utilizando um pipeline de geração de dados automatizado e uma estratégia de otimização iterativa baseada em pontuação.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

O artigo propõe o modelo PR-A $^2$ CL, que utiliza Aprendizado Contrastivo de Anomalia Aumentada e um paradigma de prever-e-verificar com Blocos de Raciocínio de Anomalia Preditiva para superar os desafios de raciocínio visual em relações composicionais, demonstrando desempenho superior em conjuntos de dados como SVRT, CVR e MC $^2$ R.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

O artigo apresenta o TCD-Net, uma rede baseada em Vision Transformers que utiliza intervenções causais guiadas por um modelo de IA para desentrelaçar ortogonalmente conteúdo e ruído, superando correlações espúrias e alcançando alta fidelidade e eficiência em tarefas de remoção de ruído.

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

O ArtLLM é um novo framework baseado em um modelo de linguagem multimodal 3D que gera ativos articulados de alta qualidade diretamente de malhas 3D completas, superando métodos existentes ao prever autoregressivamente a estrutura cinemática e sintetizar geometrias de partes, demonstrando alta precisão e generalização para aplicações em robótica e simulação.

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

O artigo propõe o TC-SSA, um framework de aprendizado que comprime tokens de imagens patológicas gigapixels em slots semânticos fixos via agregação inteligente, superando as limitações de amostragem espacial e alcançando desempenho diagnóstico superior com apenas 1,7% dos tokens originais.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

O artigo apresenta o ConVibNet, um framework em tempo real que utiliza dependências temporais e uma nova função de perda para melhorar a detecção contínua e precisa de agulhas em imagens de ultrassom, superando os limites de visibilidade e os métodos existentes.

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

O D-REX é um motor diferenciável que utiliza representações de Gaussian Splat para identificar a massa de objetos a partir de observações visuais do mundo real e sinais de controle robótico, permitindo a criação de gêmeos digitais de alta fidelidade e o aprendizado simultâneo de políticas de preensão dextrosa que reduzem significativamente a lacuna entre simulação e realidade.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

O artigo apresenta o GRAD-Former, um novo framework de detecção de mudanças em imagens de satélite que supera os modelos existentes em precisão e eficiência ao utilizar um mecanismo de atenção diferencial e gating para capturar contextos globais e locais com menos parâmetros.

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

O artigo apresenta o BeautyGRPO, um framework de aprendizado por reforço que alinha o retoque facial às preferências estéticas humanas por meio de um modelo de recompensa treinado no conjunto de dados FRPref-10K e de uma nova técnica chamada Dynamic Path Guidance, que equilibra a exploração estocástica com a preservação da fidelidade e identidade facial.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

O artigo apresenta o FREE-Edit, um método zero-shot para edição de vídeo baseada em imagem que utiliza modelos de Rectified Flow e uma nova técnica de injeção "Editing-aware" (REE) para modular dinamicamente a intensidade da injeção de características, garantindo a preservação do movimento e da estrutura da fonte enquanto aplica edições apenas nas áreas relevantes.

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

O artigo apresenta o TripleSumm, uma arquitetura inovadora que funde adaptativamente modalidades visuais, textuais e auditivas ao nível de quadro para sumarização de vídeo, e introduz o MoSu, o primeiro benchmark em larga escala com essas três modalidades, demonstrando desempenho superior ao estado da arte.

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

O artigo apresenta o VP-Hype, um novo framework híbrido que combina a eficiência linear dos modelos de espaço de estado (Mamba) com a modelagem relacional de Transformers e prompts visuais-textuais, alcançando desempenho superior na classificação de imagens hiperespectrais mesmo com extrema escassez de dados rotulados.

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

O artigo apresenta o RnG, um Transformer feed-forward unificado que supera as limitações de modelos de reconstrução 3D ao inferir estruturas completas a partir de observações parciais, combinando reconstrução precisa de geometria visível com a geração coerente de geometria não observada para renderização em tempo real de novas vistas.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

O artigo propõe o VisNec, um framework de seleção de dados que mede a necessidade visual para identificar e priorizar amostras críticas em tarefas de ajuste instrucional multimodal, demonstrando que treinar com apenas uma fração dos dados selecionados pode igualar ou superar o desempenho obtido com conjuntos de dados completos.

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

O artigo apresenta o CoSMo3D, um método inovador que alcança a segmentação semântica de partes 3D em mundo aberto e com prompts ao induzir um quadro de referência canônico latente via alinhamento guiado por LLM, permitindo que o modelo interprete partes funcionais independentemente da pose de entrada e estabelecendo um novo estado da arte.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Este trabalho apresenta um modelo de Linguagem e Visão (VLM) ajustado para estimar a posição 3D de objetos a partir de imagens monoculares em robótica colaborativa, alcançando uma precisão mediana de 13 mm e melhorando significativamente o desempenho em relação a baselines não ajustados.

Ari Wahl, Dorian Gawlinski, David Przewozny + 3 more2026-03-03🤖 cs.LG

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

Este artigo apresenta o SafeEditBench, um novo benchmark para avaliar a generalização de modelos de linguagem e visão (VLMs) sob diferentes políticas de segurança, e propõe o SafeGuard-VL, um método baseado em aprendizado por reforço com recompensas verificáveis para criar guardrails de imagem adaptáveis e robustos a políticas em evolução.

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

O artigo "AgilePruner" apresenta um estudo empírico que revela as limitações dos métodos de poda de tokens visuais baseados apenas em atenção ou diversidade, propondo uma estratégia adaptativa que ajusta dinamicamente a poda conforme a complexidade da imagem para melhorar a eficiência e reduzir alucinações em Modelos Grandes Visuais-Linguísticos (LVLMs).

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

O desafio MAMA-MIA estabeleceu um benchmark de grande escala com dados de múltiplos centros para avaliar e promover o desenvolvimento de sistemas de inteligência artificial mais generalizáveis e equitativos na segmentação de tumores e previsão de resposta ao tratamento em ressonância magnética mamária.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

← Anterior Próximo →