ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

O artigo apresenta o ClinCoT, um framework de cadeia de pensamento visual consciente do contexto clínico que supera as alucinações factuais em modelos de linguagem e visão médica ao transformar a otimização de preferência de correção de resposta para raciocínio guiado por evidências visuais, utilizando um pipeline de geração de dados automatizado e uma estratégia de otimização iterativa baseada em pontuação.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

O artigo propõe o modelo PR-A2^2CL, que utiliza Aprendizado Contrastivo de Anomalia Aumentada e um paradigma de prever-e-verificar com Blocos de Raciocínio de Anomalia Preditiva para superar os desafios de raciocínio visual em relações composicionais, demonstrando desempenho superior em conjuntos de dados como SVRT, CVR e MC2^2R.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

O D-REX é um motor diferenciável que utiliza representações de Gaussian Splat para identificar a massa de objetos a partir de observações visuais do mundo real e sinais de controle robótico, permitindo a criação de gêmeos digitais de alta fidelidade e o aprendizado simultâneo de políticas de preensão dextrosa que reduzem significativamente a lacuna entre simulação e realidade.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

O artigo apresenta o BeautyGRPO, um framework de aprendizado por reforço que alinha o retoque facial às preferências estéticas humanas por meio de um modelo de recompensa treinado no conjunto de dados FRPref-10K e de uma nova técnica chamada Dynamic Path Guidance, que equilibra a exploração estocástica com a preservação da fidelidade e identidade facial.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

O artigo apresenta o FREE-Edit, um método zero-shot para edição de vídeo baseada em imagem que utiliza modelos de Rectified Flow e uma nova técnica de injeção "Editing-aware" (REE) para modular dinamicamente a intensidade da injeção de características, garantindo a preservação do movimento e da estrutura da fonte enquanto aplica edições apenas nas áreas relevantes.

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

O artigo apresenta o VP-Hype, um novo framework híbrido que combina a eficiência linear dos modelos de espaço de estado (Mamba) com a modelagem relacional de Transformers e prompts visuais-textuais, alcançando desempenho superior na classificação de imagens hiperespectrais mesmo com extrema escassez de dados rotulados.

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

O artigo apresenta o CoSMo3D, um método inovador que alcança a segmentação semântica de partes 3D em mundo aberto e com prompts ao induzir um quadro de referência canônico latente via alinhamento guiado por LLM, permitindo que o modelo interprete partes funcionais independentemente da pose de entrada e estabelecendo um novo estado da arte.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

O artigo "AgilePruner" apresenta um estudo empírico que revela as limitações dos métodos de poda de tokens visuais baseados apenas em atenção ou diversidade, propondo uma estratégia adaptativa que ajusta dinamicamente a poda conforme a complexidade da imagem para melhorar a eficiência e reduzir alucinações em Modelos Grandes Visuais-Linguísticos (LVLMs).

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

O desafio MAMA-MIA estabeleceu um benchmark de grande escala com dados de múltiplos centros para avaliar e promover o desenvolvimento de sistemas de inteligência artificial mais generalizáveis e equitativos na segmentação de tumores e previsão de resposta ao tratamento em ressonância magnética mamária.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI