Differential privacy representation geometry for medical image analysis

Este artigo apresenta o DP-RGMI, um novo framework que analisa a perda de utilidade na privacidade diferencial para imagens médicas ao decompor o desempenho em geometria da representação e utilização da tarefa, revelando que a privacidade altera a anisotropia das representações e cria uma lacuna de utilização mesmo quando a separabilidade linear é preservada.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

O artigo apresenta o "Egocentric Co-Pilot", um agente de óculos inteligentes baseado em uma estrutura neuro-simbólica nativa da web que combina modelos de linguagem, raciocínio temporal e compressão de contexto para fornecer assistência contínua e acessível em tempo real, demonstrando superioridade em tarefas de perguntas e respostas egocêntricas e satisfação do usuário em comparação com soluções comerciais.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

O artigo apresenta o GroundedSurg, o primeiro benchmark de referência linguística para segmentação de instrumentos cirúrgicos em nível de instância, que avalia a capacidade de modelos de visão e linguagem de localizar ferramentas específicas com base em descrições naturais e relações espaciais em diversos cenários cirúrgicos.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

O artigo apresenta o ClinCoT, um framework de cadeia de pensamento visual consciente do contexto clínico que supera as alucinações factuais em modelos de linguagem e visão médica ao transformar a otimização de preferência de correção de resposta para raciocínio guiado por evidências visuais, utilizando um pipeline de geração de dados automatizado e uma estratégia de otimização iterativa baseada em pontuação.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

O artigo propõe o modelo PR-A2^2CL, que utiliza Aprendizado Contrastivo de Anomalia Aumentada e um paradigma de prever-e-verificar com Blocos de Raciocínio de Anomalia Preditiva para superar os desafios de raciocínio visual em relações composicionais, demonstrando desempenho superior em conjuntos de dados como SVRT, CVR e MC2^2R.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

O D-REX é um motor diferenciável que utiliza representações de Gaussian Splat para identificar a massa de objetos a partir de observações visuais do mundo real e sinais de controle robótico, permitindo a criação de gêmeos digitais de alta fidelidade e o aprendizado simultâneo de políticas de preensão dextrosa que reduzem significativamente a lacuna entre simulação e realidade.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

O artigo apresenta o BeautyGRPO, um framework de aprendizado por reforço que alinha o retoque facial às preferências estéticas humanas por meio de um modelo de recompensa treinado no conjunto de dados FRPref-10K e de uma nova técnica chamada Dynamic Path Guidance, que equilibra a exploração estocástica com a preservação da fidelidade e identidade facial.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

O artigo apresenta o FREE-Edit, um método zero-shot para edição de vídeo baseada em imagem que utiliza modelos de Rectified Flow e uma nova técnica de injeção "Editing-aware" (REE) para modular dinamicamente a intensidade da injeção de características, garantindo a preservação do movimento e da estrutura da fonte enquanto aplica edições apenas nas áreas relevantes.

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

O artigo apresenta o VP-Hype, um novo framework híbrido que combina a eficiência linear dos modelos de espaço de estado (Mamba) com a modelagem relacional de Transformers e prompts visuais-textuais, alcançando desempenho superior na classificação de imagens hiperespectrais mesmo com extrema escassez de dados rotulados.

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

O artigo apresenta o CoSMo3D, um método inovador que alcança a segmentação semântica de partes 3D em mundo aberto e com prompts ao induzir um quadro de referência canônico latente via alinhamento guiado por LLM, permitindo que o modelo interprete partes funcionais independentemente da pose de entrada e estabelecendo um novo estado da arte.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs