cs.CV artigos | Gist.Science

Differential privacy representation geometry for medical image analysis

Este artigo apresenta o DP-RGMI, um novo framework que analisa a perda de utilidade na privacidade diferencial para imagens médicas ao decompor o desempenho em geometria da representação e utilização da tarefa, revelando que a privacidade altera a anisotropia das representações e cria uma lacuna de utilização mesmo quando a separabilidade linear é preservada.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

O artigo apresenta o StrokeDiff, um framework baseado em modelos de difusão com Regularização Suave (SmR) que permite a geração eficiente de pinceladas realistas para pinturas a óleo a partir de um conjunto de dados limitado, oferecendo ao mesmo tempo controle estruturado e integração em um pipeline completo de criação artística.

Dantong Qin, Alessandro Bozzon, Xian Yang + 3 more2026-03-03💻 cs

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

O artigo apresenta o "Egocentric Co-Pilot", um agente de óculos inteligentes baseado em uma estrutura neuro-simbólica nativa da web que combina modelos de linguagem, raciocínio temporal e compressão de contexto para fornecer assistência contínua e acessível em tempo real, demonstrando superioridade em tarefas de perguntas e respostas egocêntricas e satisfação do usuário em comparação com soluções comerciais.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

O artigo apresenta o GroundedSurg, o primeiro benchmark de referência linguística para segmentação de instrumentos cirúrgicos em nível de instância, que avalia a capacidade de modelos de visão e linguagem de localizar ferramentas específicas com base em descrições naturais e relações espaciais em diversos cenários cirúrgicos.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

O artigo apresenta o GuiDINO, um framework que reposiciona modelos de visão fundamentais como geradores de orientação visual para segmentação médica, utilizando um mecanismo leve para transformar características do DINOv3 em máscaras-guia que melhoram a precisão e a robustez de bordas sem a necessidade de ajuste fino completo.

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

O artigo apresenta o ClinCoT, um framework de cadeia de pensamento visual consciente do contexto clínico que supera as alucinações factuais em modelos de linguagem e visão médica ao transformar a otimização de preferência de correção de resposta para raciocínio guiado por evidências visuais, utilizando um pipeline de geração de dados automatizado e uma estratégia de otimização iterativa baseada em pontuação.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

O artigo propõe o modelo PR-A $^2$ CL, que utiliza Aprendizado Contrastivo de Anomalia Aumentada e um paradigma de prever-e-verificar com Blocos de Raciocínio de Anomalia Preditiva para superar os desafios de raciocínio visual em relações composicionais, demonstrando desempenho superior em conjuntos de dados como SVRT, CVR e MC $^2$ R.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

O artigo apresenta o TCD-Net, uma rede baseada em Vision Transformers que utiliza intervenções causais guiadas por um modelo de IA para desentrelaçar ortogonalmente conteúdo e ruído, superando correlações espúrias e alcançando alta fidelidade e eficiência em tarefas de remoção de ruído.

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

O ArtLLM é um novo framework baseado em um modelo de linguagem multimodal 3D que gera ativos articulados de alta qualidade diretamente de malhas 3D completas, superando métodos existentes ao prever autoregressivamente a estrutura cinemática e sintetizar geometrias de partes, demonstrando alta precisão e generalização para aplicações em robótica e simulação.

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

O artigo propõe o TC-SSA, um framework de aprendizado que comprime tokens de imagens patológicas gigapixels em slots semânticos fixos via agregação inteligente, superando as limitações de amostragem espacial e alcançando desempenho diagnóstico superior com apenas 1,7% dos tokens originais.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

O artigo apresenta o ConVibNet, um framework em tempo real que utiliza dependências temporais e uma nova função de perda para melhorar a detecção contínua e precisa de agulhas em imagens de ultrassom, superando os limites de visibilidade e os métodos existentes.

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

O D-REX é um motor diferenciável que utiliza representações de Gaussian Splat para identificar a massa de objetos a partir de observações visuais do mundo real e sinais de controle robótico, permitindo a criação de gêmeos digitais de alta fidelidade e o aprendizado simultâneo de políticas de preensão dextrosa que reduzem significativamente a lacuna entre simulação e realidade.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

O artigo apresenta o GRAD-Former, um novo framework de detecção de mudanças em imagens de satélite que supera os modelos existentes em precisão e eficiência ao utilizar um mecanismo de atenção diferencial e gating para capturar contextos globais e locais com menos parâmetros.

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

O artigo apresenta o BeautyGRPO, um framework de aprendizado por reforço que alinha o retoque facial às preferências estéticas humanas por meio de um modelo de recompensa treinado no conjunto de dados FRPref-10K e de uma nova técnica chamada Dynamic Path Guidance, que equilibra a exploração estocástica com a preservação da fidelidade e identidade facial.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

O artigo apresenta o FREE-Edit, um método zero-shot para edição de vídeo baseada em imagem que utiliza modelos de Rectified Flow e uma nova técnica de injeção "Editing-aware" (REE) para modular dinamicamente a intensidade da injeção de características, garantindo a preservação do movimento e da estrutura da fonte enquanto aplica edições apenas nas áreas relevantes.

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

O artigo apresenta o TripleSumm, uma arquitetura inovadora que funde adaptativamente modalidades visuais, textuais e auditivas ao nível de quadro para sumarização de vídeo, e introduz o MoSu, o primeiro benchmark em larga escala com essas três modalidades, demonstrando desempenho superior ao estado da arte.

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

O artigo apresenta o VP-Hype, um novo framework híbrido que combina a eficiência linear dos modelos de espaço de estado (Mamba) com a modelagem relacional de Transformers e prompts visuais-textuais, alcançando desempenho superior na classificação de imagens hiperespectrais mesmo com extrema escassez de dados rotulados.

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

O artigo apresenta o RnG, um Transformer feed-forward unificado que supera as limitações de modelos de reconstrução 3D ao inferir estruturas completas a partir de observações parciais, combinando reconstrução precisa de geometria visível com a geração coerente de geometria não observada para renderização em tempo real de novas vistas.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

O artigo propõe o VisNec, um framework de seleção de dados que mede a necessidade visual para identificar e priorizar amostras críticas em tarefas de ajuste instrucional multimodal, demonstrando que treinar com apenas uma fração dos dados selecionados pode igualar ou superar o desempenho obtido com conjuntos de dados completos.

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

O artigo apresenta o CoSMo3D, um método inovador que alcança a segmentação semântica de partes 3D em mundo aberto e com prompts ao induzir um quadro de referência canônico latente via alinhamento guiado por LLM, permitindo que o modelo interprete partes funcionais independentemente da pose de entrada e estabelecendo um novo estado da arte.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

← Anterior Próximo →