cs.CV artigos | Gist.Science

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Este trabalho apresenta um quadro abrangente de IA interpretável que integra imagens clínicas e histórico familiar para aprimorar o diagnóstico dermatológico, com validação preliminar por profissionais de saúde e planos para futuros ensaios clínicos prospectivos.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

O artigo apresenta o GeoTeacher, um método de detecção 3D semi-supervisionada que melhora a capacidade dos modelos de capturar relações geométricas de objetos através de uma supervisão baseada em pontos-chave e uma estratégia de aumento de dados em voxels com mecanismo de decaimento de distância, alcançando resultados state-of-the-art nos conjuntos de dados ONCE e Waymo.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

O artigo propõe o método ForCM, que integra Análise de Imagem Baseada em Objetos (OBIA) com modelos de Deep Learning aplicados a imagens Sentinel-2, demonstrando que essa abordagem híbrida supera os métodos tradicionais de OBIA na precisão do mapeamento de cobertura florestal na Amazônia.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

O artigo apresenta o CEM, um plugin plug-and-play que otimiza a fidelidade na aceleração de Transformers de Difusão (DiT) através da minimização do erro cumulativo, utilizando um algoritmo de programação dinâmica para adaptar dinamicamente as estratégias de cache e superar o desempenho de geração de modelos existentes.

Tong Shao, Yusen Fu, Guoying Sun + 3 more2026-03-03💻 cs

Aligned explanations in neural networks

Este artigo propõe as PiNets, um novo framework de aprendizado profundo baseado no princípio de legibilidade do modelo, que garante explicações alinhadas e fiáveis às previsões reais da rede neural, superando as limitações de racionalização dos métodos de atribuição de características tradicionais.

Corentin Lobet, Francesca Chiaromonte2026-03-03📊 stat

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

O TP-Blend é uma estrutura leve e sem treinamento que combina dois prompts textuais distintos para realizar a fusão precisa de objetos e estilos em modelos de difusão, utilizando os mecanismos de fusão de atenção de objetos (CAOF) e fusão de estilo (SASF) para gerar edições fotorealistas de alta resolução com controle simultâneo sobre conteúdo e aparência.

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

O artigo apresenta o método Copy-Transform-Paste, uma abordagem zero-shot que otimiza a pose relativa entre duas malhas 3D utilizando gradientes do CLIP e um renderizador diferenciável, complementados por restrições geométricas e de linguagem, para gerar alinhamentos semânticos e fisicamente plausíveis sem necessidade de treinamento prévio.

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

Counterfactual Explanations on Robust Perceptual Geodesics

Este artigo apresenta o Perceptual Counterfactual Geodesics (PCG), um método que gera explicações contrafactuais semântica e visualmente válidas traçando geodésicas em um espaço latente com métrica riemanniana perceptual, superando as limitações de abordagens existentes que produzem artefatos fora da variedade ou colapsos adversariais.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

O artigo apresenta o Vision-DeepResearch, um novo paradigma para Modelos de Linguagem Multimodal (MLLMs) que, por meio de treinamento supervisionado e por reforço, internaliza capacidades de pesquisa profunda multi-turno e multi-escala para superar ruído visual e resolver questões complexas, superando tanto modelos existentes quanto fluxos de trabalho baseados em fundações proprietárias de ponta.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Este artigo propõe um novo paradigma para detecção de anomalias baseado na compatibilidade entre sujeito e contexto, introduzindo o benchmark CAAD-3K e um framework de aprendizado que supera os métodos existentes ao modelar anomalias como dependências contextuais em vez de propriedades intrínsecas.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

Este trabalho apresenta o HitEmotion, um benchmark hierárquico baseado na Teoria da Mente, juntamente com uma cadeia de raciocínio guiada e o método de aprendizado por reforço TMPO, para diagnosticar e aprimorar a capacidade de raciocínio emocional profundo em modelos de linguagem multimodais.

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Este artigo propõe um novo método de quantização pós-treinamento para modelos de difusão que otimiza a atribuição de pesos às amostras de calibração para alinhar os gradientes entre os diferentes timesteps, superando as limitações das abordagens uniformes existentes e melhorando significativamente a eficiência e a qualidade da geração de imagens.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

O artigo apresenta o CaCoVID, um novo algoritmo de compressão de tokens para modelos de linguagem grandes em vídeo que utiliza aprendizado por reforço para otimizar ativamente a seleção de tokens com base em sua contribuição direta para respostas corretas, superando as limitações dos métodos tradicionais baseados em scores de atenção.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

O artigo apresenta o CloDS, um quadro de aprendizado não supervisionado que utiliza observações visuais multiview e uma técnica de splatting gaussiano baseada em malha para aprender a dinâmica de tecidos em condições desconhecidas sem depender de propriedades físicas pré-definidas.

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Este artigo apresenta o VDR-Bench, um novo benchmark de 2.000 instâncias projetado para superar as limitações de avaliações anteriores ao focar em cenários realistas de pesquisa visual e textual para Modelos de Linguagem Multimodal, além de propor um fluxo de trabalho de busca com recortes múltiplos que melhora significativamente o desempenho desses sistemas.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Investigating Disability Representations in Text-to-Image Models

Este estudo investiga as representações de pessoas com deficiência em modelos de geração de imagens por texto, como o Stable Diffusion XL e o DALL-E 3, revelando desequilíbrios persistentes e destacando a necessidade de avaliação contínua e refinamento para promover retratos mais diversos e inclusivos.

Yang Tian, Yu Fan, Liudmila Zavolokina + 1 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

O artigo apresenta o RFDM, um modelo de edição de vídeo causal e eficiente que utiliza um processo de difusão de fluxo residual para editar vídeos de comprimento variável quadro a quadro com o custo computacional de modelos de imagem, superando métodos baseados em I2I e competindo com modelos V2V 3D completos.

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Este estudo compara cinco modelos de reconstrução 3D a partir de imagens 2D, demonstrando que, embora todos enfrentem limitações fundamentais de sobreposição volumétrica devido à ambiguidade de profundidade em dados médicos, o SAM 3D destaca-se por capturar melhor a similaridade topológica, evidenciando a necessidade de adaptação específica ao domínio para reconstruções médicas confiáveis.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

O artigo apresenta o EchoTorrent, um novo esquema de geração de vídeo multimodal em streaming que supera os desafios de latência e estabilidade temporal através de uma arquitetura inovadora combinando treinamento multi-professor, calibração adaptativa de CFG, forçamento híbrido de cauda longa e refinamento do decodificador VAE, resultando em uma geração rápida, consistente e sincronizada com áudio.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

Este artigo apresenta o GPEReg-Net, uma rede neural que resolve o registro de imagens entre domínios distintos através da fatoração da representação da cena e da aparência, eliminando a necessidade de estimar campos de deformação explícitos e alcançando desempenho superior e maior velocidade em benchmarks de retina e texturas sintéticas.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

← Anterior Próximo →