AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Este trabalho apresenta um quadro abrangente de IA interpretável que integra imagens clínicas e histórico familiar para aprimorar o diagnóstico dermatológico, com validação preliminar por profissionais de saúde e planos para futuros ensaios clínicos prospectivos.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

O artigo apresenta o GeoTeacher, um método de detecção 3D semi-supervisionada que melhora a capacidade dos modelos de capturar relações geométricas de objetos através de uma supervisão baseada em pontos-chave e uma estratégia de aumento de dados em voxels com mecanismo de decaimento de distância, alcançando resultados state-of-the-art nos conjuntos de dados ONCE e Waymo.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

O TP-Blend é uma estrutura leve e sem treinamento que combina dois prompts textuais distintos para realizar a fusão precisa de objetos e estilos em modelos de difusão, utilizando os mecanismos de fusão de atenção de objetos (CAOF) e fusão de estilo (SASF) para gerar edições fotorealistas de alta resolução com controle simultâneo sobre conteúdo e aparência.

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

O artigo apresenta o Vision-DeepResearch, um novo paradigma para Modelos de Linguagem Multimodal (MLLMs) que, por meio de treinamento supervisionado e por reforço, internaliza capacidades de pesquisa profunda multi-turno e multi-escala para superar ruído visual e resolver questões complexas, superando tanto modelos existentes quanto fluxos de trabalho baseados em fundações proprietárias de ponta.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Este artigo propõe um novo método de quantização pós-treinamento para modelos de difusão que otimiza a atribuição de pesos às amostras de calibração para alinhar os gradientes entre os diferentes timesteps, superando as limitações das abordagens uniformes existentes e melhorando significativamente a eficiência e a qualidade da geração de imagens.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

O artigo apresenta o CaCoVID, um novo algoritmo de compressão de tokens para modelos de linguagem grandes em vídeo que utiliza aprendizado por reforço para otimizar ativamente a seleção de tokens com base em sua contribuição direta para respostas corretas, superando as limitações dos métodos tradicionais baseados em scores de atenção.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Este artigo apresenta o VDR-Bench, um novo benchmark de 2.000 instâncias projetado para superar as limitações de avaliações anteriores ao focar em cenários realistas de pesquisa visual e textual para Modelos de Linguagem Multimodal, além de propor um fluxo de trabalho de busca com recortes múltiplos que melhora significativamente o desempenho desses sistemas.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Este estudo compara cinco modelos de reconstrução 3D a partir de imagens 2D, demonstrando que, embora todos enfrentem limitações fundamentais de sobreposição volumétrica devido à ambiguidade de profundidade em dados médicos, o SAM 3D destaca-se por capturar melhor a similaridade topológica, evidenciando a necessidade de adaptação específica ao domínio para reconstruções médicas confiáveis.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

O artigo apresenta o EchoTorrent, um novo esquema de geração de vídeo multimodal em streaming que supera os desafios de latência e estabilidade temporal através de uma arquitetura inovadora combinando treinamento multi-professor, calibração adaptativa de CFG, forçamento híbrido de cauda longa e refinamento do decodificador VAE, resultando em uma geração rápida, consistente e sincronizada com áudio.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs