SkinCLIP-VL: Consistency-Aware Vision-Language Learning for Multimodal Skin Cancer Diagnosis

O artigo apresenta o SkinCLIP-VL, um framework eficiente de aprendizado visão-linguagem que supera modelos de base maiores em precisão e confiabilidade para diagnóstico de câncer de pele, utilizando um encoder CLIP congelado, um adaptador leve e uma nova função de perda de alinhamento consciente da consistência para mitigar custos computacionais, escassez de dados e a natureza de "caixa preta" dos modelos tradicionais.

Zhixiang Lu, Shijie Xu, Kaicheng Yan, Xuyue Cai, Chong Zhang, Yulong Li, Angelos Stefanidis, Anh Nguyen, Jionglong Su2026-03-24💻 cs

LPNSR: Prior-Enhanced Diffusion Image Super-Resolution via LR-Guided Noise Prediction

O artigo apresenta o LPNSR, um framework de super-resolução de imagens baseado em difusão que supera as limitações de eficiência e qualidade dos métodos existentes ao derivar uma solução analítica para ruído intermediário ótimo e utilizar um preditor guiado por imagens de baixa resolução, alcançando desempenho de ponta em apenas quatro passos sem depender de priors de texto para imagem.

Shuwei Huang, Shizhuo Liu, Zijun Wei2026-03-24🤖 cs.AI

SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments

O artigo apresenta o SpatialFly, um novo framework para navegação visual e linguística em drones (UAVs) que supera a incompatibilidade entre percepção 2D e decisão 3D em ambientes urbanos complexos através de um mecanismo de alinhamento guiado por geometria, alcançando desempenho superior aos métodos existentes sem a necessidade de reconstrução 3D explícita.

Wen Jiang, Kangyao Huang, Li Wang, Wang Xu, Wei Fan, Jinyuan Liu, Shaoyu Liu, Hanfang Liang, Hongwei Duan, Bin Xu, Xiangyang Ji2026-03-24🤖 cs.AI

When Minor Edits Matter: LLM-Driven Prompt Attack for Medical VLM Robustness in Ultrasound

Este artigo propõe um framework de avaliação adversarial escalável que utiliza grandes modelos de linguagem para gerar variações de prompts clinicamente plausíveis e identificar vulnerabilidades em modelos de visão e linguagem médica na análise de ultrassom, destacando lacunas críticas de robustez que precisam ser resolvidas para a tradução segura para a prática clínica.

Yasamin Medghalchi, Milad Yazdani, Amirhossein Dabiriaghdam, Moein Heidari, Mojan Izadkhah, Zahra Kavian, Giuseppe Carenini, Lele Wang, Dena Shahriari, Ilker Hacihaliloglu2026-03-24💻 cs

A Two-stage Transformer Framework for Temporal Localization of Distracted Driver Behaviors

Este artigo apresenta um framework de duas etapas baseado em Transformer, que combina extração de características com VideoMAE e um detector AMA aprimorado por SPPF, para realizar a localização temporal eficiente e precisa de comportamentos de direção distraída em cenários de monitoramento de segurança.

Gia-Bao Doan, Nam-Khoa Huynh, Minh-Nhat-Huy Ho, Khanh-Thanh-Khoa Nguyen, Thanh-Hai Le2026-03-24🤖 cs.AI

Single-Eye View: Monocular Real-time Perception Package for Autonomous Driving

Este artigo apresenta o LRHPerception, um pacote de percepção monocular em tempo real para direção autônoma que combina aprendizado de ponta a ponta com mapeamento local para gerar um tensor de cinco canais com segmentação de estrada e estimativa de profundidade, alcançando 29 FPS e uma aceleração de 555% em comparação com abordagens baseadas em mapeamento.

Haixi Zhang, Aiyinsi Zuo, Zirui Li, Chunshu Wu, Tong Geng, Zhiyao Duan2026-03-24💻 cs

Two Experts Are Better Than One Generalist: Decoupling Geometry and Appearance for Feed-Forward 3D Gaussian Splatting

O artigo apresenta o 2Xplat, um novo framework feed-forward para 3D Gaussian Splatting sem poses que supera abordagens anteriores ao adotar um design modular de dois especialistas que desacopla a estimativa geométrica da geração de aparência, alcançando desempenho comparável aos métodos de última geração que utilizam poses conhecidas.

Hwasik Jeong, Seungryong Lee, Gyeongjin Kang, Seungkwon Yang, Xiangyu Sun, Seungtae Nam, Eunbyung Park2026-03-24💻 cs

CTFS : Collaborative Teacher Framework for Forward-Looking Sonar Image Semantic Segmentation with Extremely Limited Labels

Este artigo propõe o CTFS, um framework colaborativo de professores que utiliza uma estratégia de orientação alternada e uma avaliação dinâmica de confiabilidade para melhorar a segmentação semântica de imagens de sonar de frente com dados extremamente limitados, alcançando ganhos significativos de desempenho ao mitigar o ruído e capturar características específicas do sonar.

Ping Guo, Chengzhou Li, Guanchen Meng, Qi Jia, Jinyuan Liu, Zhu Liu, Yu Liu, Zhongxuan Luo, Xin Fan2026-03-24🤖 cs.AI