RetinaVision: XAI-Driven Augmented Regulation for Precise Retinal Disease Classification using deep learning framework

O estudo apresenta o RetinaVision, um sistema baseado em aprendizado profundo que utiliza a arquitetura Xception e técnicas de explicabilidade (XAI) para classificar com alta precisão (95,25%) doenças retinianas em imagens OCT, integrando essas capacidades em uma aplicação web para auxiliar no diagnóstico clínico.

Mohammad Tahmid Noor, Shayan Abrar, Jannatul Adan Mahi + 3 more2026-02-24🤖 cs.AI

MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose

O artigo apresenta o MultiDiffSense, um modelo de difusão unificado que gera imagens visuo-táteis sintéticas e alinhadas para múltiplos sensores, condicionadas à forma do objeto e à pose de contato, superando métodos anteriores e reduzindo a necessidade de coleta de dados reais para aplicações robóticas.

Sirine Bhouri, Lan Wei, Jian-Qing Zheng + 1 more2026-02-24🤖 cs.AI

PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

O artigo apresenta o PoseCraft, um framework de difusão que utiliza tokens discretos para codificar marcos 3D e parâmetros de câmera, permitindo a síntese de avatares humanos fotorealistas com controle preciso de pose e viewpoint, superando as limitações de métodos existentes ao preservar detalhes de identidade e textura sem a necessidade de re-otimização para cada nova pose.

Zhilin Guo, Jing Yang, Kyle Fogarty + 9 more2026-02-24💻 cs

MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations

O artigo apresenta o MentalBlackboard, um novo benchmark para avaliar a visualização espacial em modelos de linguagem e visão através de tarefas de doação de papel e perfuração, revelando que, apesar de alguns modelos alcançarem desempenho moderado em tarefas de generalização, eles ainda enfrentam dificuldades significativas na aplicação de transformações simétricas e no planejamento de etapas espaciais.

Nilay Yilmaz, Maitreya Patel, Naga Sai Abhiram Kusumba + 2 more2026-02-24🤖 cs.LG

Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces

Este artigo investiga a Hipótese da Representação Platônica em um cenário trimodal, revelando que, embora o alinhamento contrastivo entre séries temporais, visão e linguagem melhore com o aumento do modelo, ele é assimétrico (com séries temporais alinhando-se melhor à visão do que ao texto) e saturado pela densidade da informação, sugerindo que as imagens podem atuar como intermediárias eficazes entre séries temporais e linguagem.

Pratham Yashwante, Rose Yu2026-02-24🤖 cs.AI

Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization

Este artigo propõe um novo framework de computação em tempo de teste para otimização de políticas em Modelos Visão-Linguagem (VLMs) que, ao desacoplar a avaliação de estado da geração de ações, utilizar busca em feixe para refletir sobre múltiplos futuros e empregar um gatilho leve baseado em confiança, alcança uma melhoria de 24,6% na taxa de sucesso e uma redução de 56,5% no tempo de inferência em tarefas complexas de manipulação robótica.

Yanting Yang, Shenyuan Gao, Qingwen Bu + 2 more2026-02-24🤖 cs.LG

FinSight-Net:A Physics-Aware Decoupled Network with Frequency-Domain Compensation for Underwater Fish Detection in Smart Aquaculture

O artigo apresenta o FinSight-Net, uma rede de detecção de peixes subaquáticos eficiente e consciente da física que utiliza processamento duplo desacoplado e agregação de caminhos para compensar a degradação óptica causada pela turbidez, alcançando desempenho superior e menor complexidade computacional em comparação com modelos existentes.

Jinsong Yang, Zeyuan Hu, Yichen Li + 1 more2026-02-24🤖 cs.AI

HD-TTA: Hypothesis-Driven Test-Time Adaptation for Safer Brain Tumor Segmentation

O artigo propõe o HD-TTA, uma nova abordagem de adaptação no momento do teste que, ao invés de otimização cega, utiliza um processo decisório dinâmico com hipóteses geométricas concorrentes (compactação ou inflação) e um mecanismo de pré-seleção para garantir a segurança na segmentação de tumores cerebrais, melhorando significativamente a precisão e reduzindo erros de fronteira em cenários de domínio cruzado sem comprometer o desempenho geral.

Kartik Jhawar, Lipo Wang2026-02-24💻 cs

Physics-informed Active Polarimetric 3D Imaging for Specular Surfaces

Este artigo propõe um framework de aprendizado profundo informado pela física que combina pistas de polarização e iluminação estruturada em uma única captura para realizar a estimativa precisa e robusta de normais de superfície em tempo real, superando as limitações de métodos existentes na imageamento 3D de superfícies especulares complexas.

Jiazhang Wang, Hyelim Yang, Tianyi Wang + 1 more2026-02-24🔬 physics.optics