Controlled Face Manipulation and Synthesis for Data Augmentation

Este trabalho apresenta um método de manipulação facial no espaço latente semântico de um gerador pré-treinado que, ao utilizar condicionamento dependente e projeção ortogonal para reduzir o entrelaçamento de atributos, gera dados sintéticos de alta qualidade para aumentar e equilibrar conjuntos de dados de Análise de Unidades de Ação (AU), melhorando significativamente a precisão e a robustez dos detectores de expressão facial com menos dados rotulados.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG

RegionRoute: Regional Style Transfer with Diffusion Model

O artigo apresenta o RegionRoute, um framework de difusão supervisionado por atenção que utiliza uma arquitetura LoRA-MoE e novas funções de perda para realizar transferência de estilo regional precisa e sem máscaras, superando as limitações de métodos existentes ao garantir a correspondência estilística em regiões específicas enquanto preserva a identidade do restante da imagem.

Bowen Chen, Jake Zuena, Alan C. Bovik + 1 more2026-02-24💻 cs

MRI Contrast Enhancement Kinetics World Model

Este artigo apresenta o MRI CEKWorld, um modelo de mundo que utiliza Aprendizado de Consistência Espaço-Temporal (STCL) para superar as limitações de baixa resolução temporal e amostragem esparsa na aquisição de ressonância magnética com contraste, gerando dinâmicas contínuas e realistas através de Aprendizado de Alinhamento Latente (LAL) para consistência estrutural e Aprendizado de Diferença Latente (LDL) para suavidade temporal.

Jindi Kong, Yuting He, Cong Xia + 2 more2026-02-24💻 cs

RetinaVision: XAI-Driven Augmented Regulation for Precise Retinal Disease Classification using deep learning framework

O estudo apresenta o RetinaVision, um sistema baseado em aprendizado profundo que utiliza a arquitetura Xception e técnicas de explicabilidade (XAI) para classificar com alta precisão (95,25%) doenças retinianas em imagens OCT, integrando essas capacidades em uma aplicação web para auxiliar no diagnóstico clínico.

Mohammad Tahmid Noor, Shayan Abrar, Jannatul Adan Mahi + 3 more2026-02-24🤖 cs.AI

MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose

O artigo apresenta o MultiDiffSense, um modelo de difusão unificado que gera imagens visuo-táteis sintéticas e alinhadas para múltiplos sensores, condicionadas à forma do objeto e à pose de contato, superando métodos anteriores e reduzindo a necessidade de coleta de dados reais para aplicações robóticas.

Sirine Bhouri, Lan Wei, Jian-Qing Zheng + 1 more2026-02-24🤖 cs.AI

PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

O artigo apresenta o PoseCraft, um framework de difusão que utiliza tokens discretos para codificar marcos 3D e parâmetros de câmera, permitindo a síntese de avatares humanos fotorealistas com controle preciso de pose e viewpoint, superando as limitações de métodos existentes ao preservar detalhes de identidade e textura sem a necessidade de re-otimização para cada nova pose.

Zhilin Guo, Jing Yang, Kyle Fogarty + 9 more2026-02-24💻 cs

MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations

O artigo apresenta o MentalBlackboard, um novo benchmark para avaliar a visualização espacial em modelos de linguagem e visão através de tarefas de doação de papel e perfuração, revelando que, apesar de alguns modelos alcançarem desempenho moderado em tarefas de generalização, eles ainda enfrentam dificuldades significativas na aplicação de transformações simétricas e no planejamento de etapas espaciais.

Nilay Yilmaz, Maitreya Patel, Naga Sai Abhiram Kusumba + 2 more2026-02-24🤖 cs.LG

Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces

Este artigo investiga a Hipótese da Representação Platônica em um cenário trimodal, revelando que, embora o alinhamento contrastivo entre séries temporais, visão e linguagem melhore com o aumento do modelo, ele é assimétrico (com séries temporais alinhando-se melhor à visão do que ao texto) e saturado pela densidade da informação, sugerindo que as imagens podem atuar como intermediárias eficazes entre séries temporais e linguagem.

Pratham Yashwante, Rose Yu2026-02-24🤖 cs.AI