Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Este artigo apresenta um método aprimorado para estilização de cenas 3D que utiliza edição de imagem generativa guiada por texto com controle baseado em regiões, garantindo consistência de estilo e de visualização através de mecanismos de atenção compartilhada, mapas de profundidade múltiplos e uma nova função de perda para transferência de estilo em áreas específicas.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Este trabalho apresenta o GeoProto, um método inovador para reconhecimento fino e interpretável que alinha protótipos com a geometria intrínseca de características visuais profundas por meio de mapas de difusão e interpolação de Nyström diferenciável, superando as abordagens baseadas em distância euclidiana ao capturar distinções semânticas sutis.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

O artigo apresenta o SHINE, um framework sem treinamento que permite a inserção física plausível de objetos em cenas complexas utilizando modelos de difusão modernos como o FLUX, superando desafios de iluminação e reflexos através de uma nova perda de âncora e técnicas de fusão adaptativa, enquanto introduz o benchmark ComplexCompo para avaliação rigorosa.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Este artigo propõe uma nova abordagem aberta, multifacetada e escalável para a avaliação de emoções visuais em Modelos de Linguagem Multimodal (MLLMs), introduzindo uma tarefa de julgamento de declarações emocionais e um pipeline automatizado que revelam tanto os pontos fortes quanto as lacunas significativas na inteligência emocional desses modelos em comparação com humanos.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

O artigo apresenta o DiffInk, o primeiro framework baseado em difusão latente e Transformer para geração de linhas completas de caligrafia online, que utiliza o InkVAE para criar um espaço latente semântico e o InkDiT para gerar trajetórias de caneta coerentes, superando os métodos existentes em precisão de glifos, fidelidade estilística e eficiência.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

O artigo apresenta o SMART-R1, um novo paradigma de ajuste fino por reforço inspirado no R1 que, ao combinar otimização de política orientada a métricas com uma estratégia de treinamento iterativa "SFT-RFT-SFT", alcança o estado da arte na simulação de tráfego multiagente no Waymo Open Sim Agents Challenge, superando métodos baseados apenas em aprendizado supervisionado.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

O artigo apresenta o Stylos, um framework inovador de transferência de estilo 3D baseado em Gaussian Splatting que gera cenas 3D estilizadas a partir de uma única passagem direta, sem necessidade de otimização por cena ou poses pré-computadas, garantindo consistência visual entre múltiplas vistas e preservação geométrica através de uma arquitetura Transformer com perda de estilo baseada em voxels.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs