Does FLUX Already Know How to Perform Physically Plausible Image Composition?

O artigo apresenta o SHINE, um framework sem treinamento que permite a inserção física plausível de objetos em cenas complexas utilizando modelos de difusão modernos como o FLUX, superando desafios de iluminação e reflexos através de uma nova perda de âncora e técnicas de fusão adaptativa, enquanto introduz o benchmark ComplexCompo para avaliação rigorosa.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Este artigo propõe uma nova abordagem aberta, multifacetada e escalável para a avaliação de emoções visuais em Modelos de Linguagem Multimodal (MLLMs), introduzindo uma tarefa de julgamento de declarações emocionais e um pipeline automatizado que revelam tanto os pontos fortes quanto as lacunas significativas na inteligência emocional desses modelos em comparação com humanos.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

O artigo apresenta o DiffInk, o primeiro framework baseado em difusão latente e Transformer para geração de linhas completas de caligrafia online, que utiliza o InkVAE para criar um espaço latente semântico e o InkDiT para gerar trajetórias de caneta coerentes, superando os métodos existentes em precisão de glifos, fidelidade estilística e eficiência.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

O artigo apresenta o SMART-R1, um novo paradigma de ajuste fino por reforço inspirado no R1 que, ao combinar otimização de política orientada a métricas com uma estratégia de treinamento iterativa "SFT-RFT-SFT", alcança o estado da arte na simulação de tráfego multiagente no Waymo Open Sim Agents Challenge, superando métodos baseados apenas em aprendizado supervisionado.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

O artigo apresenta o Stylos, um framework inovador de transferência de estilo 3D baseado em Gaussian Splatting que gera cenas 3D estilizadas a partir de uma única passagem direta, sem necessidade de otimização por cena ou poses pré-computadas, garantindo consistência visual entre múltiplas vistas e preservação geométrica através de uma arquitetura Transformer com perda de estilo baseada em voxels.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs