InstructHumans: Editing Animated 3D Human Textures with Instructions

O artigo apresenta o InstructHumans, um novo quadro de trabalho para edição de texturas de humanos 3D animáveis baseada em instruções, que supera os métodos existentes ao introduzir uma versão modificada da Amostragem de Distilação de Pontuação (SDS-E) para garantir que as edições textuais sejam fiéis ao comando sem comprometer a consistência com o avatar original.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

O EasyAnimate é um framework de geração de vídeo de alto desempenho que utiliza Transformers de Difusão com Atenção Híbrida em Janelas e Retropropagação de Recompensa para superar as limitações de velocidade e qualidade dos modelos existentes, alcançando resultados de última geração em benchmarks e avaliações humanas.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Este artigo apresenta um quadro de manipulação consciente de dinâmica 3D que integra modelagem de mundo 3D e aprendizado de políticas por meio de tarefas de aprendizado auto-supervisionado, dotando os modelos de "previsão 3D" para melhorar significativamente o desempenho em tarefas com movimento em profundidade sem comprometer a velocidade de inferência.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

O artigo apresenta o "Noise2Ghost", um novo método de reconstrução de imagem fantasma baseado em aprendizado profundo auto-supervisionado que elimina a necessidade de dados de referência limpos e oferece redução de ruído superior, permitindo aplicações de alta qualidade em cenários de baixa luminosidade, como imageamento de raios-X de amostras biológicas e baterias.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

O artigo apresenta o PhysLLM, um framework inovador que integra Modelos de Linguagem de Grande Escala (LLMs) com componentes específicos de fotopletismografia remota (rPPG) através de estratégias como a Orientação por Protótipos de Texto e o Algoritmo de Estacionariedade de Duplo Domínio, superando desafios de iluminação e movimento para alcançar medições fisiológicas não invasivas com precisão e robustez superiores.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

O artigo apresenta o RESAR-BEV, uma abordagem progressiva e explicável para fusão de câmera e radar em segmentação de visão de cima (BEV) que utiliza aprendizado autoregressivo residual e codificação dual de voxels para alcançar desempenho de ponta e robustez em condições adversas, atingindo 54,0% de mIoU e 14,6 FPS no conjunto de dados nuScenes.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Este artigo apresenta o DHECA-SuperGaze, um método de aprendizado profundo que combina super-resolução e um módulo de atenção cruzada dual cabeça-olho para melhorar a estimativa de olhar em cenários não controlados, corrigindo erros de anotação no conjunto de dados Gaze360 e alcançando desempenho superior ao estado da arte em várias métricas de erro angular.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

O artigo apresenta o EDITOR, uma técnica de inversão de prompts para modelos de difusão texto-para-imagem que combina inicialização por modelos de legendagem, refinamento no espaço latente e conversão de embeddings para texto, superando métodos existentes em similaridade de imagem, alinhamento textual e interpretabilidade, além de habilitar aplicações como síntese cruzada e segmentação não supervisionada.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Este artigo apresenta o HSG-12M, o primeiro grande conjunto de dados de multigrafos espaciais contendo 16,7 milhões de grafos espectrais de Hamiltonianos de cristais não hermitianos, gerados automaticamente pela ferramenta Poly2Graph para superar a escassez de dados em física quântica e impulsionar o aprendizado de máquina geométrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall