PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

O artigo apresenta o PhysLLM, um framework inovador que integra Modelos de Linguagem de Grande Escala (LLMs) com componentes específicos de fotopletismografia remota (rPPG) através de estratégias como a Orientação por Protótipos de Texto e o Algoritmo de Estacionariedade de Duplo Domínio, superando desafios de iluminação e movimento para alcançar medições fisiológicas não invasivas com precisão e robustez superiores.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

O artigo apresenta o RESAR-BEV, uma abordagem progressiva e explicável para fusão de câmera e radar em segmentação de visão de cima (BEV) que utiliza aprendizado autoregressivo residual e codificação dual de voxels para alcançar desempenho de ponta e robustez em condições adversas, atingindo 54,0% de mIoU e 14,6 FPS no conjunto de dados nuScenes.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Este artigo apresenta o DHECA-SuperGaze, um método de aprendizado profundo que combina super-resolução e um módulo de atenção cruzada dual cabeça-olho para melhorar a estimativa de olhar em cenários não controlados, corrigindo erros de anotação no conjunto de dados Gaze360 e alcançando desempenho superior ao estado da arte em várias métricas de erro angular.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

O artigo apresenta o EDITOR, uma técnica de inversão de prompts para modelos de difusão texto-para-imagem que combina inicialização por modelos de legendagem, refinamento no espaço latente e conversão de embeddings para texto, superando métodos existentes em similaridade de imagem, alinhamento textual e interpretabilidade, além de habilitar aplicações como síntese cruzada e segmentação não supervisionada.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Este artigo apresenta o HSG-12M, o primeiro grande conjunto de dados de multigrafos espaciais contendo 16,7 milhões de grafos espectrais de Hamiltonianos de cristais não hermitianos, gerados automaticamente pela ferramenta Poly2Graph para superar a escassez de dados em física quântica e impulsionar o aprendizado de máquina geométrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

O InterActHuman é um novo framework que supera as limitações dos métodos existentes ao permitir a animação de vídeo de alta qualidade com múltiplos conceitos e interações humanas, garantindo o controle preciso de cada identidade através do alinhamento espacial e temporal de condições multimodais, como áudio e imagens de referência, a regiões específicas do vídeo.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

O AutoV é um framework leve que supera as limitações da engenharia de prompts visuais ao recuperar automaticamente o prompt mais adequado para cada instância, utilizando uma classificação baseada em perda de um LVLM pré-treinado para gerar supervisão sem anotação manual e melhorar significativamente o desempenho de modelos de visão e linguagem em diversas tarefas.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

O artigo apresenta o SAMPO, um novo framework de otimização de preferências que alinha modelos fundamentais de visão com intenções clínicas de segmentação em imagens de histopatologia densas, superando desafios como heterogeneidade celular e prompts imperfeitos através de mineração de preferências online, aprendizado multi-máscara e uma função de perda híbrida.

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Este artigo apresenta um método de navegação para quadricópteros baseado em aprendizado por reforço que utiliza mapas de tempo de chegada como informação privilegiada e uma função de perda de alinhamento de guinada para superar obstáculos grandes, alcançando uma taxa de sucesso de 86% em simulações e validação bem-sucedida em 20 voos reais em ambientes externos complexos.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

Este artigo propõe e valida, através de simulações e dados de drones, um sistema robusto para localização 3D de objetos distantes em tarefas de monitoramento de incêndios florestais, utilizando triangulação multivista ou filtros de partículas aplicados a sequências de segmentação de imagem ruidosas, sem depender de sensores especializados ou reconstrução completa da cena.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs