cs.CV artigos | Gist.Science

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

O artigo apresenta o PhysLLM, um framework inovador que integra Modelos de Linguagem de Grande Escala (LLMs) com componentes específicos de fotopletismografia remota (rPPG) através de estratégias como a Orientação por Protótipos de Texto e o Algoritmo de Estacionariedade de Duplo Domínio, superando desafios de iluminação e movimento para alcançar medições fisiológicas não invasivas com precisão e robustez superiores.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

O artigo apresenta o ReactDance, um framework de difusão que utiliza uma representação latente hierárquica com quantização escalar finita (HFSQ) e uma estratégia de amostragem não autoregressiva baseada em blocos (BLC) para gerar danças reativas de alta fidelidade e coerência temporal em sequências longas.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

O artigo apresenta o RESAR-BEV, uma abordagem progressiva e explicável para fusão de câmera e radar em segmentação de visão de cima (BEV) que utiliza aprendizado autoregressivo residual e codificação dual de voxels para alcançar desempenho de ponta e robustez em condições adversas, atingindo 54,0% de mIoU e 14,6 FPS no conjunto de dados nuScenes.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Este artigo apresenta o DHECA-SuperGaze, um método de aprendizado profundo que combina super-resolução e um módulo de atenção cruzada dual cabeça-olho para melhorar a estimativa de olhar em cenários não controlados, corrigindo erros de anotação no conjunto de dados Gaze360 e alcançando desempenho superior ao estado da arte em várias métricas de erro angular.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

O artigo propõe o OSPO, um framework de otimização de preferência auto-aprimorador e centrado em objetos que elimina a necessidade de dados externos para melhorar a fidelidade na geração de imagens a partir de texto, reduzindo significativamente alucinações de objetos e superando métodos anteriores.

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

O artigo apresenta o EDITOR, uma técnica de inversão de prompts para modelos de difusão texto-para-imagem que combina inicialização por modelos de legendagem, refinamento no espaço latente e conversão de embeddings para texto, superando métodos existentes em similaridade de imagem, alinhamento textual e interpretabilidade, além de habilitar aplicações como síntese cruzada e segmentação não supervisionada.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

O artigo apresenta o HypeVPR, um framework de reconhecimento visual de lugares que utiliza o espaço hiperbólico para capturar a hierarquia inerente entre vistas panorâmicas e perspectivas, permitindo um reconhecimento robusto, eficiente e com menor armazenamento de dados.

Suhan Woo, Seongwon Lee, Jinwoo Jang + 1 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

O artigo apresenta o FLAIR-HUB, o maior conjunto de dados multimodais de alta resolução (20 cm) para mapeamento de cobertura do solo e culturas na França, integrando seis modalidades de sensoriamento remoto e demonstrando que a fusão multimodal completa alcança o melhor desempenho em tarefas de classificação supervisionada e pré-treinamento.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Este artigo apresenta o HSG-12M, o primeiro grande conjunto de dados de multigrafos espaciais contendo 16,7 milhões de grafos espectrais de Hamiltonianos de cristais não hermitianos, gerados automaticamente pela ferramenta Poly2Graph para superar a escassez de dados em física quântica e impulsionar o aprendizado de máquina geométrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

O InterActHuman é um novo framework que supera as limitações dos métodos existentes ao permitir a animação de vídeo de alta qualidade com múltiplos conceitos e interações humanas, garantindo o controle preciso de cada identidade através do alinhamento espacial e temporal de condições multimodais, como áudio e imagens de referência, a regiões específicas do vídeo.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

O AutoV é um framework leve que supera as limitações da engenharia de prompts visuais ao recuperar automaticamente o prompt mais adequado para cada instância, utilizando uma classificação baseada em perda de um LVLM pré-treinado para gerar supervisão sem anotação manual e melhorar significativamente o desempenho de modelos de visão e linguagem em diversas tarefas.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Este trabalho apresenta o TreeBench, um benchmark diagnóstico para avaliar o raciocínio visual fundamentado em evidências rastreáveis, e o TreeVGR, um paradigma de treinamento que combina localização e raciocínio via aprendizado por reforço, demonstrando que a rastreabilidade é essencial para avançar nesse campo.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

O artigo apresenta o GMLN-BTS, uma rede leve baseada em grafos para segmentação de tumores cerebrais que, através de três módulos inovadores, alcança desempenho de ponta com apenas 4,58 milhões de parâmetros, reduzindo em 98% a complexidade computacional em comparação aos modelos 3D Transformers tradicionais.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Este artigo apresenta o EDA, um novo quadro teórico que unifica e generaliza os modelos de difusão para lidar com ruídos arbitrários, superando as limitações do EDM ao preservar a modularidade sem sobrecarga computacional e demonstrando alta eficácia em tarefas de restauração de imagens médicas e naturais com apenas cinco etapas de amostragem.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

O artigo apresenta o SAMPO, um novo framework de otimização de preferências que alinha modelos fundamentais de visão com intenções clínicas de segmentação em imagens de histopatologia densas, superando desafios como heterogeneidade celular e prompts imperfeitos através de mineração de preferências online, aprendizado multi-máscara e uma função de perda híbrida.

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Optimizing Multi-Modality Trackers via Significance-Regularized Tuning

Este artigo propõe um novo quadro de ajuste fino regularizado por significância que otimiza rastreadores multimodais ao equilibrar plasticidade e estabilidade, superando as técnicas atuais em diversos benchmarks.

Zhiwen Chen, Jinjian Wu, Zhiyu Zhu + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Este artigo apresenta um método de navegação para quadricópteros baseado em aprendizado por reforço que utiliza mapas de tempo de chegada como informação privilegiada e uma função de perda de alinhamento de guinada para superar obstáculos grandes, alcançando uma taxa de sucesso de 86% em simulações e validação bem-sucedida em 20 voos reais em ambientes externos complexos.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

Este artigo propõe e valida, através de simulações e dados de drones, um sistema robusto para localização 3D de objetos distantes em tarefas de monitoramento de incêndios florestais, utilizando triangulação multivista ou filtros de partículas aplicados a sequências de segmentação de imagem ruidosas, sem depender de sensores especializados ou reconstrução completa da cena.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

O artigo apresenta o BridgeDrive, uma nova política de planejamento de trajetória baseada em difusão que utiliza um "ponte de difusão" para transformar trajetórias de referência em planos refinados e seguros, alcançando desempenho superior em benchmarks de condução autônoma em malha fechada.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

O artigo apresenta o SphereAR, um modelo de geração de imagens autoregressivo que utiliza latentes em hiperesfera para estabilizar a decodificação e eliminar o colapso de variância, alcançando desempenho superior ao estado da arte em modelos de difusão e geração mascarada com escalas de parâmetros comparáveis.

Guolin Ke, Hui Xue2026-03-06💻 cs

← Anterior Próximo →