cs.CV artigos | Gist.Science

InstructHumans: Editing Animated 3D Human Textures with Instructions

O artigo apresenta o InstructHumans, um novo quadro de trabalho para edição de texturas de humanos 3D animáveis baseada em instruções, que supera os métodos existentes ao introduzir uma versão modificada da Amostragem de Distilação de Pontuação (SDS-E) para garantir que as edições textuais sejam fiéis ao comando sem comprometer a consistência com o avatar original.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

O EasyAnimate é um framework de geração de vídeo de alto desempenho que utiliza Transformers de Difusão com Atenção Híbrida em Janelas e Retropropagação de Recompensa para superar as limitações de velocidade e qualidade dos modelos existentes, alcançando resultados de última geração em benchmarks e avaliações humanas.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Motion-Aware Animatable Gaussian Avatars Deblurring

Este artigo apresenta um método inovador que reconstrói diretamente avatares humanos 3D nítidos a partir de vídeos borrados, utilizando um modelo físico de formação de desfoque e um modelo de movimento humano para otimizar conjuntamente a representação do avatar e os parâmetros de movimento.

Muyao Niu, Yifan Zhan, Qingtian Zhu + 5 more2026-03-06💻 cs

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

O artigo apresenta o TABE, um pipeline inovador para segmentação de objetos em vídeo que permite a conclusão amodal zero-shot (invisível) utilizando um único máscara de consulta e um modelo de difusão de vídeo pré-treinado, sem necessidade de retreinamento para classes específicas.

Finlay G. C. Hudson, William A. P. Smith2026-03-06💻 cs

Learnable Sparsity for Vision Generative Models

Este trabalho propõe um framework de poda estrutural agnóstico ao modelo que utiliza máscaras diferenciáveis e um objetivo de otimização de ponta a ponta com checkpointing de gradiente para reduzir em até 20% os parâmetros de modelos de difusão sem necessidade de retreinamento, mantendo a qualidade da geração.

Yang Zhang, Er Jin, Wenzhong Liang + 5 more2026-03-06💻 cs

Flatness Guided Test-Time Adaptation for Vision-Language Models

Este artigo propõe o FGA, um novo quadro de adaptação guiado pela planicidade que unifica o ajuste de prompts com sensibilidade à nitidez no treinamento e a seleção de amostras no teste para melhorar a adaptação de modelos visão-linguagem a mudanças de distribuição, superando métodos existentes com menor custo computacional.

Aodi Li, Liansheng Zhuang, Xiao Long + 2 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Este artigo apresenta um quadro de manipulação consciente de dinâmica 3D que integra modelagem de mundo 3D e aprendizado de políticas por meio de tarefas de aprendizado auto-supervisionado, dotando os modelos de "previsão 3D" para melhorar significativamente o desempenho em tarefas com movimento em profundidade sem comprometer a velocidade de inferência.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

O artigo apresenta o MedFuncta, uma estrutura unificada que utiliza meta-aprendizado e uma representação latente comum para treinar campos neurais escaláveis em grandes conjuntos de dados médicos contínuos, superando as limitações de escalabilidade e resolução das representações discretas tradicionais.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

O artigo apresenta o RapidPoseTriangulation, um novo algoritmo que realiza a triangulação de pose corporal completa de múltiplas pessoas em múltiplas câmeras em milissegundos, oferecendo alta velocidade, generalização robusta e acesso público ao código.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

O artigo apresenta o "Noise2Ghost", um novo método de reconstrução de imagem fantasma baseado em aprendizado profundo auto-supervisionado que elimina a necessidade de dados de referência limpos e oferece redução de ruído superior, permitindo aplicações de alta qualidade em cenários de baixa luminosidade, como imageamento de raios-X de amostras biológicas e baterias.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Collaborative Learning of Local 3D Occupancy Prediction and Versatile Global Occupancy Mapping

O artigo propõe o LMPOcc, um framework plug-and-play que aprimora a previsão de ocupação 3D local ao integrar e atualizar continuamente mapas de ocupação globais como memórias de longo prazo, resultando em desempenho superior em benchmarks e na construção de mapas 3D escaláveis para ambientes externos.

Shanshuai Yuan, Julong Wei, Muer Tie + 3 more2026-03-06💻 cs

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

O artigo apresenta o PhysLLM, um framework inovador que integra Modelos de Linguagem de Grande Escala (LLMs) com componentes específicos de fotopletismografia remota (rPPG) através de estratégias como a Orientação por Protótipos de Texto e o Algoritmo de Estacionariedade de Duplo Domínio, superando desafios de iluminação e movimento para alcançar medições fisiológicas não invasivas com precisão e robustez superiores.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

O artigo apresenta o ReactDance, um framework de difusão que utiliza uma representação latente hierárquica com quantização escalar finita (HFSQ) e uma estratégia de amostragem não autoregressiva baseada em blocos (BLC) para gerar danças reativas de alta fidelidade e coerência temporal em sequências longas.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

O artigo apresenta o RESAR-BEV, uma abordagem progressiva e explicável para fusão de câmera e radar em segmentação de visão de cima (BEV) que utiliza aprendizado autoregressivo residual e codificação dual de voxels para alcançar desempenho de ponta e robustez em condições adversas, atingindo 54,0% de mIoU e 14,6 FPS no conjunto de dados nuScenes.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Este artigo apresenta o DHECA-SuperGaze, um método de aprendizado profundo que combina super-resolução e um módulo de atenção cruzada dual cabeça-olho para melhorar a estimativa de olhar em cenários não controlados, corrigindo erros de anotação no conjunto de dados Gaze360 e alcançando desempenho superior ao estado da arte em várias métricas de erro angular.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

O artigo propõe o OSPO, um framework de otimização de preferência auto-aprimorador e centrado em objetos que elimina a necessidade de dados externos para melhorar a fidelidade na geração de imagens a partir de texto, reduzindo significativamente alucinações de objetos e superando métodos anteriores.

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

O artigo apresenta o EDITOR, uma técnica de inversão de prompts para modelos de difusão texto-para-imagem que combina inicialização por modelos de legendagem, refinamento no espaço latente e conversão de embeddings para texto, superando métodos existentes em similaridade de imagem, alinhamento textual e interpretabilidade, além de habilitar aplicações como síntese cruzada e segmentação não supervisionada.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

O artigo apresenta o HypeVPR, um framework de reconhecimento visual de lugares que utiliza o espaço hiperbólico para capturar a hierarquia inerente entre vistas panorâmicas e perspectivas, permitindo um reconhecimento robusto, eficiente e com menor armazenamento de dados.

Suhan Woo, Seongwon Lee, Jinwoo Jang + 1 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

O artigo apresenta o FLAIR-HUB, o maior conjunto de dados multimodais de alta resolução (20 cm) para mapeamento de cobertura do solo e culturas na França, integrando seis modalidades de sensoriamento remoto e demonstrando que a fusão multimodal completa alcança o melhor desempenho em tarefas de classificação supervisionada e pré-treinamento.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Este artigo apresenta o HSG-12M, o primeiro grande conjunto de dados de multigrafos espaciais contendo 16,7 milhões de grafos espectrais de Hamiltonianos de cristais não hermitianos, gerados automaticamente pela ferramenta Poly2Graph para superar a escassez de dados em física quântica e impulsionar o aprendizado de máquina geométrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

← Anterior Próximo →