cs.GR artigos | Gist.Science

Collaborative Problem Solving in Mixed Reality: A Study on Visual Graph Analysis

Este estudo com 72 participantes em ambiente de Realidade Mista conclui que, embora a resolução colaborativa de problemas seja desejada em tarefas complexas de análise de grafos visuais, a representação 3D por si só não é suficiente para gerar resultados superiores aos obtidos por pares nominais, destacando a importância de usar grupos nominais como referência para avaliar ambientes virtuais colaborativos.

Dimitar Garkov, Tommaso Piselli, Emilio Di Giacomo, Karsten Klein, Giuseppe Liotta, Fabrizio Montecchiani, Falk SchreiberWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

O artigo apresenta o ARSGaussian, um método inovador de síntese de novas vistas para sensoriamento remoto aéreo que integra nuvens de pontos LiDAR e perdas de consistência geométrica ao 3D Gaussian Splatting para corrigir erros de geometria e melhorar a qualidade visual, além de lançar o conjunto de dados AIR-LONGYAN para apoiar pesquisas nessa área.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Este estudo apresenta uma análise abrangente e unificada de diversos métodos de imageamento não-visão direta (NLOS) baseados em tempo de voo, estabelecendo um modelo comum para avaliar suas similaridades, diferenças e limitações experimentais sob condições de hardware padronizadas, visando servir como referência para comparações objetivas futuras.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Este trabalho avalia sistematicamente a acessibilidade de cores em imagens geradas por modelos de difusão, introduzindo a nova métrica "CVDLoss" para quantificar a eficácia de prompts focados em acessibilidade e demonstrando que os modelos atuais têm dificuldade em responder adequadamente a essas solicitações.

Xinyao Zhuang, Jose Echevarria, Kaan AksitWed, 11 Ma💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Este artigo demonstra que a otimização direta da distância de Chamfer em formas 3D falha estruturalmente devido a um colapso de gradientes local, e propõe que a introdução de acoplamento não local, como deformação de base compartilhada ou um prior MPM diferenciável, é necessária para suprimir esse colapso e melhorar significativamente os resultados.

Chang-Yong Song, David HydeWed, 11 Ma💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

O artigo apresenta o MultiGen, um sistema de geração de jogos baseado em difusão que introduz uma memória externa persistente e editável para superar as limitações de controle do usuário e de simulação multiplayer em modelos de mundo atuais, permitindo experiências interativas reprodutíveis e consistentes entre múltiplos jogadores.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel RuizTue, 10 Ma💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

O artigo apresenta o FabricGen, um framework end-to-end que gera materiais de tecidos realistas a partir de descrições textuais, decompondo o processo na criação de texturas macro-escalares via modelos de difusão e na síntese de padrões de tecelagem micro-escalares guiados por um modelo de linguagem especializado (WeavingLLM) que respeita os princípios da tecelagem.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei WangTue, 10 Ma💻 cs

Image Generation Models: A Technical History

Este artigo oferece uma pesquisa abrangente sobre a evolução técnica dos modelos de geração de imagens, detalhando desde VAEs e GANs até métodos baseados em difusão, abordando também avanços na geração de vídeo e as questões de responsabilidade e robustez no seu uso.

Rouzbeh ShirvaniTue, 10 Ma💬 cs.CL

Ref-DGS: Reflective Dual Gaussian Splatting

O artigo apresenta o Ref-DGS, um novo framework de "Dual Gaussian Splatting" que resolve o desafio da reconstrução de superfícies com reflexos especulares próximos e distantes, decoplando a geometria das reflexões em uma representação dual e utilizando um shader adaptativo para alcançar resultados de ponta com treinamento significativamente mais rápido do que métodos baseados em rastreamento de raios.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter WonkaTue, 10 Ma💻 cs

Parameterized Brushstroke Style Transfer

Este artigo propõe um método de transferência de estilo que representa a imagem no domínio dos pinceladas em vez do domínio de pixels, resultando em uma representação visual mais natural e fiel à arte real.

Uma Meleti, Siyu HuangTue, 10 Ma💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

O artigo apresenta o TeamHOI, uma política descentralizada baseada em Transformers que permite a coordenação escalável e realista de interações cooperativas humano-objeto entre um número variável de agentes, utilizando uma estratégia de Adversarial Motion Prior mascarado para superar a escassez de dados e garantir movimentos fisicamente plausíveis.

Stefan Lionar, Gim Hee LeeTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

O artigo apresenta o MambaDance, uma nova abordagem para geração de dança que substitui os modelos Transformer por uma arquitetura baseada em Mamba dentro de um processo de difusão em duas etapas e utiliza uma representação de batida musical baseada em Gaussiana para gerar movimentos sincronizados e coerentes em sequências de qualquer duração.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

M-ABD: Scalable, Efficient, and Robust Multi-Affine-Body Dynamics

Este artigo apresenta o M-ABD, um novo framework que utiliza a dinâmica de corpos afins e um mapeamento para um espaço dual compacto para simular de forma eficiente, estável e interativa grandes assembleias articuladas com milhares de corpos em um único núcleo de CPU, superando as limitações de rigidez numérica e complexidade geométrica dos métodos convencionais.

Zhiyong He (University of Utah), Dewen Guo (University of Utah), Minghao Guo (MIT), Yili Zhao (ByteDance), Wojciech Matusik (MIT), Hao Su (UCSD), Chenfanfu Jiang (UCLA), Peter Yichen Chen (UBC), Yin Yang (University of Utah)Tue, 10 Ma💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

O artigo apresenta o RAF (Retrieval-Augmented Faces), uma técnica de aumento de treinamento que melhora a generalização de expressões em avatares de cabeça sem modelo, substituindo características de expressão durante o treinamento por vizinhos mais próximos de um banco de dados não rotulado para aumentar a diversidade e robustez sem necessidade de dados parecidos entre identidades ou alterações arquitetônicas.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani LischinskiTue, 10 Ma🤖 cs.LG

Sketch-Guided Stylized Landscape Cinemagraph Synthesis

O artigo apresenta o Sketch2Cinemagraph, um framework baseado em difusão latente que utiliza esboços manuais e prompts de texto para gerar cinemagrafias de paisagens estilizadas com controle preciso sobre o fluxo e a movimentação em regiões específicas.

Hao Jin, Hengyuan Chang, Xiaoxuan Xie, Zhengyang Wang, Xusheng Du, Shaojun Hu, Haoran XieThu, 12 Ma💻 cs

Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion

Este artigo propõe um método de fusão de imagens com poucos exemplos que introduz o conceito de "priors incompletos" e um algoritmo de computação de granularidade de pixel (GBPC) para permitir que redes neurais leves aprendam regras de fusão adaptativas sem a necessidade de imagens fundidas reais supervisionadas.

Minjie Deng, Yan Wei, An Wu, Yuncan Ouyang, Hao Zhai, Qianyao PengThu, 12 Ma⚡ eess

SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

O artigo apresenta o SEGA, uma abordagem inovadora que gera avatares de cabeça 3D fotorealistas e controláveis a partir de uma única imagem, combinando priores generalizados com um novo framework de *Gaussian Splatting* em espaço UV hierárquico para garantir consistência 3D, realismo de expressões e desempenho em tempo real.

Chen Guo, Zhuo Su, Liao Wang, Jian Wang, Shuang Li, Xu Chang, Zhaohu Li, Yang Zhao, Guidong Wang, Yebin Liu, Ruqi HuangThu, 12 Ma💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

O artigo apresenta o SDGraph, uma arquitetura de aprendizado profundo baseada em grafos esparsos e densos que, ao organizar a representação de esboços em três níveis (esboço, traço e ponto), identifica e explora informações eficazes para superar o estado da arte em tarefas de classificação, recuperação e geração de esboços vetoriais.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long ZengThu, 12 Ma💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

O artigo propõe um framework de triangulação orientado a modelos que integra limites derivados de imagens em uma grade triangular regular, permitindo a retriangulação local e paralela de apenas os elementos intersectados para gerar malhas estáveis e de alta fidelidade geométrica para a discretização de EDPs, superando as limitações de atualizações globais encontradas em métodos como a triangulação de Delaunay restrita.

Wei Feng, Haiyong ZhengThu, 12 Ma💻 cs

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

O artigo apresenta o ID-LoRA, um modelo pioneiro que gera simultaneamente a aparência visual e a voz de um sujeito em uma única passagem, utilizando uma adaptação eficiente de parâmetros (In-Context LoRA) em um backbone de difusão áudio-vídeo para superar desafios de sincronização e diluição de identidade, superando métodos existentes como o Kling 2.6 Pro em similaridade vocal e estilo de fala.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs