cs.GR articles | Gist.Science

Collaborative Problem Solving in Mixed Reality: A Study on Visual Graph Analysis

Cette étude comparative menée sur 72 participants en réalité mixte conclut que, bien que la complexité des tâches influence la demande de collaboration, la représentation graphique en 3D ne suffit pas à générer de meilleurs résultats collaboratifs que les groupes nominaux.

Dimitar Garkov, Tommaso Piselli, Emilio Di Giacomo, Karsten Klein, Giuseppe Liotta, Fabrizio Montecchiani, Falk SchreiberWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

L'article présente ARSGaussian, une méthode innovante de synthèse de vues nouvelles pour la télédétection aérienne qui intègre des nuages de points LiDAR et des pertes de régularisation géométrique pour éliminer les artefacts visuels et améliorer la précision géométrique, accompagnée de la publication du nouveau jeu de données open-source AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Cette étude présente une analyse comparative approfondie de diverses méthodes d'imagerie non-ligne-de-vue par temps de vol, en les unifiant sous un modèle commun pour évaluer leurs performances, limites et similitudes dans des conditions expérimentales standardisées.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Cette étude évalue systématiquement l'accessibilité chromatique des images générées par diffusion, introduisant une nouvelle métrique appelée « CVDLoss » pour quantifier les déficiences visuelles et mettre en évidence les limites actuelles des modèles à répondre efficacement aux consignes d'amélioration de l'accessibilité.

Xinyao Zhuang, Jose Echevarria, Kaan AksitWed, 11 Ma💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Cet article démontre que l'optimisation directe de la distance de Chamfer conduit inévitablement à un effondrement structurel dû à l'absence de couplage non local, et propose que l'introduction de contraintes de couplage global, telles qu'un prior MPM différentiable, est la condition nécessaire pour supprimer ce phénomène et améliorer la reconstruction de formes 3D.

Chang-Yong Song, David HydeWed, 11 Ma💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Ce papier présente MultiGen, un moteur de jeu basé sur la diffusion qui intègre une mémoire externe persistante et modifiable pour permettre un contrôle éditables des environnements et une génération cohérente de mondes multijoueurs interactifs.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel RuizTue, 10 Ma💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Le papier présente FabricGen, un cadre de génération de tissus tissés de haute qualité qui combine un modèle de diffusion pour les textures macroscopiques et un modèle géométrique procédural piloté par un LLM spécialisé pour créer des motifs de tissage réalistes au niveau des fils.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei WangTue, 10 Ma💻 cs

Image Generation Models: A Technical History

Ce papier propose une enquête technique complète sur l'évolution des modèles de génération d'images, couvrant les architectures clés des VAE aux méthodes de diffusion, ainsi que les avancées récentes en vidéo et les enjeux de robustesse et de déploiement responsable.

Rouzbeh ShirvaniTue, 10 Ma💬 cs.CL

Ref-DGS: Reflective Dual Gaussian Splatting

Le papier présente Ref-DGS, une méthode de splatting gaussien dual qui améliore la reconstruction de surfaces et la synthèse de vues nouvelles pour les scènes réfléchissantes en découplant la géométrie des réflexions spéculaires via une représentation à double gaussienne et un shader adaptatif, le tout sans recourir au ray tracing explicite.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter WonkaTue, 10 Ma💻 cs

Parameterized Brushstroke Style Transfer

Ce papier propose une méthode de transfert de style qui représente les images dans le domaine des coups de pinceau plutôt que dans le domaine des pixels, offrant ainsi une amélioration visuelle supérieure pour une représentation plus naturelle des œuvres d'art.

Uma Meleti, Siyu HuangTue, 10 Ma💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Le papier présente TeamHOI, un cadre d'apprentissage par renforcement qui permet à une politique décentralisée unique de gérer des interactions coopératives homme-objet réalistes et physiquement plausibles avec un nombre variable d'agents humains, en combinant une architecture Transformer pour la coordination d'équipe et une stratégie de priorité de mouvement adversaire masquée pour pallier le manque de données.

Stefan Lionar, Gim Hee LeeTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Cet article présente MambaDance, une nouvelle méthode de génération de danse qui remplace les Transformers par un modèle de diffusion basé sur Mamba et utilise une représentation des battements musicaux pour produire des mouvements synchronisés et expressifs, surpassant les approches existantes sur des séquences de toutes durées.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

M-ABD: Scalable, Efficient, and Robust Multi-Affine-Body Dynamics

Ce papier présente M-ABD, un cadre novateur exploitant la dynamique des corps affines et une projection vers un espace dual compact pour simuler de manière stable et interactive des assemblages articulés à grande échelle sur un seul cœur de processeur, tout en garantissant une résolution exacte des contraintes et une propagation physique précise.

Zhiyong He (University of Utah), Dewen Guo (University of Utah), Minghao Guo (MIT), Yili Zhao (ByteDance), Wojciech Matusik (MIT), Hao Su (UCSD), Chenfanfu Jiang (UCLA), Peter Yichen Chen (UBC), Yin Yang (University of Utah)Tue, 10 Ma💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Ce papier présente RAF, une méthode d'augmentation par récupération qui améliore la généralisation des expressions des avatars de tête sans modèle en exposant le champ de déformation à un large éventail d'expressions extraites d'une banque non étiquetée, renforçant ainsi la robustesse et la fidélité sans nécessiter de données appariées ni d'annotations supplémentaires.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani LischinskiTue, 10 Ma🤖 cs.LG

Sketch-Guided Stylized Landscape Cinemagraph Synthesis

Le papier présente Sketch2Cinemagraph, un cadre de génération conditionnelle guidé par des croquis qui permet de synthétiser des cinégraphes de paysages stylisés avec un contrôle précis des flux spatiaux et temporels.

Hao Jin, Hengyuan Chang, Xiaoxuan Xie, Zhengyang Wang, Xusheng Du, Shaojun Hu, Haoran XieThu, 12 Ma💻 cs

Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion

Cet article propose une nouvelle approche de fusion d'images en peu d'exemples qui introduit le concept de priors incomplets et un algorithme de calcul de granules de pixels (GBPC) pour permettre à un réseau de neurones léger d'apprendre des règles de fusion adaptatives sans nécessiter de véritables images de référence.

Minjie Deng, Yan Wei, An Wu, Yuncan Ouyang, Hao Zhai, Qianyao PengThu, 12 Ma⚡ eess

SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

Le papier présente SEGA, une méthode innovante permettant de créer des avatars de tête 3D photoréalistes et animables en temps réel à partir d'une seule image, en combinant des priors généralisés et un nouveau framework de splatting gaussien hiérarchique dans l'espace UV pour garantir une cohérence 3D et une fidélité d'identité supérieures.

Chen Guo, Zhuo Su, Liao Wang, Jian Wang, Shuang Li, Xu Chang, Zhaohu Li, Yang Zhao, Guidong Wang, Yebin Liu, Ruqi HuangThu, 12 Ma💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Le papier présente SDGraph, une architecture d'apprentissage profond basée sur un graphe combinant des structures clairsemées et denses pour modéliser efficacement les esquisses à trois niveaux (esquisse, trait et point), améliorant ainsi significativement les performances dans les tâches de classification, de recherche et de génération.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long ZengThu, 12 Ma💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

Ce papier propose un cadre de triangulation piloté par des modèles qui intègre les limites dérivées d'images dans une grille triangulaire régulière en ne retriangulant que les éléments intersectés, garantissant ainsi une discrétisation stable, parallèle et déterministe pour la résolution d'équations aux dérivées partielles sur des domaines complexes.

Wei Feng, Haiyong ZhengThu, 12 Ma💻 cs

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA est une méthode novatrice qui génère simultanément l'apparence visuelle et la voix d'un sujet dans un seul passage de diffusion, en utilisant des techniques de LoRA contextuel et de guidage d'identité pour surpasser les modèles existants en termes de similarité vocale et de cohérence audio-vidéo.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs