cs.GR articoli | Gist.Science

Collaborative Problem Solving in Mixed Reality: A Study on Visual Graph Analysis

Lo studio analizza la risoluzione collaborativa di problemi nell'analisi visiva di grafi in realtà mista, dimostrando che la rappresentazione 3D non garantisce risultati migliori rispetto ai gruppi nominali e sottolineando l'importanza di questi ultimi come benchmark di riferimento.

Dimitar Garkov, Tommaso Piselli, Emilio Di Giacomo, Karsten Klein, Giuseppe Liotta, Fabrizio Montecchiani, Falk SchreiberWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Il paper presenta ARSGaussian, un metodo innovativo per la sintesi di nuove viste in ambito di telerilevamento aereo che integra nuvole di punti LiDAR e modelli di distorsione geometrica nel 3D Gaussian Splatting per risolvere problemi di fluttuazione e sovracrescita, migliorando la precisione geometrica e rilasciando il nuovo dataset AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Questo studio presenta un'analisi completa e comparativa di diversi metodi di imaging non in linea di vista (NLOS) basati sul tempo di volo, unificandone la formulazione teorica e l'hardware per valutarne le prestazioni, le limitazioni e le somiglianze in condizioni sperimentali controllate.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Questo lavoro valuta sistematicamente l'accessibilità cromatica nei modelli di generazione di immagini basati su diffusione, introducendo la nuova metrica "CVDLoss" per misurare le modifiche strutturali e rivelando che i modelli attuali faticano a rispondere efficacemente a prompt focalizzati sull'accessibilità.

Xinyao Zhuang, Jose Echevarria, Kaan AksitWed, 11 Ma💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Questo paper dimostra che la distanza di Chamfer fallisce strutturalmente nell'ottimizzazione di forme 3D a causa di un collasso indotto dal gradiente che può essere risolto solo introducendo un accoppiamento non locale, come illustrato attraverso deformazioni a base condivisa e un prior MPM differenziabile.

Chang-Yong Song, David HydeWed, 11 Ma💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Il paper introduce MultiGen, un motore di gioco basato su diffusione che integra una memoria esterna persistente e modulare per abilitare il controllo modificabile degli utenti sull'ambiente e garantire interazioni coerenti in mondi multiplayer condivisi.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel RuizTue, 10 Ma💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Il paper presenta FabricGen, un framework end-to-end che genera tessuti intrecciati realistici a partire da descrizioni testuali decomponendo il processo nella sintesi di texture macroscopiche tramite modelli di diffusione e di geometrie microscopiche dei fili controllate da un modello linguistico specializzato (WeavingLLM) per rispettare le regole dell'intreccio.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei WangTue, 10 Ma💻 cs

Image Generation Models: A Technical History

Questo articolo offre un'analisi tecnica completa dell'evoluzione dei modelli di generazione delle immagini, esaminando le architetture fondamentali, le tecniche di ottimizzazione, le limitazioni e le recenti applicazioni nella generazione video, con un focus particolare sulla sicurezza e sulla responsabilità nel loro utilizzo.

Rouzbeh ShirvaniTue, 10 Ma💬 cs.CL

Ref-DGS: Reflective Dual Gaussian Splatting

Il paper presenta Ref-DGS, un nuovo framework di Dual Gaussian Splatting che risolve il compromesso tra accuratezza e efficienza nella ricostruzione di superfici riflettenti e nella sintesi di nuove viste, decoupling la geometria dalle riflessioni speculari tramite una rappresentazione duale di Gaussiane e un shader adattivo, ottenendo prestazioni all'avanguardia senza costosi calcoli di ray tracing.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter WonkaTue, 10 Ma💻 cs

Parameterized Brushstroke Style Transfer

Questo paper propone un metodo di trasferimento dello stile che rappresenta le immagini nel dominio delle pennellate anziché in quello dei pixel RGB, ottenendo risultati visivamente più naturali e fedeli all'arte reale.

Uma Meleti, Siyu HuangTue, 10 Ma💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Il paper presenta TeamHOI, un framework che utilizza una politica decentralizzata basata su Transformer e una strategia di Adversarial Motion Prior mascherata per abilitare un singolo agente di controllo a gestire interazioni cooperative uomo-oggetto realistiche e scalabili con un numero variabile di agenti.

Stefan Lionar, Gim Hee LeeTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Il paper presenta MambaDance, un nuovo approccio per la generazione di danza che sostituisce i modelli Transformer con un'architettura di diffusione basata su Mamba e utilizza una rappresentazione dei battiti musicali di tipo gaussiano per produrre movimenti realistici e sincronizzati con la musica su sequenze di qualsiasi durata.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

M-ABD: Scalable, Efficient, and Robust Multi-Affine-Body Dynamics

Il paper introduce M-ABD, un nuovo framework che sfrutta la dinamica dei corpi affini e una mappatura in uno spazio duale compatto per simulare in modo stabile ed efficiente, a velocità interattive su singola CPU, grandi assemblaggi articolati complessi con vincoli esatti e passi temporali ampi.

Zhiyong He (University of Utah), Dewen Guo (University of Utah), Minghao Guo (MIT), Yili Zhao (ByteDance), Wojciech Matusik (MIT), Hao Su (UCSD), Chenfanfu Jiang (UCLA), Peter Yichen Chen (UBC), Yin Yang (University of Utah)Tue, 10 Ma💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Il paper introduce RAF (Retrieval-Augmented Faces), un metodo di augmentation durante l'addestramento che migliora la generalizzazione delle espressioni per avatar facciali privi di template, sostituendo le feature del soggetto con espressioni recuperate da un archivio non etichettato per aumentare la diversità dei dati e la robustezza senza richiedere annotazioni aggiuntive.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani LischinskiTue, 10 Ma🤖 cs.LG

Sketch-Guided Stylized Landscape Cinemagraph Synthesis

Il paper presenta Sketch2Cinemagraph, un framework che genera cinemagrafi stilizzati di paesaggi con flusso temporale continuo a partire da schizzi a mano libera, combinando prompt testuali, modelli di diffusione latente e controlli di movimento per un controllo dettagliato e intuitivo.

Hao Jin, Hengyuan Chang, Xiaoxuan Xie, Zhengyang Wang, Xusheng Du, Shaojun Hu, Haoran XieThu, 12 Ma💻 cs

Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion

Questo articolo propone un nuovo approccio per la fusione di immagini in pochi esempi che, sfruttando i "priors granulari" (incompleti) calcolati tramite l'algoritmo GBPC e un'adattiva funzione di perdita, permette a una rete neurale leggera di apprendere regole di fusione efficaci senza bisogno di immagini fuse reali come supervisione.

Minjie Deng, Yan Wei, An Wu, Yuncan Ouyang, Hao Zhai, Qianyao PengThu, 12 Ma⚡ eess

SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

Il paper presenta SEGA, un approccio innovativo che genera avatar 3D fotorealistici e guidabili per la testa a partire da una singola immagine, combinando modelli di priorità generalizzati con un nuovo framework di Gaussian Splatting nello spazio UV gerarchico per garantire coerenza 3D, realismo espressivo e prestazioni in tempo reale.

Chen Guo, Zhuo Su, Liao Wang, Jian Wang, Shuang Li, Xu Chang, Zhaohu Li, Yang Zhao, Guidong Wang, Yebin Liu, Ruqi HuangThu, 12 Ma💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Il paper presenta SDGraph, un'architettura di apprendimento profondo basata su un'architettura grafica sparsa-densa che, attraverso una proposta di rappresentazione multilivello (livello schizzo, tratto e punto), identifica e sfrutta le informazioni efficaci negli schizzi a mano libera per migliorare significativamente le prestazioni in compiti di classificazione, recupero e generazione.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long ZengThu, 12 Ma💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

Il paper propone un framework di triangolazione guidato da template che integra i confini derivati da immagini in una griglia triangolare regolare, consentendo una discretizzazione stabile e parallela delle PDE con una migliore fedeltà geometrica e una riduzione degli elementi scadenti rispetto ai metodi tradizionali come la triangolazione di Delaunay vincolata.

Wei Feng, Haiyong ZhengThu, 12 Ma💻 cs

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

Il paper presenta ID-LoRA, un modello generativo unico che personalizza simultaneamente l'aspetto visivo e la voce di un soggetto in un singolo passaggio, superando le limitazioni dei metodi attuali che trattano audio e video separatamente e ottenendo risultati superiori rispetto a Kling 2.6 Pro in termini di somiglianza vocale e stile di parlato.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs