Collaborative Problem Solving in Mixed Reality: A Study on Visual Graph Analysis

Lo studio analizza la risoluzione collaborativa di problemi nell'analisi visiva di grafi in realtà mista, dimostrando che la rappresentazione 3D non garantisce risultati migliori rispetto ai gruppi nominali e sottolineando l'importanza di questi ultimi come benchmark di riferimento.

Dimitar Garkov, Tommaso Piselli, Emilio Di Giacomo, Karsten Klein, Giuseppe Liotta, Fabrizio Montecchiani, Falk SchreiberWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Il paper presenta ARSGaussian, un metodo innovativo per la sintesi di nuove viste in ambito di telerilevamento aereo che integra nuvole di punti LiDAR e modelli di distorsione geometrica nel 3D Gaussian Splatting per risolvere problemi di fluttuazione e sovracrescita, migliorando la precisione geometrica e rilasciando il nuovo dataset AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Il paper presenta FabricGen, un framework end-to-end che genera tessuti intrecciati realistici a partire da descrizioni testuali decomponendo il processo nella sintesi di texture macroscopiche tramite modelli di diffusione e di geometrie microscopiche dei fili controllate da un modello linguistico specializzato (WeavingLLM) per rispettare le regole dell'intreccio.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei WangTue, 10 Ma💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

Il paper presenta Ref-DGS, un nuovo framework di Dual Gaussian Splatting che risolve il compromesso tra accuratezza e efficienza nella ricostruzione di superfici riflettenti e nella sintesi di nuove viste, decoupling la geometria dalle riflessioni speculari tramite una rappresentazione duale di Gaussiane e un shader adattivo, ottenendo prestazioni all'avanguardia senza costosi calcoli di ray tracing.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter WonkaTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Il paper presenta MambaDance, un nuovo approccio per la generazione di danza che sostituisce i modelli Transformer con un'architettura di diffusione basata su Mamba e utilizza una rappresentazione dei battiti musicali di tipo gaussiano per produrre movimenti realistici e sincronizzati con la musica su sequenze di qualsiasi durata.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

M-ABD: Scalable, Efficient, and Robust Multi-Affine-Body Dynamics

Il paper introduce M-ABD, un nuovo framework che sfrutta la dinamica dei corpi affini e una mappatura in uno spazio duale compatto per simulare in modo stabile ed efficiente, a velocità interattive su singola CPU, grandi assemblaggi articolati complessi con vincoli esatti e passi temporali ampi.

Zhiyong He (University of Utah), Dewen Guo (University of Utah), Minghao Guo (MIT), Yili Zhao (ByteDance), Wojciech Matusik (MIT), Hao Su (UCSD), Chenfanfu Jiang (UCLA), Peter Yichen Chen (UBC), Yin Yang (University of Utah)Tue, 10 Ma💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Il paper introduce RAF (Retrieval-Augmented Faces), un metodo di augmentation durante l'addestramento che migliora la generalizzazione delle espressioni per avatar facciali privi di template, sostituendo le feature del soggetto con espressioni recuperate da un archivio non etichettato per aumentare la diversità dei dati e la robustezza senza richiedere annotazioni aggiuntive.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani LischinskiTue, 10 Ma🤖 cs.LG

Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion

Questo articolo propone un nuovo approccio per la fusione di immagini in pochi esempi che, sfruttando i "priors granulari" (incompleti) calcolati tramite l'algoritmo GBPC e un'adattiva funzione di perdita, permette a una rete neurale leggera di apprendere regole di fusione efficaci senza bisogno di immagini fuse reali come supervisione.

Minjie Deng, Yan Wei, An Wu, Yuncan Ouyang, Hao Zhai, Qianyao PengThu, 12 Ma⚡ eess

SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

Il paper presenta SEGA, un approccio innovativo che genera avatar 3D fotorealistici e guidabili per la testa a partire da una singola immagine, combinando modelli di priorità generalizzati con un nuovo framework di Gaussian Splatting nello spazio UV gerarchico per garantire coerenza 3D, realismo espressivo e prestazioni in tempo reale.

Chen Guo, Zhuo Su, Liao Wang, Jian Wang, Shuang Li, Xu Chang, Zhaohu Li, Yang Zhao, Guidong Wang, Yebin Liu, Ruqi HuangThu, 12 Ma💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Il paper presenta SDGraph, un'architettura di apprendimento profondo basata su un'architettura grafica sparsa-densa che, attraverso una proposta di rappresentazione multilivello (livello schizzo, tratto e punto), identifica e sfrutta le informazioni efficaci negli schizzi a mano libera per migliorare significativamente le prestazioni in compiti di classificazione, recupero e generazione.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long ZengThu, 12 Ma💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

Il paper propone un framework di triangolazione guidato da template che integra i confini derivati da immagini in una griglia triangolare regolare, consentendo una discretizzazione stabile e parallela delle PDE con una migliore fedeltà geometrica e una riduzione degli elementi scadenti rispetto ai metodi tradizionali come la triangolazione di Delaunay vincolata.

Wei Feng, Haiyong ZhengThu, 12 Ma💻 cs

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

Il paper presenta ID-LoRA, un modello generativo unico che personalizza simultaneamente l'aspetto visivo e la voce di un soggetto in un singolo passaggio, superando le limitazioni dei metodi attuali che trattano audio e video separatamente e ottenendo risultati superiori rispetto a Kling 2.6 Pro in termini di somiglianza vocale e stile di parlato.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs