ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Die Studie stellt ARSGaussian vor, eine Methode zur Synthese neuer Ansichten in der Luftbild-Fernerkundung, die LiDAR-Punktwolken und eine verzerrungskompensierende Koordinatentransformation nutzt, um geometrische Fehler wie schwebende Objekte zu reduzieren und eine präzise 3D-Rekonstruktion zu ermöglichen, wobei zudem der neue AIR-LONGYAN-Datensatz veröffentlicht wird.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Diese Studie bietet eine umfassende Analyse verschiedener Zeit-of-Flight-Nicht-Sichtlinien-Imaging-Methoden, indem sie diese unter einem gemeinsamen mathematischen und hardwaretechnischen Rahmen vergleicht, um ihre Ähnlichkeiten, Unterschiede sowie gemeinsame Leistungsgrenzen bezüglich räumlicher Auflösung und Rauschempfindlichkeit objektiv zu bewerten.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Das Paper stellt FabricGen vor, ein End-to-End-Framework, das durch die Kombination eines auf textfreien Stoffen feinabgestimmten Diffusionsmodells für Makrostrukturen und eines durch ein spezialisiertes WeavingLLM gesteuerten prozeduralen Modells für Mikrostrukturen realistische, textgesteuerte Webstoffmaterialien mit detaillierten Garnstrukturen generiert.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei WangTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Die Arbeit stellt MambaDance vor, einen neuartigen Ansatz zur Tanzgenerierung, der ein Mamba-basiertes Diffusionsmodell mit einer glockenförmigen Beat-Repräsentation kombiniert, um im Vergleich zu Transformer-basierten Methoden längere, rhythmisch präzisere und musikalisch synchronisierte Tanzbewegungen zu erzeugen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

M-ABD: Scalable, Efficient, and Robust Multi-Affine-Body Dynamics

Die Arbeit stellt M-ABD vor, einen skalierbaren und robusten Simulator für große Mehrkörpersysteme, der durch die Nutzung linearer kinematischer Abbildungen und vorkalkulierter Systemmatrizen interaktive Raten bei hoher Stabilität ermöglicht.

Zhiyong He (University of Utah), Dewen Guo (University of Utah), Minghao Guo (MIT), Yili Zhao (ByteDance), Wojciech Matusik (MIT), Hao Su (UCSD), Chenfanfu Jiang (UCLA), Peter Yichen Chen (UBC), Yin Yang (University of Utah)Tue, 10 Ma💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Die Arbeit stellt RAF (Retrieval-Augmented Faces) vor, eine Trainingsmethode für templatefreie animierbare Kopf-Avatare, die durch den gezielten Austausch von Gesichtsmerkmalen mit ähnlichen Ausdrücken aus einer großen unlabeled Datenbank die Generalisierungsfähigkeit und Robustheit gegenüber neuen Mimiken verbessert, ohne zusätzliche Annotationen oder Architekturrevolutionen zu benötigen.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani LischinskiTue, 10 Ma🤖 cs.LG

SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

Die Arbeit stellt SEGA vor, eine neuartige Methode zur Erstellung fotorealistischer, drifbarer 3D-Gesichts-Avatare aus einem einzigen Bild, die durch die Kombination von Generalisierungspriors und einem hierarchischen UV-Raum-Gaussian-Splatting-Framework sowohl eine robuste Generalisierung auf neue Identitäten als auch eine Echtzeit-Animation ermöglicht.

Chen Guo, Zhuo Su, Liao Wang, Jian Wang, Shuang Li, Xu Chang, Zhaohu Li, Yang Zhao, Guidong Wang, Yebin Liu, Ruqi HuangThu, 12 Ma💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Das Paper stellt SDGraph vor, eine neuartige Deep-Learning-Architektur, die durch die Kombination von Sparse- und Dense-Graph-Modulen sowie einem mehrstufigen Repräsentationsschema (Skizzen-, Strich- und Punkt-Ebene) effektive Skizzeninformationen extrahiert und damit den State-of-the-Art in Klassifizierung, Suche und Vektor-Skizzen-Generierung signifikant verbessert.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long ZengThu, 12 Ma💻 cs

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA ist ein bahnbrechendes Modell, das erstmals die personalisierte Generierung von visuellem Aussehen und Stimme in einem einzigen Durchlauf mittels eines In-Context-LoRA-Ansatzes auf einer Audio-Video-Diffusionsbasis ermöglicht und dabei durch innovative Techniken wie negative Zeitpositionen und Identitätsführung eine überlegene Synchronität und Ähnlichkeit im Vergleich zu bestehenden Methoden erzielt.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs