cs.GR Arbeiten | Gist.Science

Collaborative Problem Solving in Mixed Reality: A Study on Visual Graph Analysis

Diese Studie vergleicht die Leistung von Einzelpersonen, ad-hoc-Paaren und nominalen Paaren bei der visuellen Graphanalyse in Mixed Reality und stellt fest, dass eine 3D-Darstellung allein keine besseren kollaborativen Ergebnisse im Vergleich zum Benchmark liefert.

Dimitar Garkov, Tommaso Piselli, Emilio Di Giacomo, Karsten Klein, Giuseppe Liotta, Fabrizio Montecchiani, Falk SchreiberWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Die Studie stellt ARSGaussian vor, eine Methode zur Synthese neuer Ansichten in der Luftbild-Fernerkundung, die LiDAR-Punktwolken und eine verzerrungskompensierende Koordinatentransformation nutzt, um geometrische Fehler wie schwebende Objekte zu reduzieren und eine präzise 3D-Rekonstruktion zu ermöglichen, wobei zudem der neue AIR-LONGYAN-Datensatz veröffentlicht wird.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Diese Studie bietet eine umfassende Analyse verschiedener Zeit-of-Flight-Nicht-Sichtlinien-Imaging-Methoden, indem sie diese unter einem gemeinsamen mathematischen und hardwaretechnischen Rahmen vergleicht, um ihre Ähnlichkeiten, Unterschiede sowie gemeinsame Leistungsgrenzen bezüglich räumlicher Auflösung und Rauschempfindlichkeit objektiv zu bewerten.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Diese Arbeit stellt eine systematische Evaluierung der Farbzugänglichkeit in diffusionsbasierten Bildgenerierungsmodellen vor, führt die neue Metrik „CVDLoss" ein und zeigt auf, dass aktuelle Modelle auf zugänglichkeitsorientierte Prompts nicht zuverlässig reagieren.

Xinyao Zhuang, Jose Echevarria, Kaan AksitWed, 11 Ma💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Die Arbeit zeigt, dass die direkte Optimierung des Chamfer-Abstands in der 3D-Formoptimierung aufgrund eines strukturellen Gradientenproblems zum Kollaps führt, der nur durch nicht-lokale Kopplung, wie sie durch geteilte Basisdeformationen oder einen differentiable MPM-Prior bereitgestellt wird, wirksam verhindert werden kann.

Chang-Yong Song, David HydeWed, 11 Ma💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Die Arbeit stellt MultiGen vor, ein Diffusions-Game-Engine-System, das durch eine persistente externe Speicherkomponente und eine modulare Architektur sowohl eine direkte, bearbeitbare Kontrolle über die Spielumgebung als auch konsistente Echtzeit-Multiplayer-Interaktionen ermöglicht.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel RuizTue, 10 Ma💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Das Paper stellt FabricGen vor, ein End-to-End-Framework, das durch die Kombination eines auf textfreien Stoffen feinabgestimmten Diffusionsmodells für Makrostrukturen und eines durch ein spezialisiertes WeavingLLM gesteuerten prozeduralen Modells für Mikrostrukturen realistische, textgesteuerte Webstoffmaterialien mit detaillierten Garnstrukturen generiert.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei WangTue, 10 Ma💻 cs

Image Generation Models: A Technical History

Dieser Artikel bietet eine umfassende technische Übersicht über die Entwicklung von Bildgenerierungsmodellen – von VAEs und GANs bis hin zu Diffusionsverfahren – und behandelt dabei deren Architekturen, Trainingsmethoden, Grenzen sowie aktuelle Fortschritte in der Videogenerierung und die Notwendigkeit einer verantwortungsvollen Nutzung.

Rouzbeh ShirvaniTue, 10 Ma💬 cs.CL

Ref-DGS: Reflective Dual Gaussian Splatting

Der Artikel stellt Ref-DGS vor, ein effizientes Framework zur dualen Gaußschen Splatting, das durch die Entkopplung von Geometrie und Reflexion sowie die Nutzung lokaler und globaler Reflexionsfelder hochpräzise Oberflächenspiegelungen ohne explizites Raytracing ermöglicht.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter WonkaTue, 10 Ma💻 cs

Parameterized Brushstroke Style Transfer

Dieses Paper stellt eine Methode zur Stilübertragung vor, die Bilder im Pinselstrich-Domain statt im RGB-Domain darstellt, um eine natürlichere und visuell überlegene Nachahmung künstlerischer Werke zu ermöglichen.

Uma Meleti, Siyu HuangTue, 10 Ma💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Das Paper stellt TeamHOI vor, ein dezentralisiertes Framework, das mithilfe eines Transformer-basierten Policies und einer maskierten adversariellen Bewegungsprior-Methode (AMP) physisch plausible und skalierbare kooperative Mensch-Objekt-Interaktionen für Teams beliebiger Größe ermöglicht.

Stefan Lionar, Gim Hee LeeTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Die Arbeit stellt MambaDance vor, einen neuartigen Ansatz zur Tanzgenerierung, der ein Mamba-basiertes Diffusionsmodell mit einer glockenförmigen Beat-Repräsentation kombiniert, um im Vergleich zu Transformer-basierten Methoden längere, rhythmisch präzisere und musikalisch synchronisierte Tanzbewegungen zu erzeugen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

M-ABD: Scalable, Efficient, and Robust Multi-Affine-Body Dynamics

Die Arbeit stellt M-ABD vor, einen skalierbaren und robusten Simulator für große Mehrkörpersysteme, der durch die Nutzung linearer kinematischer Abbildungen und vorkalkulierter Systemmatrizen interaktive Raten bei hoher Stabilität ermöglicht.

Zhiyong He (University of Utah), Dewen Guo (University of Utah), Minghao Guo (MIT), Yili Zhao (ByteDance), Wojciech Matusik (MIT), Hao Su (UCSD), Chenfanfu Jiang (UCLA), Peter Yichen Chen (UBC), Yin Yang (University of Utah)Tue, 10 Ma💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Die Arbeit stellt RAF (Retrieval-Augmented Faces) vor, eine Trainingsmethode für templatefreie animierbare Kopf-Avatare, die durch den gezielten Austausch von Gesichtsmerkmalen mit ähnlichen Ausdrücken aus einer großen unlabeled Datenbank die Generalisierungsfähigkeit und Robustheit gegenüber neuen Mimiken verbessert, ohne zusätzliche Annotationen oder Architekturrevolutionen zu benötigen.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani LischinskiTue, 10 Ma🤖 cs.LG

Sketch-Guided Stylized Landscape Cinemagraph Synthesis

Die Arbeit stellt Sketch2Cinemagraph vor, ein Framework, das freihändige Skizzen nutzt, um stilisierte Cinemagraphs mit präziser räumlicher und Bewegungssteuerung aus Landschaftsbildern zu synthetisieren.

Hao Jin, Hengyuan Chang, Xiaoxuan Xie, Zhengyang Wang, Xusheng Du, Shaojun Hu, Haoran XieThu, 12 Ma💻 cs

Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion

Diese Arbeit stellt eine neue Few-Shot-Bildfusion vor, die auf dem Konzept unvollständiger Priors und dem Granular-Ball-Pixel-Computing-Algorithmus (GBPC) basiert, um eine adaptive, generalisierbare und dateneffiziente Lernmethode zu ermöglichen, die auch mit wenigen Trainingspaaren überlegene Ergebnisse liefert.

Minjie Deng, Yan Wei, An Wu, Yuncan Ouyang, Hao Zhai, Qianyao PengThu, 12 Ma⚡ eess

SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

Die Arbeit stellt SEGA vor, eine neuartige Methode zur Erstellung fotorealistischer, drifbarer 3D-Gesichts-Avatare aus einem einzigen Bild, die durch die Kombination von Generalisierungspriors und einem hierarchischen UV-Raum-Gaussian-Splatting-Framework sowohl eine robuste Generalisierung auf neue Identitäten als auch eine Echtzeit-Animation ermöglicht.

Chen Guo, Zhuo Su, Liao Wang, Jian Wang, Shuang Li, Xu Chang, Zhaohu Li, Yang Zhao, Guidong Wang, Yebin Liu, Ruqi HuangThu, 12 Ma💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Das Paper stellt SDGraph vor, eine neuartige Deep-Learning-Architektur, die durch die Kombination von Sparse- und Dense-Graph-Modulen sowie einem mehrstufigen Repräsentationsschema (Skizzen-, Strich- und Punkt-Ebene) effektive Skizzeninformationen extrahiert und damit den State-of-the-Art in Klassifizierung, Suche und Vektor-Skizzen-Generierung signifikant verbessert.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long ZengThu, 12 Ma💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

Die vorgestellte Arbeit entwickelt ein templatesbasiertes Triangulierungsverfahren, das rasterbasierte Domänen durch eine lokale, parallelisierbare und deterministische Neutriangulierung von Schnittkanten in ein reguläres Dreiecksgitter integriert, um stabile und geometrisch präzise Diskretisierungen für PDEs auf bildbasierten Gebieten zu ermöglichen.

Wei Feng, Haiyong ZhengThu, 12 Ma💻 cs

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA ist ein bahnbrechendes Modell, das erstmals die personalisierte Generierung von visuellem Aussehen und Stimme in einem einzigen Durchlauf mittels eines In-Context-LoRA-Ansatzes auf einer Audio-Video-Diffusionsbasis ermöglicht und dabei durch innovative Techniken wie negative Zeitpositionen und Identitätsführung eine überlegene Synchronität und Ähnlichkeit im Vergleich zu bestehenden Methoden erzielt.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

Weiter →