cs.GR artículos | Gist.Science

Collaborative Problem Solving in Mixed Reality: A Study on Visual Graph Analysis

Este estudio con 72 participantes demuestra que, aunque la resolución colaborativa de problemas en realidad mixta es relevante para tareas complejas, la representación de gráficos en 3D no genera resultados superiores a los de los grupos nominales, lo que subraya la importancia de utilizar estos últimos como referencia para evaluar entornos virtuales colaborativos.

Dimitar Garkov, Tommaso Piselli, Emilio Di Giacomo, Karsten Klein, Giuseppe Liotta, Fabrizio Montecchiani, Falk SchreiberWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

El artículo presenta ARSGaussian, un método innovador de síntesis de nuevas vistas para la teledetección aérea que integra nubes de puntos LiDAR y un modelo de cámara con parámetros de distorsión dentro de la técnica 3D Gaussian Splatting para resolver problemas de flotadores y crecimiento excesivo, mejorando así la precisión geométrica y la alineación geo-espacial, todo ello respaldado por el lanzamiento del nuevo conjunto de datos abierto AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Este estudio presenta un análisis exhaustivo y unificado de diversos métodos de imagen no lineal de tiempo de vuelo (ToF NLOS), estableciendo un marco común de formulación y hardware para evaluar sus similitudes, diferencias y limitaciones de rendimiento, con el objetivo de servir como referencia para comparaciones objetivas en futuras investigaciones.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Este trabajo evalúa sistemáticamente la accesibilidad del color en imágenes generadas por modelos de difusión, introduciendo la nueva métrica "CVDLoss" para cuantificar las mejoras estructurales y demostrando que los modelos actuales tienen dificultades para responder eficazmente a instrucciones enfocadas en la accesibilidad para personas con deficiencia en la visión del color.

Xinyao Zhuang, Jose Echevarria, Kaan AksitWed, 11 Ma💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

El artículo demuestra que la optimización directa de la distancia de chamfer falla estructuralmente debido a un colapso de muchos a uno causado por gradientes locales, y propone que la introducción de acoplamiento no local, como en deformaciones de base compartida o priores MPM diferenciables, es esencial para suprimir este colapso y lograr una reconstrucción de formas 3D exitosa.

Chang-Yong Song, David HydeWed, 11 Ma💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

El artículo presenta MultiGen, un enfoque que introduce una memoria externa persistente y editable en motores de juegos basados en difusión para superar las limitaciones de control del usuario y la coherencia en simulaciones multijugador interactivas.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel RuizTue, 10 Ma💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

El artículo presenta FabricGen, un marco de trabajo integral que genera materiales de tela tejida de alta calidad a partir de descripciones textuales mediante la descomposición de la tarea en la síntesis de texturas macroscópicas con modelos de difusión y la creación de geometrías microscópicas realistas impulsada por un modelo de lenguaje especializado (WeavingLLM) que diseña patrones de tejido acordes a los principios de la industria.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei WangTue, 10 Ma💻 cs

Image Generation Models: A Technical History

Este artículo ofrece una encuesta técnica exhaustiva sobre la evolución de los modelos de generación de imágenes, abarcando desde VAEs y GANs hasta métodos de difusión, analizando sus fundamentos, limitaciones y su expansión hacia la generación de video y la responsabilidad en su despliegue.

Rouzbeh ShirvaniTue, 10 Ma💬 cs.CL

Ref-DGS: Reflective Dual Gaussian Splatting

Ref-DGS es un marco de doble representación gaussiana que supera el compromiso entre la reconstrucción precisa de superficies reflectantes y la eficiencia computacional al decoupling la geometría de las reflexiones especulares mediante un sombreador adaptativo, logrando un rendimiento superior y un entrenamiento más rápido que los métodos basados en trazado de rayos.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter WonkaTue, 10 Ma💻 cs

Parameterized Brushstroke Style Transfer

Este artículo presenta un método de transferencia de estilo que representa las imágenes en el dominio de las pinceladas en lugar del dominio de píxeles RGB, logrando una mejora visual más natural y fiel a la creación artística real.

Uma Meleti, Siyu HuangTue, 10 Ma💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

El artículo presenta TeamHOI, un marco que utiliza una política descentralizada basada en Transformers y un prior adversarial de movimiento enmascarado para permitir que un número variable de agentes humanoides realicen interacciones cooperativas humano-objeto realistas y estables mediante una sola política unificada.

Stefan Lionar, Gim Hee LeeTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Este artículo presenta MambaDance, un nuevo enfoque de generación de danza que sustituye a los transformadores por un modelo de difusión basado en Mamba e incorpora una representación de ritmo basada en Gaussianas para producir movimientos sincronizados con la música que capturan eficazmente las características secuenciales y rítmicas del baile.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

M-ABD: Scalable, Efficient, and Robust Multi-Affine-Body Dynamics

Este artículo presenta M-ABD, un marco novedoso que aprovecha la dinámica de cuerpos afines y un espacio dual compacto para simular de manera eficiente, escalable y robusta grandes ensamblajes articulados con restricciones exactas, logrando tasas interactivas en un solo núcleo de CPU incluso con pasos de tiempo grandes.

Zhiyong He (University of Utah), Dewen Guo (University of Utah), Minghao Guo (MIT), Yili Zhao (ByteDance), Wojciech Matusik (MIT), Hao Su (UCSD), Chenfanfu Jiang (UCLA), Peter Yichen Chen (UBC), Yin Yang (University of Utah)Tue, 10 Ma💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

El artículo presenta RAF (Retrieval-Augmented Faces), una técnica de aumento durante el entrenamiento que mejora la generalización de expresiones en avatares de cabeza sin plantillas al reemplazar características de expresión con vecinos más cercanos de un banco no etiquetado, logrando así mayor fidelidad y robustez sin requerir datos cruzados ni cambios arquitectónicos.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani LischinskiTue, 10 Ma🤖 cs.LG

Sketch-Guided Stylized Landscape Cinemagraph Synthesis

El artículo presenta Sketch2Cinemagraph, un marco de trabajo que utiliza bocetos manuales y prompts de texto para guiar la generación condicional de cinemagrafías de paisajes estilizados con control preciso sobre los elementos espaciales y de movimiento.

Hao Jin, Hengyuan Chang, Xiaoxuan Xie, Zhengyang Wang, Xusheng Du, Shaojun Hu, Haoran XieThu, 12 Ma💻 cs

Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion

Este artículo propone un nuevo enfoque de fusión de imágenes de pocos ejemplos que introduce el concepto de "priors incompletos" y un algoritmo de cálculo de píxeles de bolas granulares (GBPC) para permitir que una red neuronal ligera aprenda reglas de fusión adaptativas y generalizables sin necesidad de imágenes fusionadas reales como supervisión.

Minjie Deng, Yan Wei, An Wu, Yuncan Ouyang, Hao Zhai, Qianyao PengThu, 12 Ma⚡ eess

SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

El artículo presenta SEGA, un método novedoso que genera avatares de cabeza 3D fotorrealistas y controlables a partir de una sola imagen, combinando priores generalizados con un marco jerárquico de *Gaussian Splatting* en espacio UV para lograr una alta fidelidad, consistencia 3D y rendimiento en tiempo real.

Chen Guo, Zhuo Su, Liao Wang, Jian Wang, Shuang Li, Xu Chang, Zhaohu Li, Yang Zhao, Guidong Wang, Yebin Liu, Ruqi HuangThu, 12 Ma💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

El artículo presenta SDGraph, una arquitectura de aprendizaje profundo basada en grafos dispersos y densos que, mediante un esquema de representación de múltiples niveles (boceto, trazo y punto), identifica y explota la información efectiva de los bocetos manuales para mejorar significativamente el rendimiento en tareas de clasificación, recuperación y generación.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long ZengThu, 12 Ma💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

Este artículo presenta un marco de triangulación basado en plantillas que incrusta fronteras derivadas de imágenes en una malla triangular regular mediante una tabla de búsqueda simbólica para garantizar una discretización de EDPs estable, paralela y geométricamente fiel sin necesidad de actualizaciones globales de conectividad.

Wei Feng, Haiyong ZhengThu, 12 Ma💻 cs

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA es un modelo generativo pionero que personaliza simultáneamente la apariencia visual y la voz de un sujeto en un solo paso, utilizando una adaptación eficiente de parámetros (In-Context LoRA) sobre una arquitectura de difusión audio-video para superar las limitaciones de sincronización y control de estilo de los métodos existentes.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs