cs.GR 篇论文 | Gist.Science

Collaborative Problem Solving in Mixed Reality: A Study on Visual Graph Analysis

该研究通过在混合现实环境中对比个人、名义小组与临时配对在视觉图分析任务中的表现，发现尽管引入了任务实例复杂度概念，但3D图表示并未比基准测试带来更优的协作效果，从而强调了使用名义小组作为评估协作虚拟环境基准的重要性。

Dimitar Garkov, Tommaso Piselli, Emilio Di Giacomo, Karsten Klein, Giuseppe Liotta, Fabrizio Montecchiani, Falk SchreiberWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

该论文提出了 ARSGaussian 方法，通过引入 LiDAR 点云约束、畸变校正坐标变换及几何一致性损失，有效解决了航空遥感场景下 3D 高斯泼溅技术面临的浮点与过度生长问题，并发布了配套的 AIR-LONGYAN 数据集以推动高精度新视角合成研究。

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

该论文通过建立统一的正向模型与硬件实验框架，对多种飞行时间非视域成像方法进行了系统性对比研究，揭示了现有方法在空间分辨率、可见性及噪声敏感性方面的共性局限与差异，旨在为未来该领域的客观评估提供基准参考。

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

该论文针对扩散模型在色觉障碍（CVD）可访问性方面的不足，提出并验证了新型评估指标"CVDLoss"，揭示了现有模型难以通过提示词可靠地改善图像色觉可访问性的现状。

Xinyao Zhuang, Jose Echevarria, Kaan AksitWed, 11 Ma💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

该论文揭示了点云优化中 Chamfer 距离因梯度结构缺陷导致点云坍缩的内在机制，并证明引入非局部耦合（如共享基变形或可微 MPM 先验）是抑制坍缩、提升优化效果的关键。

Chang-Yong Song, David HydeWed, 11 Ma💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

该论文提出了一种名为 MultiGen 的新方法，通过引入独立于模型上下文窗口的可编辑外部记忆模块，将生成过程分解为记忆、观测和动态三个部分，从而解决了现有视频世界模型在环境可编辑性及多人协同交互一致性方面的局限性。

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel RuizTue, 10 Ma💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

本文提出了 FabricGen 框架，通过结合在去微结构数据集上微调的扩散模型生成宏观纹理，以及利用基于大语言模型（WeavingLLM）驱动的增强程序化几何模型生成符合编织原理的微观纱线结构，实现了从文本描述端到端生成高保真、细节丰富的编织面料材料。

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei WangTue, 10 Ma💻 cs

Image Generation Models: A Technical History

本文全面综述了过去十年图像生成领域的技术演进，系统梳理了从变分自编码器、生成对抗网络到扩散模型等主流架构的原理、优化与局限，并进一步探讨了视频生成、模型鲁棒性及负责任部署等关键议题。

Rouzbeh ShirvaniTue, 10 Ma💬 cs.CL

Ref-DGS: Reflective Dual Gaussian Splatting

本文提出了 Ref-DGS 框架，通过解耦表面重建与镜面反射，利用几何高斯、局部反射高斯及全局环境反射场，在不依赖显式光线追踪的情况下高效实现了包含近场强镜面反射场景的高质量重建与新视图合成。

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter WonkaTue, 10 Ma💻 cs

Parameterized Brushstroke Style Transfer

该论文提出了一种参数化笔触风格迁移方法，通过将图像从像素域转换到笔触域进行风格化，从而克服了传统像素级方法在模拟真实绘画笔触效果上的局限性，实现了更自然的视觉呈现。

Uma Meleti, Siyu HuangTue, 10 Ma💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

本文提出了 TeamHOI 框架，通过结合基于 Transformer 的局部观测策略与掩码对抗运动先验技术，实现了单一去中心化策略在任意团队规模下生成物理真实且协调的多智能体人机交互行为。

Stefan Lionar, Gim Hee LeeTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本文提出了名为 MambaDance 的新方法，通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型，并结合高斯节拍表示来显式引导解码，从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

M-ABD: Scalable, Efficient, and Robust Multi-Affine-Body Dynamics

该论文提出了一种名为 M-ABD 的新型框架，通过利用仿射体动力学的线性运动学映射和预分解常数系统矩阵，实现了对大规模关节装配体在单核 CPU 上具有交互速率、高稳定性且能精确处理复杂约束的实时模拟。

Zhiyong He (University of Utah), Dewen Guo (University of Utah), Minghao Guo (MIT), Yili Zhao (ByteDance), Wojciech Matusik (MIT), Hao Su (UCSD), Chenfanfu Jiang (UCLA), Peter Yichen Chen (UBC), Yin Yang (University of Utah)Tue, 10 Ma💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

本文提出了检索增强高斯头像（RAF），通过在训练期间引入从大规模无标签表情库中检索到的近邻表情来增强数据，从而在不依赖配对跨身份数据或架构修改的情况下，显著提升了无模板可驱动头像在未见表情驱动下的泛化能力与鲁棒性。

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani LischinskiTue, 10 Ma🤖 cs.LG

Sketch-Guided Stylized Landscape Cinemagraph Synthesis

本文提出了 Sketch2Cinemagraph 框架，通过结合文本提示与手绘草图，利用潜在运动扩散模型和 U-Net 帧生成器，实现了从草图到具有连续时空流动效果的风格化景观动态图像（Cinemagraph）的直观生成与控制。

Hao Jin, Hengyuan Chang, Xiaoxuan Xie, Zhengyang Wang, Xusheng Du, Shaojun Hu, Haoran XieThu, 12 Ma💻 cs

Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion

该论文提出了一种基于“不完整先验”概念和粒球像素计算（GBPC）算法的少样本图像融合新方法，通过自适应损失函数使轻量级网络仅需少量图像对即可学习通用融合规则，在多个任务中实现了优异的视觉质量与模型紧凑性。

Minjie Deng, Yan Wei, An Wu, Yuncan Ouyang, Hao Zhai, Qianyao PengThu, 12 Ma⚡ eess

SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

本文提出了 SEGA，一种结合大规模先验模型与分层 UV 空间高斯泼溅框架的单图驱动 3D 可动头部Avatar生成方法，通过双分支架构有效解耦动态与静态面部特征，实现了在保持身份一致性和表情真实性的同时具备实时渲染能力的单目头像重建。

Chen Guo, Zhuo Su, Liao Wang, Jian Wang, Shuang Li, Xu Chang, Zhaohu Li, Yang Zhao, Guidong Wang, Yebin Liu, Ruqi HuangThu, 12 Ma💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

该论文提出了 SDGraph 架构，通过多粒度（草图、笔画、点）表征方案及稀疏 - 稠密图协同机制，有效挖掘自由手绘草图中的关键信息，从而在分类、检索和矢量生成任务中显著超越了现有最先进方法。

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long ZengThu, 12 Ma💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

本文提出了一种模板驱动的三角剖分框架，通过将图像衍生边界嵌入规则三角网格并仅重剖分相交三角形，实现了无需全局更新、支持并行执行且几何保真度更高的稳定偏微分方程离散化。

Wei Feng, Haiyong ZhengThu, 12 Ma💻 cs

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA 是一种基于 In-Context LoRA 技术的新型音视频联合生成方法，它通过引入负向时间位置编码和身份引导机制，在仅需单张参考图像和短音频片段的情况下，实现了由文本提示驱动的、视觉外观与说话风格高度同步且一致的人物个性化生成。

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs