cs.CV 篇论文 | Gist.Science

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

该论文提出了一种结合文本引导生成编辑与区域控制技术的改进方法，通过引入基于参考的注意力共享机制、多深度图参考以及多区域重要性加权切片 Wasserstein 距离损失，有效解决了 3D 场景风格化中视图一致性、风格一致性及区域化风格迁移的挑战。

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

本文提出了 LADB（潜在对齐扩散桥）框架，通过在共享潜在空间中利用部分配对数据对齐源与目标分布，实现了无需全监督即可在数据稀缺场景下兼顾保真度与多样性的半监督域翻译。

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

本文提出了名为 TrueSkin 的包含 7299 张图像的系统性数据集，旨在解决当前大模型在肤色识别与生成任务中存在的偏见与准确性不足问题，并通过实验证明该数据集能显著提升相关模型的分类精度与生成保真度。

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

本文提出了一种名为 BWCache 的免训练方法，通过动态缓存并基于相似度阈值在扩散步之间重用 DiT 块特征，在保持视觉质量的同时将视频生成推理速度提升了高达 6 倍。

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

本文提出了名为 Brain-HGCN 的基于双曲几何的图卷积网络框架，利用洛伦兹模型和符号聚合机制有效建模大脑功能网络的层级结构与兴奋/抑制连接，并在精神疾病分类任务中显著优于现有的欧几里得基线方法。

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

本文提出了一种名为 I2S 的多阶段框架，通过利用包含新型“双手空间包络”描述符的 3D 手部姿态特征进行物体识别与交互分析，在 ARCTIC 和 H2O 数据集上实现了高达 97.52% 的 F1 分数，为高安全性增强现实环境提供了轻量级、实时的基于人机交互的用户身份认证方案。

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

本文提出了一种名为 GeoProto 的新范式，通过利用扩散映射将深度特征的内在流形几何结构融入原型匹配，并结合可微分的 Nyström 插值与紧凑的每类地标集更新策略，显著提升了可解释细粒度识别的准确性与效率。

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

该论文提出了无需训练的 SHINE 框架，利用预训练扩散模型（如 FLUX）内在的物理先验，通过流形引导锚定损失和自适应背景融合等技术，实现了在复杂光照与高分辨率场景下物理真实且无缝的图像合成，并发布了包含多样化挑战条件的 ComplexCompo 基准数据集以验证其优越性能。

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

本文提出了首个端到端生成四边形网格的自回归框架 QuadGPT，通过统一三角与四边形的混合拓扑分词方法以及特化的 tDPO 强化学习微调策略，显著超越了传统的“三角转四边”流程，在几何精度和拓扑质量上均实现了突破。

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

本文提出了 DistillKac，一种利用阻尼波动方程及其随机 Kac 表示来实现有限速度概率传输的图像生成模型，通过引入速度空间中的无分类器引导和仅端点蒸馏策略，在保持数值稳定性的同时实现了高质量图像的快速生成。

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

该论文针对现有视觉情感评估方法的局限性，提出了一种开放词汇、多面向且可扩展的自定义评估框架，通过构建“情感陈述判断”任务及自动化数据生成流水线，系统评估了多模态大语言模型在情感理解与主观感知方面的能力与不足。

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

本文提出了 COMPASS 框架，该框架通过在模型特征空间中对敏感子空间进行扰动来直接校准，从而为医学图像分割任务中的下游指标（如器官大小）生成比传统方法更高效且覆盖范围更紧的共形预测不确定性区间，并能在协变量偏移下保持目标覆盖率。

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

本文提出了名为 CircuitSense 的层次化多模态大模型基准，通过涵盖 8000 多个从感知到设计的全流程电路问题，揭示了当前先进模型在视觉识别任务上表现优异但在从电路图推导符号方程等数学推理能力上存在显著短板，从而确立了符号推理作为评估工程智能核心指标的重要性。

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

cs.CV

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

DistillKac: Few-Step Image Generation via Damped Wave Equations

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Towards Interpretable Visual Decoding with Attention to Brain Representations

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

cs.CV

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

DistillKac: Few-Step Image Generation via Damped Wave Equations

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Towards Interpretable Visual Decoding with Attention to Brain Representations

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Culture In a Frame: C3^33B as a Comic-Based Benchmark for Multimodal Culturally Awareness

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness