SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

SignSparK 提出了一种基于稀疏关键帧学习的大规模多语言手语生成框架,通过结合高效的 FAST 分割模型与条件流匹配(CFM)技术,在解决现有方法平滑度与准确性权衡问题的同时,实现了多语言手语的高质量、可编辑及快速合成。

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

本文提出了 DiT4DiT,一种通过统一级联框架将视频扩散 Transformer 与动作扩散 Transformer 耦合的端到端视频 - 动作模型,它利用视频生成过程中的中间去噪特征作为动作预测的时空条件,在显著降低训练数据需求的同时实现了机器人控制任务中的最优性能与强泛化能力。

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Machinagogy: Experiments in Staging Teaching Dramas with LLMs

该论文提出了一种基于黑格尔承认理论与弗洛伊德精神动力学构建的 AI 辅导系统,通过“承认增强提示”与“多代理自我/超我架构”显著提升了教学表现,并采用“氛围学术”(vibe scholarship)的反思性方法论,由 AI 辅助撰写并评估了包含三个模型实验结果的配套论文,以此探讨人机协作对师生及研究者关系的深层影响。

Liam Magee2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

本文提出了一种名为 LCAMV 的鲁棒 3D 重建方法,通过解析建模校正投影机和相机的横向色差,并利用基于泊松 - 高斯噪声模型的最小方差估计自适应融合多通道相位数据,从而在无需额外硬件或多次曝光的情况下,显著提升了彩色物体的高精度 3D 重建效果。

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

本文提出了名为 CIPHER 的训练-free 方法,通过构建反事实图像扰动数据集识别并抑制大型视觉语言模型中由视觉模态引发的幻觉,利用扩散模型编辑图像提取幻觉特征子空间,并在推理阶段将隐藏状态投影出该子空间,从而在保持任务性能的同时显著降低幻觉率。

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

该论文提出了名为 StructDamage 的大规模统一数据集,通过整合并重新标注 32 个公开数据集,构建了涵盖 9 种表面类型的 7.8 万余张图像,旨在解决现有裂缝检测数据缺乏多样性与一致性的问题,并为结构损伤检测提供可复现的基准资源。

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

该论文提出了一种基于自编码器的空间自监督峰值学习神经网络,通过利用空间与光谱信息生成注意力掩码来筛选具有空间结构的质谱成像峰值,并引入基于专家标注分割掩码的评估方法,在多个公开数据集上证明了其性能优于现有最先进方法。

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

本文提出了 IMTBench,这是一个涵盖四种实际场景和九种语言、包含 2500 个样本的新基准,旨在通过多模态协同评估指标解决现有端到端图像内翻译基准合成数据过多及评估维度单一的问题,从而推动该领域的发展。

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Efficiency vs Demand in AI Electricity: Implications for Post-AGI Scaling

该研究通过将人工智能计算部门纳入全球变化分析模型(GCAM),揭示了在迈向后通用人工智能时代的过程中,AI 电力需求并非线性增长,而是取决于效率提升轨迹与收入驱动需求的博弈,且价格机制调节作用有限,从而为评估 AI 扩张对电力系统和碳排放的长期影响提供了情景分析框架。

Doyi Kim, Jiseok Ahn, Haewon McJeon, Changick Kim2026-03-12💻 cs

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

该论文提出了一种结合 ill-conditioned 约束的自回归流方法,通过将超高清图像去模糊分解为从粗到细的渐进式过程,并利用流匹配建模残差生成及条件数正则化抑制数值不稳定性,在保障推理效率的同时实现了 4K 及以上分辨率下的高细节恢复。

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

该论文提出了一种名为 VG-MedGen 的视觉引导文本解耦框架,通过跨模态潜在对齐机制和混合特征融合模块,有效解决了医学图像生成中文本与视觉模态间的差距及语义纠缠问题,从而实现了细粒度的可控生成并提升了下游分类任务性能。

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

本文提出了一种名为 STEPH 的新方案,通过超网络驱动的任务向量稀疏混合与模型合并技术,在无需大规模联合训练或复杂多模型推理的情况下,高效地从其他癌症类型中迁移泛化知识,显著提升了全切片图像(WSI)癌症预后预测的性能。

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

BinWalker: Development and Field Evaluation of a Quadruped Manipulator Platform for Sustainable Litter Collection

本文介绍并评估了一种名为 BinWalker 的四足机器人平台,该平台集成了机械臂与垃圾容器,旨在通过自主感知、移动和抓取能力,在难以到达的复杂户外环境中高效收集垃圾,从而为大规模环境清理任务提供可持续的自动化解决方案。

Giulio Turrisi, Angelo Bratta, Giovanni Minelli, Gabriel Fischer Abati, Amir H. Rad, João Carlos Virgolino Soares, Claudio Semini2026-03-12💻 cs