World2Act: Latent Action Post-Training via Skill-Compositional World Models

该论文提出了 World2Act 框架,通过利用技能组合式世界模型将视觉 - 语言 - 动作策略的动作直接与世界模型的潜在动态对齐,并结合自动 LLM 技能分解流程解决视频生成长度不一致问题,从而显著提升了机器人在真实世界中的泛化能力和性能。

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

Reconstructing Bounded Treelength Graphs with Linearithmic Shortest Path Distance Queries

该论文提出了一种确定性算法,仅需 OΔ,tl(nlogn)O_{\Delta,\mathrm{tl}}(n \log n) 次最短路径距离查询,即可在最大度为 Δ\Delta 且树长为 tl\mathrm{tl} 的连通无向图中高效重构边集,从而将此类图的重建复杂度相比现有最优算法降低了 logn\log n 因子并达到了下界。

Chirag Kaudan (Oregon State University), Amir Nayyeri (Oregon State University)2026-03-12💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

本文提出了名为 COHORT 的基于 ROS 的多机器人协作框架,通过结合离线优势加权回归(AWR)与在线多智能体 PPO 的混合强化学习策略,动态调度大模型推理任务,在满足实时约束的同时显著降低了能耗并提升了 GPU 利用率。

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya Roy2026-03-12💻 cs

A Secure Splitting and Acceleration Strategy for TCP/QUIC in Interplanetary Networks

本文提出了一种基于非透明安全代理(NTSP)架构的 TCP/QUIC 安全拆分与加速策略 PEPspace,通过结合利用深空链路预调度特性的速率拥塞控制、自适应前向纠错及理论推导的背压流控机制,有效解决了星际网络中的极端延迟与高丢包问题,显著提升了地球 - 月球场景下的传输性能与稳定性。

Jianhao Yu, Ye Li, Qingfang Jiang, Shuai Liu, Wenfeng Li, Kanglian Zhao2026-03-12💻 cs

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

该论文提出了 KnowDiffuser,一种将语言模型的语义推理能力与扩散模型的轨迹生成能力相结合的知识引导规划框架,通过先验轨迹初始化和两阶段去噪机制,有效弥合了自动驾驶系统中语义理解与物理运动规划之间的鸿沟,并在 nuPlan 基准测试中显著优于现有方法。

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo2026-03-12💻 cs

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

SignSparK 提出了一种基于稀疏关键帧学习的大规模多语言手语生成框架,通过结合高效的 FAST 分割模型与条件流匹配(CFM)技术,在解决现有方法平滑度与准确性权衡问题的同时,实现了多语言手语的高质量、可编辑及快速合成。

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

本文提出了 DiT4DiT,一种通过统一级联框架将视频扩散 Transformer 与动作扩散 Transformer 耦合的端到端视频 - 动作模型,它利用视频生成过程中的中间去噪特征作为动作预测的时空条件,在显著降低训练数据需求的同时实现了机器人控制任务中的最优性能与强泛化能力。

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Machinagogy: Experiments in Staging Teaching Dramas with LLMs

该论文提出了一种基于黑格尔承认理论与弗洛伊德精神动力学构建的 AI 辅导系统,通过“承认增强提示”与“多代理自我/超我架构”显著提升了教学表现,并采用“氛围学术”(vibe scholarship)的反思性方法论,由 AI 辅助撰写并评估了包含三个模型实验结果的配套论文,以此探讨人机协作对师生及研究者关系的深层影响。

Liam Magee2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

本文提出了一种名为 LCAMV 的鲁棒 3D 重建方法,通过解析建模校正投影机和相机的横向色差,并利用基于泊松 - 高斯噪声模型的最小方差估计自适应融合多通道相位数据,从而在无需额外硬件或多次曝光的情况下,显著提升了彩色物体的高精度 3D 重建效果。

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

本文提出了名为 CIPHER 的训练-free 方法,通过构建反事实图像扰动数据集识别并抑制大型视觉语言模型中由视觉模态引发的幻觉,利用扩散模型编辑图像提取幻觉特征子空间,并在推理阶段将隐藏状态投影出该子空间,从而在保持任务性能的同时显著降低幻觉率。

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

该论文提出了名为 StructDamage 的大规模统一数据集,通过整合并重新标注 32 个公开数据集,构建了涵盖 9 种表面类型的 7.8 万余张图像,旨在解决现有裂缝检测数据缺乏多样性与一致性的问题,并为结构损伤检测提供可复现的基准资源。

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

该论文提出了一种基于自编码器的空间自监督峰值学习神经网络,通过利用空间与光谱信息生成注意力掩码来筛选具有空间结构的质谱成像峰值,并引入基于专家标注分割掩码的评估方法,在多个公开数据集上证明了其性能优于现有最先进方法。

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

本文提出了 IMTBench,这是一个涵盖四种实际场景和九种语言、包含 2500 个样本的新基准,旨在通过多模态协同评估指标解决现有端到端图像内翻译基准合成数据过多及评估维度单一的问题,从而推动该领域的发展。

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Efficiency vs Demand in AI Electricity: Implications for Post-AGI Scaling

该研究通过将人工智能计算部门纳入全球变化分析模型(GCAM),揭示了在迈向后通用人工智能时代的过程中,AI 电力需求并非线性增长,而是取决于效率提升轨迹与收入驱动需求的博弈,且价格机制调节作用有限,从而为评估 AI 扩张对电力系统和碳排放的长期影响提供了情景分析框架。

Doyi Kim, Jiseok Ahn, Haewon McJeon, Changick Kim2026-03-12💻 cs