cs.AI 篇论文 | Gist.Science

Logos: An evolvable reasoning engine for rational molecular design

本文提出了名为 Logos 的紧凑型分子推理模型，它通过分阶段训练将多步逻辑推理与严格的化学一致性相结合，在确保生成结构化学有效性的同时实现了可解释的理性分子设计，其性能在多个基准测试中媲美甚至超越了参数量大得多的通用语言模型。

Haibin Wen, Zhe Zhao, Fanfu Wang, Tianyi Xu, Hao Zhang, Chao Yang, Ye WeiWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

本文提出了受树突计算机制启发的 DendroNN 模型，通过无梯度的重连机制识别时空脉冲序列，并设计了基于时间轮的异步数字硬件架构，从而在事件驱动数据处理中实现了比现有神经形态硬件高 4 倍的能效。

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

该论文提出了 DenoiseSplat，一种针对含噪多视图图像的自监督前馈 3D 高斯泼溅方法，通过在大规模构建的 RE10K 噪声基准上仅利用干净 2D 渲染进行端到端训练，实现了在噪声环境下优于现有基线的 3D 场景重建与新颖视图合成性能。

Fuzhen Jiang, Zhuoran Li, Yinlin ZhangWed, 11 Ma🤖 cs.AI

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

该论文指出大语言模型的口头置信度评分存在严重的离散化倾向，并证明将置信度量表从标准的 0-100 调整为 0-20 能显著提升其元认知效率，表明量表设计应被视为评估大模型不确定性时的关键变量。

Yuyang DaiWed, 11 Ma🤖 cs.AI

Curveball Steering: The Right Direction To Steer Isn't Always Linear

该论文通过揭示大语言模型激活空间中存在显著的非线性几何扭曲，挑战了传统的线性干预假设，并提出了一种基于多项式核主成分分析的“曲线球（Curveball）”非线性干预方法，从而在控制模型行为方面取得了优于线性方法的性能。

Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff Phillips, Amirali AbdullahWed, 11 Ma🤖 cs.AI

CLoE: Expert Consistency Learning for Missing Modality Segmentation

本文提出了 CLoE 框架，通过引入模态专家与区域专家的双重一致性学习目标及可靠性感知特征重校准机制，有效解决了多模态医学图像分割中因模态缺失导致的专家分歧与融合不稳定问题，显著提升了模型在缺失模态场景下的性能及临床关键结构的鲁棒性。

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao LiWed, 11 Ma🤖 cs.AI

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

本文提出了名为 SpaceSense-Bench 的大规模多模态基准数据集，该数据集基于虚幻引擎 5 生成，包含 136 种卫星模型的高保真同步 RGB、深度及 LiDAR 数据与精细标注，旨在解决航天器感知与位姿估计中真实数据匮乏的问题，并通过基准测试揭示了小部件感知与零样本泛化等关键挑战及数据规模对性能提升的重要性。

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

该论文提出了一种将语音情感识别模型推断的情绪标签作为显式上下文注入大语言模型驱动的社会化 VR 代理的交互流程，并通过用户研究证实该方法显著提升了对话质量、自然度及用户参与度，使 93.3% 的参与者更倾向于选择具备情感感知能力的代理。

SangYeop Jeong, Yeongseo Na, Seung Gyu Jeong, Jin-Woo Jeong, Seong-Eun KimWed, 11 Ma🤖 cs.AI

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

本文提出了基于 Gram 矩阵的纹理共振检索（TRR）方法，通过利用 Wav2Vec2 激活的投影 Gram 矩阵来弥合用户感知意图与低层音频效果参数之间的语义鸿沟，并在吉他效果基准测试中证明了其在生成可编辑插件配置方面的优越性能。

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

本文提出了 STAR 基准，这是一个基于多智能体零和博弈的评估框架，旨在揭示大型语言模型在静态推理之外，将战略深度转化为实时决策执行能力时存在的显著差距，并强调在动态对抗环境中平衡推理质量与响应速度的重要性。

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

本文提出了 TaSR-RAG 框架，通过将查询和文档表示为关系三元组并结合轻量级分类体系进行结构化推理，有效解决了传统检索增强生成（RAG）系统在多跳推理中存在的上下文冗余、信息密度低及推理脆弱等问题，在多个多跳问答基准测试中显著提升了性能。

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Robust Regularized Policy Iteration under Transition Uncertainty

本文提出了一种名为鲁棒正则化策略迭代（RRPI）的新方法，通过将离线强化学习建模为在转移不确定性下的鲁棒策略优化问题，利用 KL 正则化将不可解的双层优化转化为可处理的单目标问题，从而在 D4RL 基准测试中实现了优于现有基线的性能并有效避免了分布外状态下的不可靠动作。

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu ZhangWed, 11 Ma🤖 cs.AI

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

该论文针对图异常检测中的跨域泛化难题，提出了一种名为 TA-GGAD 的测试时自适应图基础模型，通过定义并建模“异常异配性”（Anomaly Disassortativity）特征失配问题，实现了仅需单次训练即可在多个不同领域图上达到最先进的检测精度。

Xiong Zhang, Hong Peng, Changlong Fu, Xin Jin, Yun Yang, Cheng XieWed, 11 Ma🤖 cs.AI

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

该论文提出了一种结合差分隐私的零阶优化框架，将数据集压缩技术扩展至决策树和 Cox 回归等非可微临床模型，从而在保护患者隐私的同时实现了模型无关的临床数据共享。

Anshul Thakur, Soheila Molaei, Pafue Christy Nganjimi, Joshua Fieggen, Andrew A. S. Soltan, Danielle Belgrave, Lei Clifton, David A. CliftonWed, 11 Ma🤖 cs.AI

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

本文提出了 M3GCLR 框架，通过建立无限骨架数据博弈模型、引入多视角旋转增强与时间平均锚点、构建强对抗极小极大博弈及双损失均衡优化器，有效解决了现有自监督骨架动作识别方法在视角差异建模、对抗机制及增强扰动控制方面的局限，并在多个基准数据集上取得了优于或持平最先进水平的性能。

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

该论文提出了一种名为 MIL-PF 的可扩展框架，通过结合冻结的基础模型编码器与轻量级的注意力机制多示例学习（MIL）聚合模块，在无需重新训练大型骨干网络的情况下，利用预计算特征高效解决了高分辨率乳腺 X 光影像分类中注释稀缺和计算成本高昂的挑战，并实现了临床规模下的最佳分类性能。

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

本文提出了 SPAARS 框架，通过结合课程学习策略，先在低维潜在空间进行安全高效的探索以规避重建损失带来的性能瓶颈，再无缝过渡到原始动作空间进行精细化利用，从而在离线到在线强化学习中显著提升了样本效率与最终性能。

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

本文提出了一种名为脉冲串谐振器（PTR）的可微分合成架构，通过直接建模基于物理的排气脉冲序列及其在谐振器中的传播，实现了比传统谐波加噪声基线模型更准确且具备物理可解释性的引擎声音合成。

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

本文介绍了 ICDAR 2025 端到端文档图像机器翻译竞赛，该竞赛通过 OCR 免提与 OCR 辅助两个赛道及不同规模模型子任务，吸引了 69 支团队参与，旨在推动复杂版本文档翻译研究并展示了大模型在该领域的巨大潜力。

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

该论文提出了全卷积扩散模型（FCDM），通过采用类似 ConvNeXt 的骨干网络，在显著降低计算成本、训练步数和硬件需求的同时，实现了与主流 Transformer 架构相媲美的生成性能，从而证明了现代卷积设计是高效扩展扩散模型的有效替代方案。

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI