cs.AI 篇论文 | Gist.Science

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

本文揭示了全双工端到端语音模型（如 SALM-Duplex 和 Moshi）的隐藏状态存在严重的说话人隐私泄露问题，并提出基于 Stream-Voice-Anon 的两种流式匿名化方案，其中特征域替换方案（Anon-W2F）将等错误率提升了 3.5 倍以上，而波形级方案（Anon-W2W）则在保持亚秒级延迟的同时保留了 78-93% 的语义相似度。

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

本文介绍了 TildeOpen LLM，这是一个通过结合数据过采样与课程学习策略，在有限计算资源下实现了 34 种欧洲语言（特别是波罗的海、芬兰 - 乌戈尔及斯拉夫语族）公平且高质量表示的 300 亿参数开源基础模型。

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

该论文提出了多模态温度与间隔调度（MM-TS）方法，通过根据长尾数据分布动态调整对比学习中的温度参数，并将温度调度与最大间隔框架相结合，在多个图像 - 语言和视频 - 语言数据集上实现了新的最先进性能。

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

本文指出当前表格基础模型（如 TabPFN）的回归基准过度依赖均方误差等点估计指标，忽略了概率预测的评估，因此主张引入连续 ranked 概率分数（CRPS）等严格评分规则来评估分布回归，并强调需通过微调或提示技术来适配不同的评分规则以优化模型的归纳偏置。

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

该研究针对异构热成像与可见光传感器在无人机检测中的融合难题，提出了注册感知引导图像融合（RGIF）与可靠性门控模态注意力融合（RGMAF）两种策略，通过在 MMFW-UAV 数据集上的实验验证，显著提升了多模态环境下的检测精度与召回率。

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

本文通过探索替代欧氏距离的多种度量指标来量化异步联邦学习中的梯度陈旧性，并将其集成到聚合过程中，实验结果表明特定指标能在异构客户端和非独立同分布数据设置下显著提升模型的收敛速度、性能及训练稳定性。

Patrick Wilhelm, Odej Kao2026-03-10🤖 cs.LG

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

本文提出了 SplitAgent，一种通过上下文感知的动态脱敏、差分隐私和零知识验证等机制，在保障企业敏感数据隐私的同时实现与云端 AI 代理高效协作的新型分布式架构。

Jianshu She2026-03-10💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

该论文针对现有语音情感识别方法过度简化情感模糊性的问题，提出了一种将模糊情感识别重构为分布推理任务的框架，通过引入对齐人类感知分布的目标和结构化思维链监督，显著提升了大型音频语言模型在 IEMOCAP 和 CREMA-D 数据集上的情感预测能力。

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

该论文通过注意力头层面的机制可解释性分析，揭示了续写触发型越狱攻击的本质是模型内在续写倾向与安全对齐防御之间的竞争，并阐明了不同架构中安全关键注意力头的功能差异，为理解及提升大语言模型安全性提供了新的理论视角。

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

该研究利用 MICCAI 2024 发布的 UWF4DR 数据集，通过基准测试多种深度学习模型（包括 CNN、ViT 和基础模型）在频域与空域的表现，并结合特征级融合与 Grad-CAM 可解释性分析，验证了超广角成像结合先进深度学习技术在糖尿病视网膜病变及黄斑水肿检测中的卓越性能。

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

Fibration Policy Optimization

本文提出了“纤维化策略优化”（FiberPO）框架，通过推导聚合策略截断目标（APC-Obj）和构建纤维束门控（FBG）代数结构，首次将信任区域理论与可组合的代数层级相结合，实现了从词元到轨迹乃至多领域层级的统一多尺度稳定性控制。

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

本文介绍了 FinToolBench，这是首个面向真实世界的可执行基准，旨在通过耦合 760 个金融工具与 295 个复杂查询，并引入涵盖时效性、意图类型及监管对齐的多维评估框架，填补现有金融大模型智能体在工具使用评估方面的空白。

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

Towards a more efficient bias detection in financial language models

该论文针对金融语言模型中偏见检测计算成本高昂的问题，通过大规模实证研究揭示了不同模型间偏见揭示输入的一致性模式，并提出了一种利用跨模型引导显著降低检测成本的新方法。

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis2026-03-10🤖 cs.LG

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

本文提出了 SAIL 框架，通过结合蒙特卡洛树搜索、自动化轨迹档案检索、视觉语言模型评分及步级反馈机制，将机器人模仿学习重构为可随测试时计算量扩展的迭代优化问题，从而在复杂任务中显著提升了泛化能力与成功率。

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

SCL-GNN: Towards Generalizable Graph Neural Networks via Spurious Correlation Learning

本文提出了 SCL-GNN 框架，通过利用希尔伯特 - 施密特独立性准则（HSIC）量化并抑制节点特征与标签间的虚假相关性，结合双层优化策略，显著提升了图神经网络在分布内及分布外场景下的泛化能力。

Yuxiang Zhang, Enyan Dai2026-03-10🤖 cs.LG

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

该研究通过 RIKER 方法在 1720 亿 tokens 的超大规模评估中发现，尽管模型选择是影响幻觉率的最关键因素，但所有模型在长上下文（尤其是 200K 时）中仍会出现显著的事实编造现象，且温度设置需在准确性与生成稳定性之间进行权衡，而硬件平台对结果无显著影响。

JV Roig2026-03-10💬 cs.CL

cs.AI