Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

本文揭示了全双工端到端语音模型(如 SALM-Duplex 和 Moshi)的隐藏状态存在严重的说话人隐私泄露问题,并提出基于 Stream-Voice-Anon 的两种流式匿名化方案,其中特征域替换方案(Anon-W2F)将等错误率提升了 3.5 倍以上,而波形级方案(Anon-W2W)则在保持亚秒级延迟的同时保留了 78-93% 的语义相似度。

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

本文介绍了 TildeOpen LLM,这是一个通过结合数据过采样与课程学习策略,在有限计算资源下实现了 34 种欧洲语言(特别是波罗的海、芬兰 - 乌戈尔及斯拉夫语族)公平且高质量表示的 300 亿参数开源基础模型。

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

本文指出当前表格基础模型(如 TabPFN)的回归基准过度依赖均方误差等点估计指标,忽略了概率预测的评估,因此主张引入连续 ranked 概率分数(CRPS)等严格评分规则来评估分布回归,并强调需通过微调或提示技术来适配不同的评分规则以优化模型的归纳偏置。

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

该研究针对异构热成像与可见光传感器在无人机检测中的融合难题,提出了注册感知引导图像融合(RGIF)与可靠性门控模态注意力融合(RGMAF)两种策略,通过在 MMFW-UAV 数据集上的实验验证,显著提升了多模态环境下的检测精度与召回率。

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

该论文针对现有语音情感识别方法过度简化情感模糊性的问题,提出了一种将模糊情感识别重构为分布推理任务的框架,通过引入对齐人类感知分布的目标和结构化思维链监督,显著提升了大型音频语言模型在 IEMOCAP 和 CREMA-D 数据集上的情感预测能力。

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

该论文通过注意力头层面的机制可解释性分析,揭示了续写触发型越狱攻击的本质是模型内在续写倾向与安全对齐防御之间的竞争,并阐明了不同架构中安全关键注意力头的功能差异,为理解及提升大语言模型安全性提供了新的理论视角。

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

该研究利用 MICCAI 2024 发布的 UWF4DR 数据集,通过基准测试多种深度学习模型(包括 CNN、ViT 和基础模型)在频域与空域的表现,并结合特征级融合与 Grad-CAM 可解释性分析,验证了超广角成像结合先进深度学习技术在糖尿病视网膜病变及黄斑水肿检测中的卓越性能。

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

本文介绍了 FinToolBench,这是首个面向真实世界的可执行基准,旨在通过耦合 760 个金融工具与 295 个复杂查询,并引入涵盖时效性、意图类型及监管对齐的多维评估框架,填补现有金融大模型智能体在工具使用评估方面的空白。

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

该研究通过 RIKER 方法在 1720 亿 tokens 的超大规模评估中发现,尽管模型选择是影响幻觉率的最关键因素,但所有模型在长上下文(尤其是 200K 时)中仍会出现显著的事实编造现象,且温度设置需在准确性与生成稳定性之间进行权衡,而硬件平台对结果无显著影响。

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

本文提出了 AdaCultureSafe 框架,通过构建包含细粒度文化描述与验证查询的大规模数据集,揭示了大语言模型中文化安全性与文化知识掌握度之间缺乏显著相关性,并进一步提出了一种将文化知识深度融入生成过程的方法,从而显著提升了模型的文化安全性。

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL