TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

本文介绍了 TildeOpen LLM,这是一个通过结合数据过采样与课程学习策略,在有限计算资源下实现了 34 种欧洲语言(特别是波罗的海、芬兰 - 乌戈尔及斯拉夫语族)公平且高质量表示的 300 亿参数开源基础模型。

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

该研究通过 RIKER 方法在 1720 亿 tokens 的超大规模评估中发现,尽管模型选择是影响幻觉率的最关键因素,但所有模型在长上下文(尤其是 200K 时)中仍会出现显著的事实编造现象,且温度设置需在准确性与生成稳定性之间进行权衡,而硬件平台对结果无显著影响。

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

本文提出了 AdaCultureSafe 框架,通过构建包含细粒度文化描述与验证查询的大规模数据集,揭示了大语言模型中文化安全性与文化知识掌握度之间缺乏显著相关性,并进一步提出了一种将文化知识深度融入生成过程的方法,从而显著提升了模型的文化安全性。

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization

该论文提出了名为 SBARThez 的框架,通过结合多模态与语言无关的句子嵌入(如 LaBSE、SONAR 和 BGE-M3)以及命名实体注入机制,在改进的 BART 模型上实现了支持文本和语音输入的跨语言抽象摘要,有效提升了摘要的简洁性、抽象度及事实一致性,尤其在低资源语言场景下表现优异。

Chaimae Chellaf, Salima Mdhaffar, Yannick Estève, Stéphane Huet2026-03-10💬 cs.CL