SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

本文提出了首个针对阿拉伯语语言模型的安全基准测试框架 SalamahBench,通过涵盖 12 个危害类别的 8170 个提示,系统评估了现有模型的安全对齐差异,并揭示了专用防护模型在安全性判断上优于原生模型,从而强调了针对阿拉伯语模型进行类别感知安全评估及部署专门防护机制的必要性。

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

本文提出了一种名为“归纳概念评级”(ICR)的混合方法评估框架,通过结合符号学、诠释学与定性分析,揭示了大型语言模型在生成文本摘要时虽具备高语言相似度,却在捕捉语境化语义和深层意义方面存在显著不足,从而论证了超越传统词汇相似性指标、采用系统性定性解释实践来评估机器生成内容意义的必要性。

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

本文提出了 FedEMA-Distill,一种通过结合全局模型指数移动平均与基于公共代理数据集的客户端预测 logits 集成知识蒸馏的服务器端方法,在无需修改客户端软件且支持模型异构的前提下,显著提升了联邦学习在非独立同分布数据及拜占庭攻击下的准确率、收敛速度并大幅降低了通信开销。

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

该研究提出了一种结合低秩适应(LoRA)微调与合规感知自指令(Self-Instruct)方法的框架,通过集成26项过滤验证流程,在严格遵循国际海事组织标准海事通信用语(SMCP)的前提下,高效生成了高质量、多样化的合成海事无线电对话数据集,以解决安全关键领域数据稀缺的难题。

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs