Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

该论文提出了一种面向阿拉伯语社交媒体情感预测的可信度引导弱监督框架,通过多智能体大语言模型生成实例级可靠性估计,并利用 QUBO 优化算法筛选出兼具帧平衡性与低冗余度的高质量子集,从而在无需强标注的情况下提升了模型的可信度与跨域泛化能力。

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

该研究系统评估了五种主流大语言模型在零样本温度设置下对相同输入评分的稳定性,发现模型间存在显著的评分不一致性、同一模型重复运行时的波动性以及温度参数对稳定性的影响差异,从而揭示了将大模型作为自动评估器用于企业生产流程时在公平性、可复现性和可靠性方面面临的严峻挑战。

Fiona Lau2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

该研究提出了一种结合低秩适应(LoRA)微调与合规感知自指令(Self-Instruct)方法的框架,通过集成26项过滤验证流程,在严格遵循国际海事组织标准海事通信用语(SMCP)的前提下,高效生成了高质量、多样化的合成海事无线电对话数据集,以解决安全关键领域数据稀缺的难题。

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

本研究提出了首个面向燃烧科学的大语言模型端到端开发框架,通过构建多模态知识库、设计评估基准及实施从检索增强生成到知识图谱与持续预训练的三阶段知识注入路径,系统验证了单纯检索方法的性能瓶颈并确立了构建领域基础模型的关键技术路线。

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

本文介绍了"Stan",这是一个基于本地部署的开源大语言模型(如 Llama 3.1 和 Whisper)构建的热力学课程辅助系统,它通过检索增强生成技术同时为学生提供基于教材索引的精准问答,并为教师生成包含教学总结、学生困惑点及教学案例的结构化分析,从而在保障数据隐私和成本可控的前提下,全面支持教与学。

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics