cs.CL 篇论文 | Gist.Science

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

该研究提出了一种基于最大似然估计的方法来检测大规模文本中由大语言模型显著修改或生成的内容，并以 ICLR 2024 等四场 AI 会议的同行评审为例，发现约 6.5% 至 16.9% 的评审意见可能涉及 LLM 的深度生成，且此类使用情况与评审者的低置信度、临近截止日期提交以及较少参与反驳回应等行为特征显著相关。

Weixin Liang, Zachary Izzo, Yaohui Zhang + 9 more2026-03-04🤖 cs.AI

Safety Verification of Wait-Only Non-Blocking Broadcast Protocols

本文证明了在等待仅（Wait-Only）非阻塞广播协议中，状态覆盖性问题与配置覆盖性问题的计算复杂度分别从 Ackermann 难降低为 P 完全和 PSPACE 完全。

Lucie Guillou, Arnaud Sangnier, Nathalie Sznajder2026-03-04💬 cs.CL

Topic-Based Watermarks for Large Language Models

该论文提出了一种轻量级的主题引导水印方案，通过将词汇表划分为主题对齐的子集并动态选择相关令牌，在无需额外框架的情况下，实现了大语言模型生成文本的高质量、强鲁棒性及低开销的可检测水印嵌入。

Alexander Nemecek, Yuzhou Jiang, Erman Ayday2026-03-04💬 cs.CL

Causal Effects of Trigger Words in Social Media Discussions: A Large-Scale Case Study about UK Politics on Reddit

该研究通过分析英国政治相关 Reddit 子版块中超过 1 亿条评论，证实了政治“触发词”的使用会显著增加用户参与度并引发更具敌意、愤怒和仇恨的极端化言论。

Dimosthenis Antypas, Christian Arnold, Nedjma Ousidhoum + 2 more2026-03-04💬 cs.CL

NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions

本文介绍了首个基于真实全球饮食数据构建并经过人工验证的营养估算基准 NutriBench，通过评估多种大语言模型在宏量营养素预测上的表现及模拟其对糖尿病患者血糖的影响，展示了该技术在辅助专业人员和改善健康结果方面的潜力与挑战。

Andong Hua, Mehak Preet Dhaliwal, Laya Pullela + 2 more2026-03-04🤖 cs.AI

The Price of Prompting: Profiling Energy Use in Large Language Models Inference

本文提出了名为 MELODI 的监控框架及相应数据集，旨在分析大语言模型推理过程中的能耗特征，揭示了提示词属性与能源消耗之间的关联，并为推动可持续的模型部署提供了关键工具与资源。

Erik Johannes Husom, Arda Goknil, Lwin Khin Shar + 1 more2026-03-04🤖 cs.AI

BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models

本文提出了 Bias-Alleviating Low-Rank Adaptation (BA-LoRA)，通过引入一致性、多样性和 SVD 正则化机制，有效缓解了低秩适应方法中因灾难性继承导致的偏差加剧问题，从而在提升模型性能稳定性的同时显著增强了其鲁棒性与公平性。

Yupeng Chang, Yi Chang, Yuan Wu2026-03-04💬 cs.CL

OM4OV: Leveraging Ontology Matching for Ontology Versioning

本文通过分析本体匹配（OM）与本体版本控制（OV）的异同，提出了基于 OM 系统的 OV 处理流程及交叉引用（CR）优化机制，以解决直接复用 OM 系统导致的性能偏差问题并提升版本控制效果。

Zhangcheng Qiang, Kerry Taylor, Weiqing Wang2026-03-04🤖 cs.AI

Diverging Preferences: When do Annotators Disagree and do Models Know?

该论文通过构建涵盖十类分歧来源的分类体系，揭示了人类标注偏好数据中的分歧主要源于任务定义模糊或回复风格差异而非简单噪声，进而指出传统奖励建模和评估方法未能有效处理此类分歧，并提出了相应的识别与缓解策略以促进多元对齐的大语言模型发展。

Michael JQ Zhang, Zhilin Wang, Jena D. Hwang + 6 more2026-03-04💬 cs.CL

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

本文提出了名为 Waffle 的新微调策略，通过结构感知注意力机制和对比学习分别解决 HTML 层级结构表示及 UI 图像与代码对齐的难题，从而显著提升了多模态模型在 UI 到前端代码生成任务中的性能。

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

Automated Coding of Communications in Collaborative Problem-solving Tasks Using ChatGPT

该研究基于五个数据集和两种编码框架，证实了 ChatGPT 在协作问题解决沟通数据的自动化编码方面具有可行性，但指出其表现受模型版本、编码框架及任务特征影响，且通过反馈优化提示词的效果并不稳定。

Jiangang Hao, Wenju Cui, Patrick Kyllonen + 3 more2026-03-04💬 cs.CL

StarWhisper Telescope: An AI framework for automating end-to-end astronomical observations

本文介绍了 StarWhisper 望远镜系统，这是一个将大语言模型与专用功能调用及模块化工作流相结合的人工智能代理框架，旨在通过自动化观测规划、实时数据处理及瞬变源触发机制，解决大规模望远镜阵列在时域天文学中的操作瓶颈，并已在 Nearby Galaxy Supernovae Survey 的 10 台业余望远镜网络中成功部署验证。

Cunshi Wang, Yu Zhang, Yuyang Li + 25 more2026-03-04🔭 astro-ph

A Survey of Query Optimization in Large Language Models

本文系统综述了大语言模型中的查询优化技术，提出了涵盖五阶段的查询优化生命周期框架与基于证据维度的复杂度分类体系，深入分析了四种核心原子操作，并探讨了评估方法、现有挑战及未来方向。

Mingyang Song, Mao Zheng2026-03-04💬 cs.CL

Evaluating Spoken Language as a Biomarker for Automated Screening of Cognitive Impairment

该研究通过可解释机器学习模型，利用语音语言特征在基准数据集和真实居家环境中实现了对阿尔茨海默病及相关痴呆症的有效筛查与严重程度预测，并展示了其在临床分诊和早期干预中的应用潜力。

Maria R. Lima, Alexander Capstick, Fatemeh Geranmayeh + 4 more2026-03-04💬 cs.CL

Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

该论文通过实证研究验证了大语言模型幻觉率与单事实率及校准误差之间的理论关系，并提出了一种仅重采样 5% 训练数据的“选择性加权”方法，在保持准确性的同时显著降低了幻觉率，从而挑战了通用的数据去重策略。

Miranda Muqing Miao, Michael Kearns2026-03-04🤖 cs.AI

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

本文提出了名为 GOAT 的框架，通过自适应集成 SVD 结构专家先验并推导理论缩放因子以对齐优化目标，显著提升了 LoRA 混合专家模型的性能，使其在多项任务中达到与全参数微调相媲美的状态。

Chenghao Fan, Zhenyi Lu, Sichen Liu + 4 more2026-03-04💬 cs.CL

$\texttt{SEM-CTRL}$ : Semantically Controlled Decoding

本文提出了名为 SEM-CTRL 的统一方法，通过结合基于答案集语法的约束引导的令牌级蒙特卡洛树搜索，使任何现成大语言模型无需微调即可在生成过程中同时保证句法和语义的正确性，并在多项任务中展现出超越更大模型及先进推理模型的性能。

Mohammad Albinhassan, Pranava Madhyastha, Alessandra Russo2026-03-04🤖 cs.AI

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

该论文提出了 LINGOLY-TOO 基准，通过专家设计的模板化正交混淆技术对语言学奥林匹克竞赛问题进行改造，在保留解题逻辑的同时阻断知识记忆捷径，从而有效剥离推理能力与知识储备，更准确地评估大语言模型的真正推理水平。

Jude Khouja, Lingyi Yang, Karolina Korgul + 6 more2026-03-04🤖 cs.AI

BioChemInsight: An Online Platform for Automated Extraction of Chemical Structures and Activity Data from Patents

BioChemInsight 是一款开源平台，通过集成多种先进模型实现了从专利中自动提取化学结构、生物活性数据及化合物标识符，其准确率超过 90%，有效补充了现有公共数据库的空白并大幅缩短了药物研发的数据预处理时间。

Zhe Wang, Fangtian Fu, Wei Zhang + 10 more2026-03-04🧬 q-bio

Param $Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

本文提出了一种名为 ParamΔ 的零成本方法，通过直接混合现有后训练模型与更新后基础模型的权重差值，使新基础模型无需额外训练即可复现后训练能力，从而显著加速大语言模型的迭代开发。

Sheng Cao, Mingrui Wu, Karthik Prasad + 2 more2026-03-04🤖 cs.AI

cs.CL