cs.CL 篇论文 | Gist.Science

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

本文提出人工智能研究的“第三大抱负”，即利用大语言模型作为研究人类行为、文化与道德推理的科学工具，通过解析其编码的人类符号行为规律，在阐明认识论局限与模型干预影响的同时，系统探索提示实验、合成人口采样等新型方法论在社会科学研究中的应用。

W. Russell Neuman, Chad Coleman2026-03-10💬 cs.CL

To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise

该研究评估了多种不确定性估计方法在多语言文本分类噪声环境下的表现，发现蒙特卡洛 Dropout 方法在低资源及域偏移场景下具有更优的鲁棒性和校准能力，且通过拒绝预测高不确定性样本可显著提升非主题分类任务的宏观 F1 分数。

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

该研究提出了一套方法论框架，评估了多种去噪策略（如高斯混合模型和协同教学）在跨语言句子难度检测任务中对 BERT 模型性能的影响，发现虽然预训练模型本身具有抗噪性，但在小规模数据集上显式去噪能显著提升预测质量，并发布了最大的多语言句子难度预测语料库。

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

RILEC: Detection and Generation of L1 Russian Interference Errors in English Learner Texts

该论文介绍了名为 RILEC 的大规模数据集及基于强化学习和规则增强的生成框架，旨在有效检测并生成英语学习中由俄语母语干扰引起的错误，从而帮助学习者和教师更精准地识别和纠正此类问题。

Darya Kharlamova, Irina Proskurina2026-03-10💬 cs.CL

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

这篇立场论文主张通过结合范畴论中的函子变换以消除语义偏差，以及利用检索增强生成（RAG）注入多样化外部知识，构建一个双管齐下的框架来确保大语言模型的公平性。

Ravi Ranjan, Utkarsh Grover, Agorista Polyzou2026-03-10💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

本文针对低资源场景下的英译印地语机器翻译，通过对比提示策略并引入结合低秩适应与回归头的中间层微调框架（ALOPE 及其扩展 LoRMA），显著提升了医疗、法律等高风险领域句子级质量估计的鲁棒性，并公开了相关代码与数据集。

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

这篇论文首次提出了一个统一框架，将代理式检索增强生成（Agentic RAG）系统形式化为序贯决策过程，并据此构建了涵盖分类体系、模块化架构、评估局限、系统性风险及未来研究方向的全面综述。

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva Gaire2026-03-10💬 cs.CL

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

该论文提出了名为 OAKS 的基准测试，旨在评估大语言模型在动态知识流中的在线适应能力，研究发现包括最先进模型和代理记忆系统在内的现有方法在追踪事实变化和抗干扰方面均存在显著局限。

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo2026-03-10💬 cs.CL

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

该论文提出了名为 AQuA 的细粒度数据集，通过将模糊视觉问答按模糊程度分类并定义最优响应策略，训练视觉语言模型使其能够识别模糊性并自适应地选择直接回答、推断意图、列举替代方案或请求澄清等策略，从而在模糊场景下显著优于现有基线模型。

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Generalization in Online Reinforcement Learning for Mobile Agents

本文针对移动智能体在线强化学习中的泛化难题，提出了包含三种挑战模式的基准测试"AndroidWorld-Generalization"及一套集成 GRPO 算法的开源训练系统，实验表明该方法虽能显著提升模型在未见任务实例上的零样本泛化能力，但在未见模板和应用上的泛化效果仍有限，并初步验证了测试时少样本适应的潜力。

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

该论文提出了名为 PACT 的微调框架，通过在微调过程中仅约束与安全相关 token 的置信度以匹配参考模型，从而在避免全局限制导致效用下降的同时，有效防止大语言模型在仅使用良性数据微调时出现的安全对齐漂移。

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

本文提出了 Dial，一种基于知识的地域特定 NL2SQL 系统，通过引入方言感知逻辑查询规划、分层意图知识基以及执行驱动的调试验证循环，有效解决了现有方法在处理异构数据库方言时语义正确性与可执行性不足的问题，并在新构建的 DS-NL2SQL 基准测试中显著提升了翻译准确率与方言特性覆盖率。

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

本文全面综述了过去十年图像生成领域的技术演进，系统梳理了从变分自编码器、生成对抗网络到扩散模型等主流架构的原理、优化与局限，并进一步探讨了视频生成、模型鲁棒性及负责任部署等关键议题。

Rouzbeh Shirvani2026-03-10💬 cs.CL

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

本文提出了双流 Transformer 架构，通过将残差流解耦为分别由注意力机制和前馈网络更新的双流结构，并引入可调节的混合策略，在仅造成极小性能损失（推荐策略为 2.5%）的同时显著提升了语言模型的内部可解释性。

J. Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

Cross-Modal Taxonomic Generalization in (Vision-) Language Models

该研究表明，在视觉 - 语言模型中，即使完全移除训练数据中的显式超类证据，预训练语言模型仍能利用语言线索和视觉输入的一致性，成功恢复并泛化出物体的超类知识。

Tianyang Xu, Marcelo Sandoval-Castaneda, Karen Livescu, Greg Shakhnarovich, Kanishka Misra2026-03-10💬 cs.CL

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

该论文首次对比分析了扩散语言模型与自回归模型在表征结构上的差异，发现扩散目标导致更深层的层次化抽象和早期层冗余，并据此提出了一种无需架构修改的推理时层跳过方法，使扩散模型在保持高性能的同时显著降低了计算成本。

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli2026-03-10💬 cs.CL

A Joint Neural Baseline for Concept, Assertion, and Relation Extraction from Clinical Text

该论文提出了一种针对临床文本概念识别、断言分类和关系抽取的端到端联合神经网络基线模型，通过定义联合任务设置并采用多种嵌入技术，显著超越了传统的流水线基线方法，为未来相关研究提供了强有力的基准。

Fei Cheng, Ribeka Tanaka, Sadao Kurohashi2026-03-10💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

本文提出了首个专为克什米尔语设计的开源神经文本转语音系统"Bolbosh"，通过引入基于最优传输条件流匹配的跨语言监督适配策略及三阶段声学增强流程，有效解决了多语言基线模型在处理该语言特有的波斯 - 阿拉伯语变音符号和音系特征时的不足，显著提升了合成语音的可懂度与质量。

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir2026-03-10💬 cs.CL

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

本文提出了 TableMind++，一种通过引入记忆引导的计划剪枝、基于置信度的动作优化及双重加权轨迹聚合等不确定性感知机制，有效缓解幻觉并显著提升工具增强型表格推理能力的程序化智能体。

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong Chen2026-03-10💬 cs.CL

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

本文提出了名为“口音向量（Accent Vector）”的方法，通过微调多语言 TTS 系统并计算任务向量，实现了无需口音训练数据即可对多种语言进行细粒度和可组合的口音控制。

Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL