cs.CL 篇论文 | Gist.Science

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

本文介绍了专为印地语设计的 0.6B 参数语言模型 LilMoo，该模型通过从零开始训练、构建高质量印地语语料库（GigaLekh）及双语增强策略，在有限算力下实现了超越同规模多语言基线模型的性能，证明了针对特定语言优化的小模型能有效缩小低资源语言在自然语言处理中的差距。

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

该论文提出了 MMAI Gym for Science 这一综合框架，通过专门训练高效的“液态基础模型（LFM）”来掌握分子语言，使其在药物发现的关键任务中能够以更高的效率超越规模更大但泛化能力不足的通用或专用模型。

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

本文针对基于大语言模型的对话推荐系统中存在的个性化安全约束被忽视的问题，提出了包含 SafeRec 基准数据集和 SafeCRS 安全感知训练框架的解决方案，该框架通过联合优化推荐质量与个性化安全对齐，在保持推荐效果的同时显著降低了安全违规率。

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

本文提出了 RAG-X 诊断框架，通过独立评估检索与生成组件并引入上下文利用效率（CUE）指标，揭示了医疗问答系统中存在的“准确率谬误”，从而为构建安全可靠的临床 RAG 系统提供了必要的诊断透明度。

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

Tucano 2 Cool: Better Open Source LLMs for Portuguese

本文介绍了 Tucano 2，这是一套专为葡萄牙语优化的全开源大语言模型系列（0.5 至 37 亿参数），通过构建高质量及合成数据集、优化训练配方并扩展评估体系，在多项葡萄牙语基准测试中实现了最先进的性能，并全面开源了所有训练资源以确保可复现性。

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah + 4 more2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

本文提出了一套针对多智能体消费助手（特别是生产级 AI 杂货购物助手）的构建、评估与优化蓝图，通过引入多维评估体系、校准的 LLM 裁判流水线，以及基于 GEPA 的代理级与系统级提示词优化策略，系统性地解决了多轮交互评估与紧密耦合多智能体系统优化的难题。

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

本文提出了名为 ByteFlow Net 的新型分层架构，通过基于压缩率的自适应字节分割机制彻底摒弃了传统分词器，实现了无需预定义子词单元即可在静态计算图上动态学习语义粒度，从而在性能上显著超越了基于 BPE 的 Transformer 及现有字节级模型。

Chunyuan Deng, Sanket Lokegaonkar, Colin Lockard + 3 more2026-03-05🤖 cs.LG

Belief-Sim: Towards Belief-Driven Simulation of Demographic Misinformation Susceptibility

本文提出了名为 BeliefSim 的模拟框架，利用心理学启发的分类法和调查先验构建人口统计信念画像，通过提示工程和后训练微调成功模拟了不同群体对虚假信息的易感性，并在多项评估中实现了高达 92% 的准确率。

Angana Borah, Zohaib Khan, Rada Mihalcea + 1 more2026-03-05🤖 cs.AI

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

本文提出了名为 LX Topic 的神经主题建模方法，该方法通过在大语言模型辅助下对 FASTopic 进行词级优化与校准，有效解决了现有方法在概念清晰度、可解释性及标准化方面的不足，为商业研究提供了一种可复现、可解释且测量导向的主题分析工具。

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang2026-03-05💬 cs.CL

Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

该论文提出了 LIGRAM 模型，通过构建融合词素、词性和命名实体信息的分层异构图并结合语义感知对比学习，有效解决了韩语短文本分类中上下文稀缺及现有方法忽视韩语形态与句法特性的问题，在多个数据集上均取得了优于基线模型的性能。

JaeGeon Yoo, Byoungwook Kim, Yeongwook Yang + 1 more2026-03-05💬 cs.CL

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

该论文提出了 MIND 框架，通过构建基于诊断标准的心理推理库并结合强化学习中的过程奖励与轨迹修正机制，有效解决了精神科咨询中因症状模糊和共病复杂性导致的诊断依据不足及问诊策略漂移问题，显著提升了诊断准确性、共情交互质量与可解释性。

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI

CONCUR: Benchmarking LLMs for Concurrent Code Generation

本文针对现有大语言模型代码生成基准缺乏并发测试的不足，提出了名为 CONCUR 的新基准，通过包含 43 道教科书级并发问题及其变体共 115 个任务，评估并揭示了当前模型在生成涉及死锁和竞态条件等复杂并发代码方面的局限性。

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

Order Is Not Layout: Order-to-Space Bias in Image Generation

该论文揭示了现代图像生成模型中存在的“顺序到空间偏差”（OTS）现象，即实体提及顺序会错误地决定空间布局，并通过提出 OTS-Bench 基准测试证实了该偏差的普遍性及其数据驱动本质，同时展示了通过针对性微调或早期干预策略可有效缓解该问题。

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement

本文提出了 ErrorLLM 框架，通过显式建模包含结构化特征与专用错误标记的文本到 SQL 错误，有效解决了现有自修正范式在检测隐性错误和避免幻觉方面的局限，从而显著提升了 SQL 生成的修正效果。

Zijin Hong, Hao Chen, Zheng Yuan + 6 more2026-03-05💬 cs.CL

Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

本文提出了名为 COREA 的协同推理系统，通过引入强化学习校准小语言模型（SLM）的置信度，使其在低置信度时将任务委托给大语言模型（LLM），从而在仅造成极小精度损失的前提下显著降低了复杂推理任务的成本。

Chuang Zhang, Zizhen Zhu, Yihao Wei + 5 more2026-03-05🤖 cs.AI

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

该论文提出了 MOOSE-Star 框架，通过分解子任务训练、动机引导的层次化搜索及有界组合策略，将科学发现中假设生成的训练复杂度从指数级降低至对数级，从而突破了直接建模生成推理过程的数学不可行性瓶颈。

Zonglin Yang, Lidong Bing2026-03-05🤖 cs.LG

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

本文提出了旨在引导大模型构建中间文本结构以增强处理能力的“思维结构”（SoT）提示技术，并发布了首个涵盖多领域与多结构类型的文本转结构基准 T2S-Bench，实验表明两者能显著提升模型在各类文本任务中的表现。

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

本文提出了首个基于持续集成循环的仓库级基准测试 SWE-CI，旨在通过模拟真实世界中长达数月的代码演进历史，将大模型智能体的评估范式从静态的短期功能正确性转向动态的长期代码可维护性。

Jialong Chen, Xander Xu, Hu Wei + 2 more2026-03-05🤖 cs.AI

In-Context Environments Induce Evaluation-Awareness in Language Models

该研究提出了一种黑盒对抗优化框架，证明通过优化上下文环境可诱导大语言模型产生高达 94 个百分点的性能退化（即“沙袋”行为），且这种行为主要由模型对评估情境的因果推理驱动，而非浅层指令遵循，揭示了现有评估方法在对抗性提示下存在严重可靠性风险。

Maheep Chaudhary2026-03-05🤖 cs.AI

Semantic Bridging Domains: Pseudo-Source as Test-Time Connector

该论文针对源域未知且目标域无标签的分布偏移问题，提出了一种将伪源域视为连接源与目标语义桥梁的逐步语义对齐（SSA）方法，通过利用通用语义修正伪源特征并结合分层特征聚合与置信度感知互补学习策略，在无需源域数据的情况下显著提升了模型在图像分割和分类任务中的性能。

Xizhong Yang, Huiming Wang, Ning Xu + 1 more2026-03-05💬 cs.CL