cs.LG 篇论文 | Gist.Science

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

本文提出了细粒度组策略优化（FGO）算法，通过细分组响应并基于长度和熵分配权重，在有效压缩大语言模型冗长思维链的同时解决了 GRPO 算法数据利用率低和熵崩溃的问题，实现了在不降低性能的前提下提升推理效率。

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

本文提出了 GOT-JEPA 框架，通过联合嵌入预测架构将模型预测预训练从图像特征扩展至跟踪模型本身，并辅以 OccuSolver 模块进行细粒度的遮挡感知与状态优化，从而显著提升了通用目标跟踪器在动态复杂场景下的泛化能力与鲁棒性。

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

本文提出了名为 LexiSafe 的离线安全强化学习框架，通过引入词典式安全 - 奖励层级结构及单/多成本变体，在理论上保证了样本复杂度与安全性界限，并在实践中有效降低了安全违规风险并提升了任务性能。

Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar2026-03-12⚡ eess

ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

该论文提出了 ZACH-ViT，一种移除位置编码和 [CLS] 标记的紧凑 Vision Transformer 架构，通过全局平均池化实现置换不变性，在医学影像的小样本场景下证明了根据数据空间结构特性调整归纳偏置（即在不同数据分布下表现出差异化的性能优势）比追求通用基准主导更为重要。

Athanasios Angelakis2026-03-12⚡ eess

Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

该论文从统计物理角度提出了基于随机问题的硬约束满足问题新基准，并通过公平对比证明在解决此类难题时，经典启发式算法的表现仍优于图神经网络。

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

该研究提出利用基于大语言模型的全自动 AI 分析师在大规模、低成本地复现人类多分析师研究中的分析多样性，揭示了不同 AI 代理对同一数据集的分析结果存在显著差异且可被引导，从而论证了 AI 自动化实证科学中证据易受选择性报告影响的挑战，并呼吁建立包含“多元宇宙”式报告及提示词完全披露的新透明度规范。

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

Active Value Querying to Minimize Additive Error in Subadditive Set Function Learning

该论文针对次加性集合函数学习中因缺失值导致的歧义问题，通过研究最小与最大补全的距离分析，提出了一种主动查询策略以在离线和在线模式下最小化加性误差，从而高效逼近未知的次加性函数。

Martin Černý, David Sychrovský, Filip Úradník, Jakub Černý2026-03-12🤖 cs.LG

How Large Language Models Get Stuck: Early structure with persistent errors

该论文通过训练 OPT 模型并评估其在 BLiMP 基准上的表现，发现模型在部分语法类别中会因早期训练阶段形成的错误统计偏差而陷入难以纠正的“错误固化”状态，并据此提出了旨在解释这一现象的“双词假设”（Bigram Hypothesis）。

Alokesh Manna, William Snyder, Whitney Tabor2026-03-12💬 cs.CL

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

该论文提出了 CARE 框架，通过解耦视觉定位与推理模块、引入专家级证据生成及强化学习优化，构建了一个模拟临床工作流的智能体系统，从而显著提升了多模态医疗推理的准确性与临床可问责性。

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

该论文提出了名为 CFG-Ctrl 的统一框架，将 Classifier-Free Guidance 重新诠释为生成流中的控制机制，并进一步设计了基于滑模控制（SMC-CFG）的非线性反馈方法，通过引入切换控制项和 Lyapunov 稳定性分析，有效解决了传统线性控制在大引导尺度下的不稳定与过冲问题，显著提升了文本到图像生成模型的语义对齐能力与鲁棒性。

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

该论文首次系统评估了代码分析领域的多任务参数高效微调（PEFT），发现共享 PEFT 模块不仅能以极低的计算和存储成本实现媲美单任务微调的精度，且显著优于通用大模型的直接提示，同时揭示了任务稳定性、互补性及数据质量等关键因素对多任务协同微调效果的决定性影响。

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

该论文提出了一种名为“目标推理遗忘”（TRU）的新方法，通过引入基于推理的遗忘目标并结合监督损失与梯度上升损失，在实现大语言模型精准、可解释的知识移除的同时，有效保留了模型的通用能力并增强了其鲁棒性。

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

本文提出了 MoE-SpAc 框架，通过将推测解码重构为内存管理的“信息前瞻传感器”，结合专家需求估计、异构负载均衡及异步执行引擎，有效解决了边缘设备上的 MoE 模型推理内存瓶颈，显著提升了吞吐量与推理速度。

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

该论文提出了一种通过闭环演化轨迹级经验来优化上下文提示的框架，利用强化学习筛选高效特征变换序列并结合多样性感知选择器与思维链引导大语言模型，从而在特征变换任务中显著提升了生成质量、多样性及下游预测性能。

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

本文介绍了 TAMUSA-Chat，这是一个面向学术机构的研究框架，通过监督微调、检索增强生成及系统化评估方法，将通用大语言模型适配为符合治理规范与责任 AI 原则的领域专用对话系统，并公开了相关代码以促进可复现的研究与部署。

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

该研究通过构建土耳其异常测试套件（TAS），系统评估了离线大语言模型在土耳其遗产语言教育中的鲁棒性与教学安全性，发现推理导向的 8B 至 14B 参数模型在成本与安全之间取得了最佳平衡，且异常抵抗能力并不完全取决于模型规模。

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

该论文从理论层面揭示了大型语言模型如何通过自回归过程精确推断令牌转换概率，从而阐明提示语义理解、上下文学习（通过减少歧义）以及思维链（通过任务分解）的内在机制，并论证了这些高级提示工程技巧在统计上的优越性。

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

该论文提出利用维基百科、Wikidata 知识图谱及社会科学专家知识构建了包含 2.6 万条多语言问答的"LatamQA"数据集，用于评估大语言模型在拉丁美洲不同国家及语言（西班牙语、葡萄牙语）背景下的表现，揭示了模型在区域知识掌握度、语言原生优势以及对伊比利亚文化相较于拉美本土文化的认知偏差等方面的显著不平等。

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

本文介绍了 SpreadsheetArena 平台，通过盲测 pairwise 评估来研究大语言模型在生成满足用户显性及隐性约束的电子表格工作簿时的表现，揭示了不同场景下偏好特征的显著差异以及现有模型在金融等专业领域最佳实践对齐方面的不足。

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

该论文挑战了将欺骗等同于说谎的假设，通过实验证明大型语言模型能在不产生虚假陈述的情况下进行欺骗，且现有的“测谎仪”式探针难以检测此类行为，从而揭示了当前机械式欺骗检测方法的重大盲区。

Tom-Felix Berger2026-03-12💬 cs.CL