The Generation-Recognition Asymmetry: Six Dimensions of a Fundamental Divide in Formal Language Theory

本文首次将形式语言理论中生成与识别的不对称性统一为一个包含计算复杂度、歧义性、方向性、信息可用性、语法推断和时间性六个维度的多维现象,并指出这种不对称性源于识别始终受限于给定输入而生成未必受限,进而探讨了其在自然语言处理及大语言模型中的意义。

Romain Peyrichou2026-03-12💬 cs.CL

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

该论文针对现有混合 LoRA 模型中路由权重严重失衡导致有效 LoRA 数量受限的问题,提出了一种名为 ReMix 的新方法,通过引入不可学习的路由权重确保各 LoRA 平等激活,并利用基于 RLOO 技术的强化学习策略进行无偏梯度估计,从而在参数量相当的情况下显著提升了微调性能。

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

Video-Based Reward Modeling for Computer-Use Agents

该论文提出了基于执行视频的任务奖励建模方法,通过构建 ExeVR-53k 数据集、引入对抗指令翻译生成负样本以及设计时空 Token 剪枝机制,训练出 ExeVRM 模型,使其能够仅凭用户指令和执行视频序列准确评估计算机使用代理的任务完成情况,并在多项指标上超越了 GPT-5.2 和 Gemini-3 Pro 等强基线模型。

Linxin Song, Jieyu Zhang, Huanxin Sheng, Taiwei Shi, Gupta Rahul, Yang Liu, Ranjay Krishna, Jian Kang, Jieyu Zhao2026-03-12💬 cs.CL

Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models

该论文提出了一种名为自适应激活消除(AAC)的推理时框架,通过借鉴自适应噪声消除技术识别并抑制大语言模型中的幻觉神经激活,在无需微调或外部知识的情况下,于所有测试模型规模上显著提升了事实准确性,同时实现了零能力退化。

Eric Yocam, Varghese Vaidyan, Gurcan Comert, Paris Kalathas, Yong Wang, Judith L. Mwakalonge2026-03-12💬 cs.CL

Sabiá-4 Technical Report

该报告介绍了专注于巴西葡萄牙语的新一代模型 Sabi'a-4 和 Sabiazinho-4,它们通过包含法律语料持续预训练、128K 长上下文扩展及多任务微调的四阶段训练流程,在法律文档撰写、多轮对话及智能体任务等方面展现出优异表现,并实现了成本与性能的最佳平衡。

Thiago Laitz, Thales Sales Almeida, Hugo Abonizio, Roseval Malaquias Junior, Giovana Kerche Bonás, Marcos Piau, Celio Larcher, Ramon Pires, Rodrigo Nogueira2026-03-12💬 cs.CL