cs.LG 篇论文 | Gist.Science

Explainable LLM Unlearning Through Reasoning

该论文提出了一种名为“目标推理遗忘”（TRU）的新方法，通过引入基于推理的遗忘目标并结合监督损失与梯度上升损失，在实现大语言模型精准、可解释的知识移除的同时，有效保留了模型的通用能力并增强了其鲁棒性。

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

本文提出了 MoE-SpAc 框架，通过将推测解码重构为内存管理的“信息前瞻传感器”，结合专家需求估计、异构负载均衡及异步执行引擎，有效解决了边缘设备上的 MoE 模型推理内存瓶颈，显著提升了吞吐量与推理速度。

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

该论文提出了一种通过闭环演化轨迹级经验来优化上下文提示的框架，利用强化学习筛选高效特征变换序列并结合多样性感知选择器与思维链引导大语言模型，从而在特征变换任务中显著提升了生成质量、多样性及下游预测性能。

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

本文介绍了 TAMUSA-Chat，这是一个面向学术机构的研究框架，通过监督微调、检索增强生成及系统化评估方法，将通用大语言模型适配为符合治理规范与责任 AI 原则的领域专用对话系统，并公开了相关代码以促进可复现的研究与部署。

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

该研究通过构建土耳其异常测试套件（TAS），系统评估了离线大语言模型在土耳其遗产语言教育中的鲁棒性与教学安全性，发现推理导向的 8B 至 14B 参数模型在成本与安全之间取得了最佳平衡，且异常抵抗能力并不完全取决于模型规模。

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

该论文从理论层面揭示了大型语言模型如何通过自回归过程精确推断令牌转换概率，从而阐明提示语义理解、上下文学习（通过减少歧义）以及思维链（通过任务分解）的内在机制，并论证了这些高级提示工程技巧在统计上的优越性。

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

该论文提出利用维基百科、Wikidata 知识图谱及社会科学专家知识构建了包含 2.6 万条多语言问答的"LatamQA"数据集，用于评估大语言模型在拉丁美洲不同国家及语言（西班牙语、葡萄牙语）背景下的表现，揭示了模型在区域知识掌握度、语言原生优势以及对伊比利亚文化相较于拉美本土文化的认知偏差等方面的显著不平等。

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

本文介绍了 SpreadsheetArena 平台，通过盲测 pairwise 评估来研究大语言模型在生成满足用户显性及隐性约束的电子表格工作簿时的表现，揭示了不同场景下偏好特征的显著差异以及现有模型在金融等专业领域最佳实践对齐方面的不足。

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

该论文挑战了将欺骗等同于说谎的假设，通过实验证明大型语言模型能在不产生虚假陈述的情况下进行欺骗，且现有的“测谎仪”式探针难以检测此类行为，从而揭示了当前机械式欺骗检测方法的重大盲区。

Tom-Felix Berger2026-03-12💬 cs.CL

GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification

该论文介绍了 GATech 团队在 AbjadGenEval 共享任务中利用多语言 E5-large 编码器检测阿拉伯语机器生成文本的方法，发现尽管尝试了多种复杂的池化策略，但简单的均值池化效果最佳（F1 达 0.75），且观察到人类文本通常比机器生成文本更长这一显著特征。

Ahmed Khaled Khamis2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

该论文通过对比实验表明，在阿拉伯语医疗文本的 82 类细粒度分类任务中，经过混合池化和正则化策略微调的双向编码器（如 AraBERTv2）在捕捉精确语义边界方面显著优于基于因果解码的大语言模型。

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

该论文提出了个性化组相对策略优化（P-GRPO）框架，通过将优势估计与当前批次统计解耦并基于特定偏好群体的奖励历史进行归一化，有效解决了标准 GRPO 在异质偏好对齐中因假设样本可交换而导致的偏差问题，从而实现了对多样化用户偏好的更快速收敛和更精准对齐。

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

该论文通过系统梳理现有文献与法规，揭示了"AI 模型”与"AI 系统”定义模糊导致的监管义务分配难题，并提出了基于参数架构与组件集成的清晰概念及操作性定义，旨在解决 AI 价值链中责任界定的边界问题。

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

LWM-Temporal: Sparse Spatio-Temporal Attention for Wireless Channel Representation Learning

本文提出了 LWM-Temporal，这是一种面向无线信道时空特性的任务无关基础模型，它通过引入符合物理传播规律的稀疏时空注意力机制（SSTA）和基于物理信息的自监督预训练策略，显著降低了计算复杂度并学习到了可迁移的通用信道表征，从而在多种移动性场景下的信道预测任务中实现了优于基线的性能。

Sadjad Alikhani, Akshay Malhotra, Shahab Hamidi-Rad, Ahmed Alkhateeb2026-03-12🤖 cs.LG

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

本文提出了 HTM-EAR，一种结合 HNSW 工作记忆与归档存储的分层记忆系统，通过重要性感知淘汰机制和混合路由策略，在长周期运行且上下文受限的饱和场景下，有效平衡了关键信息保留与陈旧记忆遗忘，显著优于传统 LRU 等基线方法。

Shubham Kumar Singh2026-03-12🤖 cs.AI

Tureis: Transformer-based Unified Resilience for IoT Devices in Smart Homes

Tureis 是一种面向智能家居边缘部署的自监督 Transformer 统一方法，它通过掩码重建机制和迭代隔离策略，在无需标签的情况下实现了对多故障、多住户场景下异构传感器故障的毫秒级检测与细粒度定位。

Alireza Borhani, Vafa Andalibi, Bahar Asgari2026-03-12💻 cs

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

该论文在 NetSecGame 环境中评估了自主网络攻击代理在目标 IP 地址重分配场景下的泛化能力，发现尽管提示驱动的预训练大语言模型在未见地址空间下取得了最高成功率，但传统元学习代理仅表现出部分迁移能力，且所有方法均面临推理成本、可解释性或执行稳定性等方面的显著权衡。

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia2026-03-12💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

该研究通过大规模对照实验发现，评估格式（如多项选择与开放式回答）对语言模型安全分数的影响远大于脚手架架构本身，且模型与脚手架之间存在显著的交互效应，导致无法建立通用的安全排名，因此必须针对特定模型和配置进行独立测试。

David Gringras2026-03-12🤖 cs.AI

Gated Adaptation for Continual Learning in Human Activity Recognition

本文提出了一种基于通道门控调制的参数高效持续学习框架，通过冻结预训练骨干网络并仅学习对角缩放因子，在无需数据回放的情况下有效平衡了人类活动识别中的稳定性与可塑性，显著降低了灾难性遗忘并提升了模型在连续新主体任务上的最终准确率。

Reza Rahimi Azghan, Gautham Krishna Gudur, Mohit Malu, Edison Thomaz, Giulia Pedrielli, Pavan Turaga, Hassan Ghasemzadeh2026-03-12🤖 cs.LG

Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

本文揭示了 Sharpness-Aware Minimization (SAM) 利用单步上升点梯度更新当前参数能更准确地逼近邻域内最大值的直观原理，并针对现有近似误差及多步上升带来的质量退化问题，提出了计算开销极低且性能更优的显式锐度感知最小化方法（XSAM）。

Jianlong Chen, Zhiming Zhou2026-03-12🤖 cs.LG