cs.AI 篇论文 | Gist.Science

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

该研究通过双指标评估框架，在尼泊尔文化语境下分析了七种大语言模型的社会偏见，发现显式同意偏见与隐式生成偏见存在显著差异且后者受温度参数非线性影响，揭示了当前模型在欠代表文化背景中偏见评估的局限性及去偏策略的紧迫性。

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Learning embeddings of non-linear PDEs: the Burgers' equation

本文提出了一种将物理信息神经网络推广至非线性偏微分方程的方法，通过多头架构和正交约束构建鲁棒的解空间嵌入，并利用主成分分析成功提取了粘滞 Burgers 方程中由少量潜在模式主导的物理特征。

Pedro Tarancón-Álvarez, Leonid Sarieddine, Pavlos Protopapas, Raul Jimenez2026-03-10🤖 cs.LG

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

本文提出了 HybridStitch，一种将图像生成视为编辑任务的新型文生图范式，通过在像素和 timestep 级别动态划分难易区域并协同使用大模型与小模型，实现了比现有混合模型方法更快的推理加速（在 Stable Diffusion 3 上达到 1.83 倍提速）。

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Column Generation for the Micro-Transit Zoning Problem

本文针对微交通分区问题，通过引入全局预算约束并设计列生成框架及定价启发式算法，提出了一种比现有枚举方法更高效、可扩展性更强且能生成更优解的优化方案。

Hins Hu, Rishav Sen, Jose Paolo Talusan, Abhishek Dubey, Aron Laszka, Samitha Samaranayake2026-03-10🔢 math

Gradient Iterated Temporal-Difference Learning

本文提出了一种名为“梯度迭代时序差分学习”的新算法，通过计算移动目标的梯度来改进迭代 TD 学习，使其在保持梯度 TD 方法稳定性的同时，在 Atari 等多个基准测试中展现出与半梯度方法相媲美的学习速度。

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

AI Misuse in Education Is a Measurement Problem: Toward a Learning Visibility Framework

该论文主张将教育中的 AI 滥用问题从“检测难题”重新定义为“测量难题”，并提出以“学习可见性框架”为核心，通过明确 AI 使用规范、将学习过程视为评估证据以及建立透明的活动轨迹，在保障伦理与信任的前提下实现 AI 与教育的良性融合。

Eduardo Davalos, Yike Zhang2026-03-10💻 cs

DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation

本文提出了名为 DistillGuard 的评估框架，系统测试了输出扰动、数据投毒和信息节流三类防御策略，发现除移除思维链能显著削弱数学推理能力外，大多数现有输出级防御在防止大语言模型知识蒸馏方面效果有限且高度依赖具体任务。

Bo Jiang2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

本文介绍了 AI Steerability 360，这是一个开源的 Python 工具包，旨在通过统一的管道接口和模块化设计，降低大语言模型在输入、结构、状态和输出四个控制维度上进行可控性调整与评估的门槛。

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

Intentional Deception as Controllable Capability in LLM Agents

该论文通过在文本 RPG 中构建具有明确伦理基准的 36 种行为画像，系统研究了 LLM 代理如何分阶段推断目标特征并实施以“误导性陈述”为主（占 88.5%）而非捏造事实的有意欺骗，发现动机是主要攻击向量且现有事实核查防御难以应对此类策略性框架。

Jason Starace, Terence Soule2026-03-10💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

该论文提出了 SynPlanResearch-R1 框架，通过合成鼓励深度探索的工具使用轨迹来优化冷启动监督微调，从而有效解决了强化学习在研究智能体探索行为上的不足，并在多个基准测试中显著提升了基于 Qwen3 模型的研究性能。

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

Slumbering to Precision: Enhancing Artificial Neural Network Calibration Through Sleep-like Processes

该论文受生物睡眠机制启发，提出了一种名为“睡眠回放巩固”（SRC）的后训练校准方法，通过选择性回放内部表征来更新网络权重，从而在不依赖监督重训练的情况下显著提升人工神经网络的置信度校准能力。

Jean Erik Delanois, Aditya Ahuja, Giri P. Krishnan, Maxim Bazhenov2026-03-10🤖 cs.LG

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

该论文针对现有视觉语言模型在酒店决策领域信息实用性评估的不足，提出了“信息性”评估框架并构建了专用数据集，研究发现模型需经过适度的领域微调才能有效利用视觉信号进行决策导向的信息推理。

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

本文提出了 CCR-Bench 基准，旨在通过涵盖内容格式深度交织、复杂逻辑流程控制及真实工业场景的评估任务，揭示现有大语言模型在处理复杂指令时与真实应用需求之间的显著差距。

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

本文通过粒子滤波（如序贯蒙特卡洛）的视角，为语言模型推理中的并行采样方法建立了理论框架，揭示了采样误差与奖励评估次数之间的非渐近关系，并指出了该方法在理论保证与最终准确率之间的根本局限。

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

本文提出了 VLM-SubtleBench 基准，旨在通过涵盖工业、医疗和航拍等多领域及十种细微差异类型的配对图像与问题，评估视觉语言模型在细微对比推理方面与人类水平的差距，并揭示了现有模型在复杂场景下的系统性不足。

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

该论文提出将图像分割作为联盟形成博弈的可视化诊断测试平台，通过量化机制设计参数对均衡结构的影响，揭示了从凝聚到碎片化再到失效的演化过程。

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

A Lightweight Traffic Map for Efficient Anytime LaCAM*

该论文提出了一种利用 LaCAM* 在搜索过程中构建动态轻量级交通图的新方法，旨在克服现有基于引导路径的优化方案计算开销大且静态的局限性，从而在多种多智能体路径规划变体中实现更优的解质量。

Bojie Shen, Yue Zhang, Zhe Chen, Daniel Harabor2026-03-10💻 cs

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

该论文提出了一种基于决策理论的框架，通过融合人工智能天气预测模型与动态农民期望统计模型，成功开发了更精准的印度季风预报系统，并于 2025 年向 3800 万印度农民提供了有效的季节性降雨 onset 预报以辅助农业决策。

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

该论文提出了名为 SMGI 的结构化通用人工智能理论，通过形式化一个包含动态组件的元模型，将学习问题重新定义为学习接口本身的受控演化，并证明了经典机器学习范式均为该理论的结构受限特例。

Aomar Osmani2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

本文提出了 EveryQuery，一种基于任务条件预训练的电子健康记录基础模型，它通过单次前向传播直接根据患者病史和结构化查询预测临床结果，在无需微调或轨迹生成的情况下实现了零-shot 推理，并在 MIMIC-IV 数据集的绝大多数任务（尤其是罕见事件）上显著优于自回归基线模型。

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs