The Rise of AI in Weather and Climate Information and its Impact on Global Inequality

该论文指出,人工智能在地球系统科学中的快速应用若缺乏干预,将因算力与数据基础设施的全球南北差异而加剧气候信息领域的不平等,因此呼吁通过转向以数据为中心的开发模式、建立气候数字公共基础设施以及推动知识共同生产,来确保 AI 革命真正促进全球系统韧性而非加剧不公。

Amirpasha Mozaffari, Amanda Duarte, Lina Teckentrup, Stefano Materia, Gina E. C. Charnley, Lluis Palma, Eulalia Baulenas Serra, Dragana Bojovic, Paula Checchia, Aude Carreric, Francisco Doblas-Reyes2026-03-09🤖 cs.AI

MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation

本文提出了 MIRACL,一种结合结构化子问题分解与基于帕累托适应策略的分层元多目标强化学习框架,旨在解决多目标多级组合供应链优化中动态环境下的任务重训与高计算成本问题,并实现了显著的泛化性能提升。

Rifny Rachman, Josh Tingey, Richard Allmendinger, Wei Pan, Pradyumn Shukla, Bahrul Ilmi Nasution2026-03-09🤖 cs.LG

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

该论文提出了“解耦安全假设”(DSH),通过几何分析揭示大语言模型中“识别有害性”与“执行拒绝”机制在深层解耦的现象,并据此开发了能实现“只知不行”状态的双差分提取与自适应因果引导方法,进而提出了具有 SOTA 攻击成功率的“拒绝擦除攻击”(REA)。

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

本文提出了一种面向分布式随机约束极小极大优化的首阶 Softmax 加权切换梯度方法,通过单循环原变量机制在放宽假设下实现了更紧的超参数下界与高概率收敛保证,有效解决了传统方法中的超参数敏感与震荡问题,并在公平分类等任务中验证了其优越性。

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl Hashemi2026-03-09🤖 cs.LG

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

该论文指出传统评估指标因缺乏时间敏感性而严重误判多智能体协作质量,通过引入“完美轮替”参考系及六种新型轮替指标,揭示了在“前任之战”变体中即使传统公平性指标很高,Q 学习智能体的实际协作表现仍可能远低于随机基线,从而强调了在分析多智能体动态时采用时间感知观测量的必要性。

Nikolaos Al. Papadopoulos, Konstantinos Psannis2026-03-09🤖 cs.LG

Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls

该论文通过实证研究揭示了多示例提示(Many-Shot Prompting)在结构化任务中的有效性及其对示例选择策略的高度敏感性,同时指出了其在开放生成任务中的局限性,并对比分析了动态与强化 ICL 等替代策略,从而界定了输入空间测试时适应的实际边界与适用场景。

Shubhangi Upasani, Chen Wu, Jay Rainton, Bo Li, Changran Hu, Qizheng Zhang, Urmish Thakker2026-03-09🤖 cs.LG

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder 提出了一种基于强化学习的框架,通过将生成、反思与自修正的完整轨迹内化至模型权重中,使大语言模型能够在无需外部反馈或执行引擎的情况下实现自主代码调试,从而在多项基准测试中达到甚至超越 GPT-5.1 的性能,同时显著降低了推理计算开销。

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG