cs.LG 篇论文 | Gist.Science

VISTA: Vision-Language Inference for Training-Free Stock Time-Series Analysis

本文提出了名为 VISTA 的免训练框架，通过结合文本与图表多模态信息并利用思维链提示引导视觉语言模型，在零样本设置下实现了显著优于传统统计模型及单模态方法的股票价格预测性能。

Tina Khezresmaeilzadeh, Parsa Razmara, Seyedarmin Azizi, Mohammad Erfan Sadeghi, Erfan Baghaei Potraghloo2026-03-10🤖 cs.LG

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

该论文提出了一种通过向大语言模型的中间层表示注入可训练嵌入来增强指令层级信号的新方法，从而显著降低了提示注入攻击的成功率，同时保持了模型的实用性。

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction

该论文针对高阶共同邻居中存在的冗余和过平滑问题，提出了通过正交化和归一化技术消除重复并缓解过平滑的“正交共同邻居（OCN）”方法，在多个链接预测基准测试中显著优于现有最先进模型。

Juntong Wang, Xiyuan Wang, Muhan Zhang2026-03-10🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本文提出了名为 ViTaPEs 的基于 Transformer 的架构，通过引入包含模态内局部编码与跨模态全局编码的两阶段位置注入机制，实现了任务无关的视触觉表征学习，在多项真实世界数据集的识别任务及机器人抓取场景中均展现出超越现有最先进方法的性能与零样本泛化能力。

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

LoFT: Low-Rank Adaptation That Behaves Like Full Fine-Tuning

本文提出了 LoFT 方法，通过将优化器的一阶和二阶动量投影到低秩子空间以对齐全量微调的动态，从而在不增加推理成本或额外超参数调优的情况下，显著缩小了参数高效微调与全量微调之间的性能差距。

Nurbek Tastan, Stefanos Laskaridis, Martin Takac, Karthik Nandakumar, Samuel Horvath2026-03-10🤖 cs.LG

Rethinking Continual Learning with Progressive Neural Collapse

该论文提出了名为“渐进式神经坍缩”（ProNC）的新框架，通过动态扩展等角紧帧（ETF）目标而非依赖固定全局 ETF，有效缓解了持续学习中的灾难性遗忘问题，并在实验中展现出优于现有基线的性能与灵活性。

Zheng Wang, Wanhao Yu, Li Yang, Sen Lin2026-03-10🤖 cs.LG

Adaptive Correction for Ensuring Conservation Laws in Neural Operators

该论文提出了一种即插即用的自适应校正方法，通过引入轻量级可学习算子，在保持神经算子表达能力的同时灵活且严格地确保质量、动量等物理守恒定律，从而显著提升了模型在求解偏微分方程时的精度、稳定性及整体性能。

Chaoyu Liu, Yangming Li, Zhongying Deng, Chris Budd, Carola-Bibiane Schönlieb2026-03-10🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

本文提出了 ActivePusher 框架，通过结合残差物理建模与基于不确定性的主动学习，优化非抓取操作中的数据收集与规划过程，从而显著提升了数据效率及在仿真和真实环境中的规划成功率。

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos Chamzas2026-03-10🤖 cs.LG

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

本文提出了 MMTU，一个包含 28,000 多个问题和 25 项真实世界任务的大规模基准测试，旨在全面评估大语言模型在专家级表格理解、推理及操作方面的能力，并揭示了当前顶尖模型在此领域仍存在显著不足。

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

Leveraging chaotic transients in the training of artificial neural networks

该论文表明，通过利用大学习率下梯度下降优化产生的瞬态混沌动力学（即处于探索与利用平衡的临界混沌状态），可以显著加速人工神经网络在多种监督学习任务中的训练过程。

Pedro Jiménez-González, Miguel C. Soriano, Lucas Lacasa2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

本文介绍了 EROICA，这是首个面向大规模模型训练的在线性能故障诊断系统，它通过在线剖析和差异可观测性技术，在几乎不影响生产环境的前提下，实现了对涵盖约 10 万张 GPU 集群中软硬件混合故障的细粒度、全覆盖诊断，并在实际部署中取得了 97.5% 的成功率。

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

本文提出了 BemaGANv2，一种通过引入 AMP 生成模块和 MED 判别器，并系统评估多种判别器组合策略，以实现高保真、长时程音频生成（如文本转音乐/音频）的先进 GAN 语音合成器。

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

本文针对现实场景中数据与模型异构的挑战，提出了任务相关性感知的聚合策略及维度不变模块 Co-LoRA，并构建了涵盖 40 个任务的多模态基准，显著提升了个性化联邦学习在异构环境下的性能。

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

该论文提出了两种高效算法（Slate-GLM-OFU 和 Slate-GLM-TS）来解决具有指数级候选集和逻辑回归奖励的上下文石板多臂老虎机问题，通过局部规划实现低计算复杂度并保证 $\tilde{O}(\sqrt{T})$ 的累积遗憾，且在合成实验与大语言模型提示工程应用中均优于现有基准。

Tanmay Goyal, Gaurav Sinha2026-03-10🤖 cs.LG

Sharpness-Aware Machine Unlearning

该论文通过揭示锐度感知最小化（SAM）在机器遗忘中因拟合遗忘集而丧失去噪特性的机制，提出了将模型拆分并分别利用 SAM 学习保留信号与锐度最大化消除遗忘信号的“锐度极小极大（Sharp MinMax）”方法，从而在降低保留数据需求的同时显著提升了遗忘效果并增强了模型安全性。

Haoran Tang, Rajiv Khanna2026-03-10🤖 cs.LG

Kolmogorov-Arnold Energy Models: Fast, Interpretable Generative Modeling

本文提出了基于 Kolmogorov-Arnold 表示定理的 KAEM 模型，通过引入单变量潜在结构实现快速精确推理，并结合重要性采样与退火策略解决了传统生成模型在效率与可解释性之间的权衡问题。

Prithvi Raj2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

该论文提出了一种名为 GLMask 的半自监督学习方法，通过最小化人工标注并专注于形状与纹理特征，成功将语义分割转化为实例分割，在小麦穗实例分割任务中达到了 98.5% 的 mAP@50 的 SOTA 性能，并在 COCO 数据集上实现了超过 12.6% 的显著提升。

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

本文针对直接偏好优化（DPO）中数据选择忽视模型演化状态的问题，提出了名为 SamS 的自适应批处理样本调度算法，该算法能根据模型学习反馈动态调整训练样本，从而在不修改核心算法且计算开销极小的情况下显著提升大语言模型的泛化性能。

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

DemoDiffusion 提出了一种无需特定任务训练或人机配对数据即可实现单样本人类模仿的机器人操作新方法，该方法通过运动学重定向将人类手势转化为粗略轨迹，并利用预训练扩散策略将其修正为符合机器人动作分布的可行轨迹，在 8 项真实世界任务中取得了 83.8% 的平均成功率。

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG

Adopting a human developmental visual diet yields robust, shape-based AI vision

该研究提出了一种受人类视觉发育启发的“发展性视觉饮食”（DVD）课程，通过模拟人类从婴儿期到成年的视觉成熟过程（如视力、对比度和色彩感知的发展），成功引导 AI 模型从依赖纹理特征转向依赖形状信息，从而显著提升了其在形状识别、抗干扰及对抗攻击方面的鲁棒性，实现了更类人且高效的视觉系统。

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG