Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

本文提出了名为 NANOMIND 的软硬件协同设计框架,通过将大型多模态模型模块化并动态调度至异构加速器,在电池供电的小型设备上实现了无需联网的高效、低功耗本地推理,显著降低了能耗与显存占用。

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

本文提出了名为 HypoSpace 的诊断套件,通过在因果推断、3D 重建和基因互作等确定性领域中评估大语言模型生成有效、独特且覆盖全面的假设集合的能力,揭示了传统正确性指标无法发现的“模式坍塌”现象,从而为衡量模型在科学问题欠定情境下的创造力提供了新视角。

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo LiuTue, 10 Ma💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

本文介绍了名为"Jr. AI Scientist"的先进自主 AI 科研系统,该系统通过模拟初级研究者的完整工作流程,在基准论文基础上成功生成并验证了具有科学价值的新算法与论文,同时深入评估了其性能优势、当前局限性及潜在风险,为理解 AI 驱动科学探索的现状与未来挑战提供了重要见解。

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu AizawaTue, 10 Ma🤖 cs.LG

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

本文介绍了首个将社会学概念“停止点”转化为可复现 NLP 任务的法语标注语料库 SPOT,该数据集包含 4 万多条与虚假信息相关的 Facebook 评论,并通过基准测试证明微调编码器模型在结合上下文元数据后,能显著优于提示式大语言模型,从而有效识别在线对话中常被忽视的普通关键干预。

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe CointetTue, 10 Ma💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

这篇论文提出了一种涵盖智能体与工具适应的四范式框架,系统综述了大语言模型智能体在预训练后通过微调、偏好优化、强化学习以及记忆和技能系统实现持续进化的最新进展、权衡与评估实践。

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei HanTue, 10 Ma💬 cs.CL