PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

PRECEPT 是一个统一的测试时适应框架,通过结合确定性精确规则检索、冲突感知记忆机制以及由 COMPASS 驱动的帕累托引导提示演化,有效解决了大语言模型在条件增多时的检索退化、规则组合困难及知识陈旧问题,并在多项基准测试中展现出显著的鲁棒性与性能提升。

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

本文提出了首个专注于评估大语言模型生成原则驱动型交互式应用(MiniApps)能力的基准测试 MiniAppBench,并配套开发了基于智能体自动化探索的评估框架 MiniAppEval,以解决现有基准无法有效衡量动态交互逻辑及缺乏单一标准答案的难题。

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai LiWed, 11 Ma🤖 cs.AI

Logics-Parsing-Omni Technical Report

该论文提出了 Omni Parsing 框架,通过整合全息检测、细粒度识别与多级解读三个层级,并引入证据锚定机制,将非结构化多模态数据转化为可追溯的标准化结构化知识,同时发布了 Logics-Parsing-Omni 模型及 OmniParsingBench 基准以验证其有效性。

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin QuWed, 11 Ma🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

该研究提出了一种基于大型上下文电子健康记录的自动心血管风险管理分类框架,通过对比传统机器学习、专用深度学习架构及生成式大语言模型,证实了定制 Transformer 模型在捕捉医疗文本长程依赖方面表现最优,为老年心血管风险分层提供了高效的自动化替代方案。

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

该论文提出了 ActiveUltraFeedback,一种利用主动学习动态筛选高信息量样本以生成偏好数据的模块化流程,通过引入 DRTS 和 DeltaUCB 等新颖方法,仅用六分之一的标注数据即可实现与静态基线相当甚至更优的大语言模型对齐效果。

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI