PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue
该论文提出了 PromptDLA,一种利用描述性知识作为线索、通过定制化提示将领域先验融入文档布局分析(DLA)的框架,有效解决了跨域数据直接合并训练导致的性能瓶颈,并在多个主流数据集上取得了最先进(SOTA)的泛化性能。
2289 篇论文
该论文提出了 PromptDLA,一种利用描述性知识作为线索、通过定制化提示将领域先验融入文档布局分析(DLA)的框架,有效解决了跨域数据直接合并训练导致的性能瓶颈,并在多个主流数据集上取得了最先进(SOTA)的泛化性能。
该论文提出了一种基于隐式最大似然估计(IMLE)的分布蒸馏框架,通过将条件流匹配(CFM)专家模型蒸馏为单步学生模型,在保留多模态动作分布的同时消除了迭代积分带来的延迟,实现了融合多模态感知的高频实时机器人轨迹控制。
该研究通过法语患者记录实验发现,大型语言模型会利用嵌入的社会决定因素刻板印象来做出基于性别的决策,表明评估社会决定因素之间的交互作用可有效补充现有的模型偏见评估方法。
该论文提出了“开放世界运动预测”这一新范式,通过构建首个端到端类增量运动预测框架,利用伪标签策略和基于查询特征方差的重放采样机制,在从相机图像直接预测轨迹的同时有效缓解了灾难性遗忘,实现了自动驾驶系统在动态变化环境中的持续适应与零样本迁移。
本文介绍了 CERES,这是一个首个集概率性、开放性、持续运行、机器可读及承诺公开前瞻性验证于一体的自动化急性粮食不安全早期预警系统,它通过融合多源数据每周为 43 个高风险国家生成 90 天后的危机、紧急和饥荒阶段概率预测。
该论文提出了包含道德困境中常识矛盾的新基准 CoMoral,发现当前大语言模型倾向于优先进行道德推理而忽视常识,且存在仅在矛盾由次要角色而非主要角色引发时才更易识别的叙事焦点偏差。
该论文提出了一种开放、透明且可复现的方法,利用领域知识与大语言模型构建了首个针对欧盟《人工智能法案》的评估数据集,涵盖风险分类、条款检索、义务生成及问答等任务,旨在解决 NLP 和 RAG 系统在合规性评估中缺乏自动化资源的问题。
本文提出了一种名为 OncoAgent 的新型指南感知 AI 代理框架,它能够将文本临床指南直接转化为三维靶区轮廓,在无需重新训练的情况下实现了食管癌等病例的零-shot 自动勾画,其性能媲美全监督基线模型且更受临床医生在指南依从性和可接受性方面的青睐。
本文提出了变分混合专家路由(VMoER)框架,通过将贝叶斯推理限制在专家选择阶段,在几乎不增加计算成本的情况下,显著提升了大规模混合专家模型在不确定性量化、路由稳定性及分布外检测方面的表现。
本文提出了 RoadLogic 这一开源工具,它通过结合答案集编程、运动规划及规范监控技术,成功将声明式的 OpenSCENARIO 规范自动转化为符合约束且多样化的可执行自动驾驶仿真场景,从而填补了现有方案在系统化实例化方面的空白。
该论文通过实证研究与基于率失真理论的分析,揭示了任务级模型合并崩溃现象,指出任务间表征的不兼容性是导致合并失败的关键因素,而非传统观点认为的参数空间冲突,并据此建立了任务可合并性的理论极限。
本文提出了 EvoDriveVLA,一种通过自锚点感知蒸馏和神谕引导轨迹蒸馏实现感知与规划协同优化的新型视觉 - 语言 - 动作模型,有效解决了自动驾驶中视觉编码器解冻后的感知退化及长期规划累积不稳定问题,并在开环和闭环评估中取得了最先进性能。
该论文提出了一种名为“目标生成(Telogenesis)”的机制,证明仅通过利用无知、意外和过时性这三种认知差距来内生地生成注意力优先级,无需外部奖励即可使智能体在部分可观测环境中自适应地分配注意力,不仅优于固定策略,还能无监督地恢复环境波动结构。
GenePlan 是一个利用大语言模型辅助进化算法的框架,通过迭代优化可解释的 Python 规划器,在多个基准领域中以低成本实现了接近最先进水平且显著优于传统提示方法的 PDDL 泛化规划性能。
该论文提出“第三实体”概念,认为人类与生成式人工智能的交互并非简单的工具协作,而是通过“氛围创造”(vibe-creation)这一前反思认知模式,在两种不可通约的认知方式耦合中涌现出一种兼具新颖性与人类责任归属的不对称认知形态,从而深刻重塑了认识论、心灵哲学及教育理论。
本文提出了一种名为“时间条件归一化流(tcNF)”的新框架,通过利用自回归机制对时间序列中的复杂依赖关系和不确定性进行精确建模,从而实现高效且鲁棒的异常检测。
本文提出了名为 EvoPrompt 的新框架,通过模态共享提示投影器、解耦进化训练策略以及特征几何正则化,在实现少样本任务高性能适配的同时,有效解决了视觉语言模型微调过程中的灾难性遗忘问题,从而在保留预训练零样本能力的同时完成稳定进化。
该论文提出了名为 EDA 的参数与数据高效框架,通过解耦架构、数据再生策略及样本选择机制,在显著降低训练成本的同时,有效解决了目标模型微调后推测解码性能下降的问题。
该研究提出了一种利用大语言模型(LLM)结合大五人格特质生成个性化辟谣信息的新方法,并通过模拟相应人格的 LLM 评估器验证了此类定制化信息通常比通用信息更具说服力,同时指出了该技术带来的伦理挑战。
该论文提出了一种基于 XLA 编译器的 Mamba-2 状态空间模型实现方案,通过仅使用标准算子而非定制 CUDA 内核,在 CPU、NVIDIA GPU 和 Google TPU 上实现了可移植的 自回归缓存推理,并达到了与 PyTorch/CUDA 参考实现一致的精度和显著的性能。