Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance
本文介绍了名为"Guardian"的端到端决策支持系统,该系统通过结合可解释的马尔可夫链、强化学习及大语言模型质量验证的三层架构,将非结构化案件数据转化为缺失儿童搜索的时空风险预测与优化方案。
4885 篇论文
本文介绍了名为"Guardian"的端到端决策支持系统,该系统通过结合可解释的马尔可夫链、强化学习及大语言模型质量验证的三层架构,将非结构化案件数据转化为缺失儿童搜索的时空风险预测与优化方案。
该论文提出了 BiCLIP 框架,通过利用少量锚点样本学习跨域图像特征间的规范几何变换,以极简的参数量实现了多模态特征的对齐,并在多个基准测试中取得了最先进的零样本域适应性能。
本文提出了一种基于通用最不利子模型的核去偏插件估计量(ULFS-KDPE),该方法通过在再生核希尔伯特空间中构建自适应去偏流,无需显式推导或计算有效影响函数即可在标准正则条件下实现非参数模型中路径可微参数的半参数效率估计,并具备坚实的泛函分析基础与良好的数值稳定性。
这篇论文探讨了基于模拟的统计推断中机器学习近似导致的过度自信问题,并提出了“平衡”正则化方法和针对该场景定制的贝叶斯神经网络两种解决方案,以增强推断结果的可靠性与校准性。
本文介绍了名为"Guardian"的端到端系统及其多模型流水线,该系统通过结合基于 QLoRA 的微调、任务专用大语言模型以及共识引擎,旨在以可审计的保守方式辅助失踪人员(特别是儿童)调查中的关键信息提取与搜索规划。
这篇综述向经济学家介绍了强化学习方法,阐述了其如何通过样本基础扩展动态规划以解决高维状态和连续动作等复杂经济模型,同时也指出了其在样本效率、超参数敏感性及收敛性保证等方面的局限性。
该论文提出了"不等式”这一预测准则,揭示了混合专家(MoE)模型在推理阶段因路由碎片化和显存受限而遭受的“双重惩罚”,指出其在长上下文场景下往往不如同等质量的稠密模型高效,并建议将 MoE 视为训练优化手段,通过蒸馏为稠密模型以实现推理部署。
该论文提出了“语义细节层次”(SLoD)框架,通过在双曲流形上利用热核扩散构建连续缩放算子,不仅实现了知识表示的多尺度平滑过渡,还能自动检测图谱拉普拉斯谱隙以无监督地发现语义抽象的质变边界。
本文提出了一种基于维果茨基社会文化理论的“相互辅助学习”范式 MAcPNN,该范式利用连续渐进神经网络(cPNN)使物联网边缘设备在无需中央协调器的情况下,仅在性能下降时自主请求并筛选同伴知识,从而有效应对数据流中的概念漂移、时间依赖及遗忘问题,并显著降低了通信开销。
本文提出了一种基于经验分布和距离函数子水平集构建模糊集的鲁棒马尔可夫决策过程(RMDP)框架,通过连接弱收敛与距离收敛,证明了该方法在有限样本下能提供高概率的出样本性能上界及收敛速率,并指出相比之下传统的经验 MDP 无法保证此类有限样本性能。
MAPLE 提出了一种将医疗过程奖励模型(Med-RPM)与测试时强化学习(TTRL)相结合的统一训练范式,通过以专家对齐的细粒度过程奖励取代不可靠的多数投票机制,有效提升了医疗大模型在复杂场景下的推理准确性与可靠性。
本书将生成式人工智能重新诠释为统计框架下的高维概率分布非参数学习方法,以流匹配为核心,通过正交化和交叉拟合等技术,将缺失值填补、反事实分析及分布动力学等任务转化为可解释且具备统计推断有效性的科学问题。
该论文提出了一种名为“归一化流匹配”(NFM)的新方法,通过利用预训练的自回归归一化流模型来蒸馏准确定性耦合,从而训练出在性能上同时超越独立耦合、最优传输耦合流模型以及教师模型的学生流模型。
本文提出了一种针对卷积神经网络(CNN)的精确且架构感知的平坦度度量方法,通过推导全局平均池化网络中交叉熵损失 Hessian 矩阵迹的闭式解,有效解决了现有方法忽略 CNN 几何结构的问题,从而能够更准确地评估和预测模型的泛化性能。
本文提出了 CALIPER,一种仅依赖数据、与检测器和模型无关的测试方法,通过利用动态系统流中的状态依赖性来估算概念漂移后足以进行稳定重训练的数据规模,从而填补了漂移检测与数据充分性适应之间的空白。
本文提出了名为 EPIC 的硬件与物理协同引导的分布式科学机器学习框架,通过端侧轻量编码与中心侧物理感知解码相结合,在显著降低通信延迟和能耗的同时,有效提升了全波形反演等任务的物理保真度与重建精度。
本文提出了 SCALAR 框架,通过结合大语言模型规划与深度强化学习,利用双向反馈机制(包括轨迹分析和前沿检查点)迭代修正技能规范,从而显著提升了智能体在复杂环境(如 Craftax)中从语言指令到低级控制技能的落地能力与鲁棒性。
FlexServe 是一种专为移动设备设计的快速安全 LLM 服务系统,通过引入灵活的资源隔离机制(Flex-Mem 和 Flex-NPU)实现内存与 NPU 在保护模式与未保护模式间的高效切换,并结合 LLM 感知的内存管理、安全推理流水线及多模型调度器,在 ARM TrustZone 环境下显著提升了推理速度与多模型工作流的执行效率。
该研究介绍了一种名为 Sentinel 的自主 AI 代理,它利用模型上下文协议(MCP)对远程患者监测数据进行多步推理和情境化分诊,在紧急敏感性等关键指标上超越了人类临床医生,同时以极低的成本实现了可扩展的自动化监测,从而解决了以往远程患者监测试验因数据过载而失败的核心难题。
本文提出了 Sim2Act 框架,通过引入针对决策关键状态的对抗性校准机制和组相对扰动策略,有效解决了仿真模型在关键区域预测误差导致的策略不稳定问题,从而在供应链等关键领域实现了更鲁棒的仿真到决策学习。