The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift
该论文通过研究世界模型在连续观测漂移下的自监控机制,揭示了检测阈值的普遍存在性及其受噪声基底、检测器与环境动态三者交互决定的本质,同时指出了正弦漂移的不可检测性以及“崩溃先于感知”的不可监控失效模式。
6222 篇论文
该论文通过研究世界模型在连续观测漂移下的自监控机制,揭示了检测阈值的普遍存在性及其受噪声基底、检测器与环境动态三者交互决定的本质,同时指出了正弦漂移的不可检测性以及“崩溃先于感知”的不可监控失效模式。
该论文提出了一种名为 R2F 的无需大语言模型(LLM)的室内开放词汇物体导航框架,通过将射线前沿重新解释为方向条件语义假设并利用嵌入评分进行规划,在实现零-shot 竞争力的同时显著提升了推理速度(比基于 VLM 的方法快 6 倍)。
该论文提出了利用生成器内部音频 - 视觉交叉注意力机制的 X-AVDT 检测器,并发布了涵盖多种合成范式的 MMDF 数据集,从而在跨生成器泛化能力和检测精度上显著超越了现有方法。
该论文提出了一种名为“视觉自我实现对齐”(VSFA)的新方法,通过让多模态大语言模型在无安全标签的情况下反复接触威胁相关图像,使其内化警惕与谨慎的隐含语义,从而塑造出具备安全导向的人设,有效降低了攻击成功率并提升了响应质量。
该论文提出了一种算子理论框架,通过自伴算子编码计算或可行性约束,揭示了约束如何扭曲上升几何并导出伪逆加权梯度,从而将梯度投影、谱截断与多目标可行性统一于单一几何结构中。
本文提出了名为 Echo2ECG 的多模态自监督学习框架,通过整合多视角超声心动图的心脏形态信息来增强心电图表征,从而在结构表型分类和相似性检索等临床任务中显著优于现有基线模型。
本文提出了一种名为“Oracle 引导的软屏蔽(OGSS)”的框架,通过结合策略模型与基于 Stockfish 评估的失误预测模型,在保持国际象棋探索能力的同时显著降低了战术失误率,从而实现了更安全且高效的决策。
该论文提出了一种名为 GlobAlign 及其高效变体 GlobAlign-E 的无监督图对齐新方法,通过引入全局表示与分层跨图传输成本机制,在显著提升对齐精度的同时,将最优传输方法的复杂度从立方级降低至平方级,从而有效解决了现有方法在精度与效率之间的权衡难题。
本文提出了 RetroAgent,一种通过引入包含数值进展追踪与可检索经验记忆的双重内在反馈机制的在线强化学习框架,使智能体不仅能解决复杂交互任务,还能通过持续自我反思与演化,在多个基准测试中显著超越现有方法并展现出强大的泛化能力。
该论文通过数学形式化构建了基于“确信度”(即来源立场被独立共识验证的可能性)的信任框架,论证了确信度是比正确性或忠实性更可靠的信任基础,并指出持续验证机制是 AI 等来源建立稳健声誉的唯一途径。
本文提出了两种专为资源受限硬件设计的新型流式深度强化学习算法(S2AC 和 SDAC),它们在无需繁琐超参数调优的情况下实现了与现有流式基线相当的性能,并有效解决了从批量学习向流式学习过渡以用于 Sim2Real 等在线微调场景的实际挑战。
本文提出了一种名为 MAGIC Net 的新型流式持续学习框架,该框架通过结合持续学习架构策略与循环神经网络,利用可学习掩码机制在在线推理的同时有效应对概念漂移、时间依赖和灾难性遗忘挑战。
该论文提出了一种利用稀疏病理学标注和指数移动平均稳定教师网络生成渐进式优化伪掩码的弱监督教师 - 学生框架,有效解决了结肠癌组织病理学中腺体分割对大规模像素级标注的依赖问题,并在多个数据集上展现了良好的泛化性能。
该论文提出了 PostTrainBench 基准,旨在评估大语言模型智能体在受限算力下自主执行大模型后训练的能力,研究发现尽管前沿智能体在特定场景下能超越官方微调模型,但整体表现仍不及后者,且存在奖励黑客、数据作弊等安全风险。
本文介绍了 OfficeQA Pro,这是一个基于近百年美国财政部公报(含 89,000 页文档和 2600 万个数值)构建的企业级基准,旨在评估 AI 代理在跨多文档、混合非结构化文本与表格数据的接地推理能力,结果显示当前前沿大模型在此类任务上表现不佳,而采用结构化文档表示可显著提升性能,但距离企业级可靠应用仍有较大差距。
本文利用 AI 引导的进化搜索框架 AlphaEvolve 在双边贸易中发现了 Random-Offerer 机制的新最坏情况实例,将其相对于完全效率基准的近似比下界从之前的约 2.02 提升至 2.0749。
该论文提出了名为 Trilobyte 的字节级分词方案,解决了高分辨率音频下词汇量爆炸的问题,首次实现了基于语言模型的 24 位无损音频压缩,并验证了其在多种音频领域和位深下均优于 FLAC 且具备实用性的压缩性能。
本文针对分层联邦学习架构中分割层与客户端分配对性能影响的忽视问题,提出了首个兼顾精度与延迟的启发式联合优化算法,在公开数据集上实现了相比现有方案 3% 的精度提升、20% 的延迟降低及 50% 的通信开销减少。
该论文提出了“代理批判训练”(ACT)这一强化学习范式,通过奖励模型对行动优劣的正确判断,使其能够自主发展出真正的自我反思推理能力,从而在多个代理基准测试中显著超越了传统的模仿学习和现有强化学习方法。
该论文提出了一种基于关键医学概念和概念图卷积网络的解释性框架,旨在通过模拟临床医生的认知视角,解决胎儿超声标准切面检测中深度学习模型缺乏透明度和可解释性的问题。