Decomposing Physician Disagreement in HealthBench
该研究通过分解 HealthBench 数据集中的医师分歧发现,尽管大部分分歧源于病例本身的结构性特征且难以通过常规元数据消除,但区分“可消除的不确定性”(如信息缺失)与“不可消除的不确定性”(如固有医学模糊性)为优化评估设计提供了关键方向,即通过填补信息缺口可在不增加固有模糊性的情况下降低分歧。
6411 篇论文
该研究通过分解 HealthBench 数据集中的医师分歧发现,尽管大部分分歧源于病例本身的结构性特征且难以通过常规元数据消除,但区分“可消除的不确定性”(如信息缺失)与“不可消除的不确定性”(如固有医学模糊性)为优化评估设计提供了关键方向,即通过填补信息缺口可在不增加固有模糊性的情况下降低分歧。
本文提出了无需训练的 WISER 框架,通过“检索 - 验证 - 优化”流程统一文本到图像和图像到图像两种检索范式,利用更广泛的搜索、自适应融合及基于自我反思的深度思考机制,显著提升了零样本组合图像检索的性能。
本文提出了 PackUV,一种将 4D 高斯属性映射为结构化 UV 图集的新型表示法,配合其时间一致性拟合算法 PackUV-GS 及新发布的包含 20 亿帧的大规模数据集 PackUV-2B,实现了兼容标准视频编码的高效、高质量长序列体素视频重建与流式传输。
本文提出了一种基于学习显式转移模型的广义规划方法,通过让神经网络自回归预测中间世界状态而非直接预测动作序列,在多个领域中以更少的训练样本和更小的模型实现了比直接动作预测更强的分布外泛化能力。
本文提出了名为 HART 的闭环框架,通过设计无需外部标注的 AP-GRPO 后训练范式,使大语言模型能够自主聚焦并验证高分辨率图像中的关键区域,从而在无需人工标注的情况下显著提升视觉推理性能。
本文提出了 PEPA,一种通过三层认知架构利用人格特质作为内在组织原则,使具身智能体能够在无需外部任务指令的情况下自主生成目标并实现持久自主运行的机器人系统。
该论文提出了无限自注意力(InfSA)及其线性变体 Linear-InfSA,通过将注意力层重构为基于折扣 Neumann 级数的扩散过程,在实现线性时间复杂度、支持超高分辨率推理的同时,显著提升了视觉 Transformer 的准确率与能效。
该论文提出了包含 1.6M 视频的大规模数据集 Actor-18M 及 WildActor 框架,通过非对称身份保持注意力机制和视点自适应蒙特卡洛采样策略,实现了在动态视角、大幅运动及复杂构图下严格保持全身身份一致性的无约束视频生成。
该立场论文主张,视觉处理系统的评估范式应从过度依赖单一客观指标转向以人为中心、具备情境感知能力的综合评价体系,以解决现有指标与人类感知及用户偏好日益脱节的问题,从而避免误导研究进展并释放创新潜力。
该研讨会提出“可持续关怀”设计视角,旨在通过跨学科协作探索如何设计支持儿童长期参与社会议题的技术,以避免因恐惧驱动的内容导致其产生共情倦怠或退缩。
本文提出了 DeAR 框架,通过解构深层注意力头的功能角色(属性、泛化与混合),利用概念熵指标分类并隔离泛化头与任务特定知识,从而在保持零样本泛化能力的同时实现了视觉语言模型的细粒度适配。
本文针对 Frontier 超算的液冷系统构建了基于 Modelica 的数字孪生模型,并通过分层优化框架量化分析发现,在考虑执行器速率约束的情况下,联合优化流量与供水温度相比单纯流量优化能将节能效果从 20.4% 提升至 27.8%,显著缩小了理论最优与可部署策略之间的差距。
该技术报告通过引入城市资源分配新案例,跨领域验证了可解释性解决方案空间(ESS)框架的通用性,证明其能根据治理角色、风险特征及利益相关者配置系统性地调整可解释 AI 策略,从而成为适用于各类社会技术系统的通用决策支持工具。
本文针对光学低轨卫星下行链路受天气影响导致的能效问题,提出了阈值、启发式排序及强化学习等静态与自适应调度方案,在权衡交付率与能效的同时发现自适应技术虽提升了动态环境下的性能,但增加了计算复杂度。
HarmonyCell 是一个端到端智能体框架,通过大语言模型驱动的语义统一器和自适应蒙特卡洛树搜索引擎,分别解决单细胞扰动研究中的语义异构与分布偏移挑战,实现了无需人工干预的自动化虚拟细胞建模。
本文提出了一种由大语言模型驱动的闭环框架,通过将自然语言指令映射为可执行规则并自动语义标注选项,有效解决了深度强化学习在数据效率、可解释性及跨环境迁移方面的关键挑战,并在 Office World 和 Montezuma's Revenge 任务中验证了其在约束合规与任务迁移上的优越性能。
该论文提出了 MSP 框架,通过发型导向增强、保留结构的随机擦除以及基于解析的注意力机制,有效缓解了发型变化对基于衣着变更的人体重识别(CC-ReID)的干扰,从而在多个基准测试中实现了最先进的性能。
本文评估了 DINOv3 作为冻结骨干网络在蓝莓机器人采摘任务(如分割与检测)中的表现,指出其虽能通过轻量级解码器显著提升分割效果,但在处理尺度变化及空间聚合目标(如簇检测)时存在局限,因此更适合作为依赖下游空间建模的语义骨干而非端到端任务模型。
本文提出了一种结合事件触发控制障碍函数、控制李雅普诺夫函数及自适应攻击恢复机制的事件驱动安全弹性控制框架,旨在确保网联自动驾驶车辆在混合交通流中面对指数无界虚假数据注入攻击及人类驾驶车辆不确定性时,仍能实现安全的车道变换与稳定运行。
本文提出了一种名为广义单智能体优势估计器(GPAE)的多智能体强化学习新框架,该框架通过引入单智能体价值迭代算子和双截断重要性采样比率方案,在无需直接估计 Q 函数的情况下实现了稳定的离线策略学习与精准的信用分配,从而显著提升了复杂场景下的协调能力和样本效率。