SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs
SKG-Eval 是一个新颖且可解释的框架,它通过增量构建语义知识图谱,利用结构化状态追踪来检测多轮对话系统中的长程不一致性与矛盾,从而在评估多轮对话系统时,比现有的扁平化或单轮隔离式指标与人类判断具有更高的相关性。
原作者已查阅我们通俗解释的论文。
本页收录的每篇论文,都有至少一位原作者阅读并参与了我们的通俗解释——或是确认其准确无误,或是提出修正意见并由我们随后采纳。作者的确认并不等同于对每一句话的正式背书,但说明该解释已经过论文作者的审视。
607 篇论文已由作者审阅 · 261–270 / 607
SKG-Eval 是一个新颖且可解释的框架,它通过增量构建语义知识图谱,利用结构化状态追踪来检测多轮对话系统中的长程不一致性与矛盾,从而在评估多轮对话系统时,比现有的扁平化或单轮隔离式指标与人类判断具有更高的相关性。
本文严格证明,对于具有内层排斥芯和外层吸引尾的有限程势,当散射长度超过势程时,有效范围始终保持严格正值,从而为利用有效范围的符号来区分奇特强子组态提供了基本约束。
本研究采用密度泛函理论证明,动力学稳定的二维同质双层 NbOX2(X=Cl、Br、I)材料展现出可调控的带隙、高各向异性载流子迁移率以及强可见光至紫外光吸收能力,使其成为高效光催化水分解的有前景候选材料。
本文表明,尽管两极分化的新闻内容能可靠地提升用户参与度,却无法推动订阅,并可能在政治高关注度时期主动损害用户留存率,从而揭示出数字出版商面临的一项关键经济权衡:关注度并不等同于忠诚度。
本文复现并扩展了 Spracklen 等人 2025 年关于大语言模型包幻觉的研究,采用五个 2026 年前沿模型,揭示出尽管幻觉率显著下降且模型间差异缩小,但一种由新识别的 127 个模型无关的幻觉包名称以及独特的跨生态系统和跨模型行为模式所构成的持续威胁依然存在。
本文表明,非线性电动力学显著改变了磁星中的光子传播,导致推断的恒星半径产生约 10% 的误差,并引发约 350 纳秒的系统性计时延迟,该延迟已超过当前任务分辨率,因此高精度中子星质量和半径测量必须进行修正。
本文介绍了 UPSim,这是一种可扩展的半确定性传播模拟器,它利用三维建筑几何和阴影投影生成适用于无人机网络的空间一致 FR3 空对地信道图,为移动感知规划提供了一种计算高效且保持高精度的全射线追踪替代方案。
本文介绍了UrduSpeech,这是一个大规模、高保真的乌尔都语语音语料库,包含156小时音频及12维副语言标注,并配有标准化基准,该语料库通过大语言模型驱动的流水线开发而成,旨在解决乌尔都语在语音技术领域资源匮乏的问题。
本文介绍了一种基于 MadAnalysis5 接口的自动化迭代优化技术,用于系统性地对可观测量进行排序并选择截断条件,从而相较于传统的截断计数方法,提升在双希格斯二重态模型情景下对单带电希格斯玻色子等新物理信号的发现潜力。
本文系统评估了视频压缩在多种编码格式和内容类型下对时间一致性的影响,揭示出时间退化遵循非线性模式,且在动态不可预测的序列中尤为严重,从而挑战了仅凭运动量即可决定编码难度的假设。