A Causal Graph Approach to Oppositional Narrative Analysis
该论文提出了一种基于因果图的新框架,通过将叙事建模为实体交互图并利用节点级因果估计提取最小因果子图,从而克服了传统黑盒模型的偏见与线性局限,实现了对对立叙事的更精准检测与分类。
1077 篇论文
该论文提出了一种基于因果图的新框架,通过将叙事建模为实体交互图并利用节点级因果估计提取最小因果子图,从而克服了传统黑盒模型的偏见与线性局限,实现了对对立叙事的更精准检测与分类。
该研究通过 RAPTOR 框架的受控实验表明,在音频深度伪造检测中,多语言 HuBERT 预训练轨迹带来的跨域鲁棒性比模型规模更为关键,使得 1 亿参数模型能媲美大型商业系统,且其在扰动下的校准稳定性优于 WavLM 变体。
该论文提出了一种两阶段框架,通过先在标注的人造字母表上训练对比学习教师模型,再利用蒸馏技术引导学生在无监督条件下学习历史文字系统的变形不变嵌入,从而在无需确切演化关系真值的情况下实现脚本相似性学习与聚类。
本文提出了 CRIMSON,这是一种基于临床指南的大语言模型评估框架,通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制,在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。
本文提出了名为 MAPO 的无 Critic 强化学习算法,通过利用判别模型提供的密集过程反馈并结合混合优势估计器,有效解决了主观多轮对话中长程信用分配与训练不稳定的难题,在多个情感智能基准测试中显著提升了模型性能与泛化能力。
该论文针对大规模内容分析中缺乏可观测真实标签的难题,提出了一种利用多模型大语言模型(LLM)集体输出通过共识机制来近似真实标签的"AI-CROWD"协议,并通过诊断指标识别高置信度分类及潜在偏差。
本文提出了 LIT-RAGBench 基准,该基准通过构建包含逻辑、整合、表格、推理和拒答五个维度的数据集,系统评估了大型语言模型在检索增强生成(RAG)场景下的综合能力,并揭示了当前模型在相关任务中尚未达到 90% 整体准确率的现状。
FlashPrefill 是一种通过瞬时模式发现与动态阈值机制,在无需排序或累积开销的情况下高效识别多种稀疏注意力模式,从而在长序列(256K)上实现 27.78 倍加速、且在短序列(4K)上仍能保持 1.71 倍加速的超快速预填充框架。
本文提出了 SPOT 框架,通过引入 Span-level 语义对齐和冻结解码头约束,将显式思维链压缩为可解释的潜在暂停标记,在显著降低推理成本的同时提升了大语言模型的推理准确率与可解释性。
该论文通过多语言审计发现,尽管主流大语言模型在印度、东亚及东南亚等地区的广泛社会议题上与公众意见基本一致,但在宗教领域(尤其是少数群体观点)存在显著的文化对齐偏差和刻板印象强化问题,且现有的轻量级干预措施无法完全消除这些差距。
本文提出了名为 EpisTwin 的神经符号架构,通过构建以用户为中心的个人知识图谱,结合多模态大模型与代理协调机制,有效解决了个人 AI 因数据孤岛和向量检索局限而导致的语义理解与推理难题,并借助合成基准 PersonalQA-71-100 验证了其在可信赖个人智能领域的优越性能。
该论文通过实证研究探讨了在数据稀缺的太平洋原住民语言场景下,全量微调与低秩适应(LoRA)等策略在持续学习中的表现,揭示了模型在适应这些语言时面临的严重内部表征漂移及稳定性与可塑性困境,并强调了为代表性不足语言开发鲁棒适应策略的紧迫性。
该研究通过邀请多国艺术家评估 ChatGPT 生成的当代艺术作品仿作,发现 AI 在色彩纹理上虽能模仿,却在构图、概念及情感维度上存在显著缺失,因此主张采用多维度的“风格转移仪表盘”而非单一指标来评估此类仿作。
本文提出了 SAHOO 框架,通过目标漂移指数、约束保持检查和回归风险量化三大机制,在递归自我改进过程中有效监测并控制对齐漂移,从而在代码生成、数学推理和事实性等多个领域显著提升模型性能的同时确保安全性与对齐稳定性。
该研究提出了一种基于 Transformer 模型(特别是 BERT)的数学实体关系抽取框架,通过结合 SHAP 可解释性技术,在实现 99.39% 高精度预测的同时增强了模型决策的透明度与可信度。
该研究通过构建包含道义情态的新数据集,发现大语言模型在道义条件推理中的表现优于描述性条件,且其错误模式与人类相似的“匹配偏差”而非“确认偏差”更为一致,揭示了模型推理能力的情境依赖性及与人类认知偏见的平行性。
该论文在雅思写作任务上首次统一比较了包括提示、指令微调、RAG 及偏好优化在内的多种大语言模型自动作文评分范式,发现结合监督微调与 RAG 的配置能以 93% 的 F1 分数实现最佳的整体性能。
本文通过将演绎数据集转化为适合溯因推理的形式,评估了大语言模型在溯因推理中的准确性与偏差,旨在揭示其超越形式演绎的上下文推理能力,从而促进机器与人类认知在复杂推理任务中的融合。
PONTE 是一种人机协同框架,通过闭环验证与自适应机制,结合偏好建模、基于结构化 XAI 产物的生成以及多重验证模块,为不同用户生成既个性化又可信的自然语言解释,有效解决了现有可解释人工智能方法中缺乏个性化及大模型易产生幻觉的问题。
本文提出了专为从头预训练设计的 NOBLE 架构,通过在 Transformer 线性层中引入带有可学习非线性(如 CosNet)的低秩分支,在仅增加少量参数和时间开销的情况下显著提升了 LLM、BERT 及 ViT 等模型的训练效率。