Stem: Rethinking Causal Information Flow in Sparse Attention
本文提出了名为 Stem 的新型即插即用稀疏模块,通过结合位置衰减策略和输出感知度量来重新思考因果信息流,从而在降低计算复杂度和预填充延迟的同时,显著提升了长上下文大语言模型的准确性。
7525 篇论文
本文提出了名为 Stem 的新型即插即用稀疏模块,通过结合位置衰减策略和输出感知度量来重新思考因果信息流,从而在降低计算复杂度和预填充延迟的同时,显著提升了长上下文大语言模型的准确性。
该论文提出了一种基于强化学习的决策支持框架,用于在气候不确定性下制定长期的城市交通防洪适应策略,并通过哥本哈根案例研究表明,该方法在发现协调的空间与时间适应路径及平衡投资与风险方面优于传统优化方法。
本文提出了一种名为 GMM-PIELM 的概率自适应采样框架,通过利用加权期望最大化算法学习物理分布以动态调整 PIELM 的核函数中心,从而在无需昂贵梯度优化的情况下,显著提升了刚性偏微分方程(如具有激波和边界层的对流扩散方程)的求解精度与效率。
本文提出了名为 EpisTwin 的神经符号架构,通过构建以用户为中心的个人知识图谱,结合多模态大模型与代理协调机制,有效解决了个人 AI 因数据孤岛和向量检索局限而导致的语义理解与推理难题,并借助合成基准 PersonalQA-71-100 验证了其在可信赖个人智能领域的优越性能。
本文提出了 DEX-AR,一种专为自回归视觉语言模型设计的动态可解释性方法,它通过计算生成过程中的层间注意力梯度,结合动态头过滤与序列级过滤机制,生成能够区分视觉与语言信息的 token 级及序列级 2D 热力图,从而有效提升了模型决策过程的透明度与可解释性。
该论文提出了一种包含熵计算、Platt 校准及强化学习微调的三阶段流水线,旨在高效地训练大语言模型在推理时直接输出可解释且校准良好的不确定性估计,从而克服传统后处理方法的计算开销与校准不足问题。
这项研究通过对比实验发现,虽然基于大语言模型(LLM)的消息生成方式在用户感知帮助度上显著优于模板化方法,但结合上下文多臂老虎机(Bandit)的优化策略并未带来额外收益,表明在个性化健康行为干预中,对用户输入的语境化回应比单纯的结构化探索或生成灵活性更为关键。
本文提出了 SAHOO 框架,通过目标漂移指数、约束保持检查和回归风险量化三大机制,在递归自我改进过程中有效监测并控制对齐漂移,从而在代码生成、数学推理和事实性等多个领域显著提升模型性能的同时确保安全性与对齐稳定性。
该论文介绍了一种名为 AIRT 的端到端深度学习框架,它能在单块 Nvidia A100 GPU 上不到一秒的时间内,直接从 CT 图像和结构轮廓生成前列腺 VMAT 放疗计划,并在靶区覆盖度和器官保护等关键指标上展现出与 RapidPlan Eclipse 相当的非劣效性。
本文提出了 K-MaT(知识锚定流形传输)框架,通过结合临床文本锚定提示并采用融合 Gromov-Wasserstein 最优传输技术对齐流形,实现了无需低质量模态训练数据即可将大型生物医学视觉 - 语言模型从高端成像(如 CT)有效迁移至低质量模态(如 X 光),从而在多个跨模态基准测试中取得了优于现有方法的性能并缓解了灾难性遗忘问题。
MoEless 是首个基于无服务器架构的混合专家(MoE)大模型服务框架,它通过轻量级负载预测与动态专家扩缩容策略,有效解决了专家负载不均导致的延迟与成本问题,相比现有方案显著降低了推理延迟和成本。
本文提出了动态分块扩散 Transformer(DC-DiT),通过引入端到端学习的编码器 - 路由器 - 解码器架构,根据图像内容复杂度和扩散时间步自适应地压缩 Token 序列,从而在显著降低计算成本的同时提升了生成质量,并支持从预训练 DiT 模型的低成本迁移。
本文提出了名为 CLAIRE 的混合深度学习框架,通过结合无监督深度表征学习与监督分类,并利用博弈论可解释性技术分析潜在空间,有效解决了高维工业环境中传感器数据噪声大、冗余多的问题,显著提升了智能制造系统中的故障检测精度与可解释性。
本文提出了 ESAA-Security 架构,这是一种专为 AI 生成代码安全审计设计的、基于事件溯源的验证性框架,它通过将代理认知与确定性状态变更分离,并采用追加日志、约束输出及重放验证机制,将安全审查从自由形式的对话转化为可追溯、可复现且基于证据的治理流程。
本文提出了一种基于动能正则化(KBR)的局部多维核回归方法,通过显式与隐式两种方案实现了对离散含噪数据空间导数的二阶精度估计,并展示了其在保守求解器中稳定捕捉激波及求解高维不规则点云偏微分方程的潜力。
该论文提出了一种提示组感知训练框架,通过将语义相关的提示组织成组并引入质量引导的正则化与对数级一致性约束,在不改变模型架构的前提下显著提升了文本引导的细胞核分割在临床病理场景中的鲁棒性与泛化能力。
该论文针对科学工作流中确定性与灵活性难以兼得的矛盾,提出了一种通过机器可验证的“模式门控”将对话自由与执行严格相分离的架构,并验证了多模型评分在系统评估中的有效性,旨在实现既灵活又可复现的代理式 AI 科学工作流。
该论文提出了物理模拟器内循环视频生成(PSIVG)框架,通过将物理模拟器与视频扩散过程相结合,利用模拟的 4D 场景轨迹引导生成过程,并辅以测试时纹理一致性优化技术,从而在保持视觉质量的同时显著提升了生成视频对重力、惯性和碰撞等基本物理定律的遵循程度。
该论文针对强化学习框架缺乏统一参考架构的问题,基于对 18 个主流框架的扎根理论分析,提出了一套包含核心组件及其关系的参考架构,并以此重构典型模式、识别技术趋势以指导框架改进。
本文提出了 CLoPA 策略,通过在标注缓存上对 nnInteractive 模型进行轻量级的持续参数微调,无需引入新参数或改变推理流程,即可在多种医学图像分割任务中快速将零-shot 模型的性能提升至专家水平。