HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models
本文提出了 HiPP-Prune 框架,通过引入基于视觉敏感性的分层偏好条件化结构化剪枝策略,利用多目标 GRPO 优化在压缩视觉语言模型时实现任务效用、幻觉鲁棒性与压缩率之间的可控权衡。
6803 篇论文
本文提出了 HiPP-Prune 框架,通过引入基于视觉敏感性的分层偏好条件化结构化剪枝策略,利用多目标 GRPO 优化在压缩视觉语言模型时实现任务效用、幻觉鲁棒性与压缩率之间的可控权衡。
该研究通过评估 34 个大语言模型在放射学问答任务中的表现,发现引入基于检索的代理推理机制能显著降低模型间的决策离散度并增强跨模型的正确性鲁棒性,表明评估此类系统时不能仅依赖准确率或一致性,还需结合稳定性与潜在临床影响进行综合分析。
本文介绍了一种基于朗之万动力学以避免过拟合的神经网络实现,该网络通过接受多个模糊认知图作为输入来学习因果模式并反演输出节点值,从而提供修改准则以优化决策,并在多个数据集上评估了其性能。
本文提出了名为 Stem 的新型即插即用稀疏模块,通过结合位置衰减策略和输出感知度量来重新思考因果信息流,从而在降低计算复杂度和预填充延迟的同时,显著提升了长上下文大语言模型的准确性。
该论文提出了一种基于强化学习的决策支持框架,用于在气候不确定性下制定长期的城市交通防洪适应策略,并通过哥本哈根案例研究表明,该方法在发现协调的空间与时间适应路径及平衡投资与风险方面优于传统优化方法。
本文提出了一种名为 GMM-PIELM 的概率自适应采样框架,通过利用加权期望最大化算法学习物理分布以动态调整 PIELM 的核函数中心,从而在无需昂贵梯度优化的情况下,显著提升了刚性偏微分方程(如具有激波和边界层的对流扩散方程)的求解精度与效率。
本文提出了名为 EpisTwin 的神经符号架构,通过构建以用户为中心的个人知识图谱,结合多模态大模型与代理协调机制,有效解决了个人 AI 因数据孤岛和向量检索局限而导致的语义理解与推理难题,并借助合成基准 PersonalQA-71-100 验证了其在可信赖个人智能领域的优越性能。
本文提出了 DEX-AR,一种专为自回归视觉语言模型设计的动态可解释性方法,它通过计算生成过程中的层间注意力梯度,结合动态头过滤与序列级过滤机制,生成能够区分视觉与语言信息的 token 级及序列级 2D 热力图,从而有效提升了模型决策过程的透明度与可解释性。
该论文提出了一种包含熵计算、Platt 校准及强化学习微调的三阶段流水线,旨在高效地训练大语言模型在推理时直接输出可解释且校准良好的不确定性估计,从而克服传统后处理方法的计算开销与校准不足问题。
这项研究通过对比实验发现,虽然基于大语言模型(LLM)的消息生成方式在用户感知帮助度上显著优于模板化方法,但结合上下文多臂老虎机(Bandit)的优化策略并未带来额外收益,表明在个性化健康行为干预中,对用户输入的语境化回应比单纯的结构化探索或生成灵活性更为关键。
本文提出了 SAHOO 框架,通过目标漂移指数、约束保持检查和回归风险量化三大机制,在递归自我改进过程中有效监测并控制对齐漂移,从而在代码生成、数学推理和事实性等多个领域显著提升模型性能的同时确保安全性与对齐稳定性。
该论文介绍了一种名为 AIRT 的端到端深度学习框架,它能在单块 Nvidia A100 GPU 上不到一秒的时间内,直接从 CT 图像和结构轮廓生成前列腺 VMAT 放疗计划,并在靶区覆盖度和器官保护等关键指标上展现出与 RapidPlan Eclipse 相当的非劣效性。
本文提出了 K-MaT(知识锚定流形传输)框架,通过结合临床文本锚定提示并采用融合 Gromov-Wasserstein 最优传输技术对齐流形,实现了无需低质量模态训练数据即可将大型生物医学视觉 - 语言模型从高端成像(如 CT)有效迁移至低质量模态(如 X 光),从而在多个跨模态基准测试中取得了优于现有方法的性能并缓解了灾难性遗忘问题。
MoEless 是首个基于无服务器架构的混合专家(MoE)大模型服务框架,它通过轻量级负载预测与动态专家扩缩容策略,有效解决了专家负载不均导致的延迟与成本问题,相比现有方案显著降低了推理延迟和成本。
本文提出了动态分块扩散 Transformer(DC-DiT),通过引入端到端学习的编码器 - 路由器 - 解码器架构,根据图像内容复杂度和扩散时间步自适应地压缩 Token 序列,从而在显著降低计算成本的同时提升了生成质量,并支持从预训练 DiT 模型的低成本迁移。
本文提出了名为 CLAIRE 的混合深度学习框架,通过结合无监督深度表征学习与监督分类,并利用博弈论可解释性技术分析潜在空间,有效解决了高维工业环境中传感器数据噪声大、冗余多的问题,显著提升了智能制造系统中的故障检测精度与可解释性。
本文提出了 ESAA-Security 架构,这是一种专为 AI 生成代码安全审计设计的、基于事件溯源的验证性框架,它通过将代理认知与确定性状态变更分离,并采用追加日志、约束输出及重放验证机制,将安全审查从自由形式的对话转化为可追溯、可复现且基于证据的治理流程。
本文提出了一种基于动能正则化(KBR)的局部多维核回归方法,通过显式与隐式两种方案实现了对离散含噪数据空间导数的二阶精度估计,并展示了其在保守求解器中稳定捕捉激波及求解高维不规则点云偏微分方程的潜力。
该论文提出了一种提示组感知训练框架,通过将语义相关的提示组织成组并引入质量引导的正则化与对数级一致性约束,在不改变模型架构的前提下显著提升了文本引导的细胞核分割在临床病理场景中的鲁棒性与泛化能力。
该论文针对科学工作流中确定性与灵活性难以兼得的矛盾,提出了一种通过机器可验证的“模式门控”将对话自由与执行严格相分离的架构,并验证了多模型评分在系统评估中的有效性,旨在实现既灵活又可复现的代理式 AI 科学工作流。