RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems
本文介绍了 RAGPerf,这是一个端到端的检索增强生成(RAG)系统基准测试框架,它通过将工作流解耦为模块化组件、支持多样化的数据与模型配置,并自动化收集性能与准确性指标,从而实现对 RAG 系统行为的细粒度分析与评估。
5315 篇论文
本文介绍了 RAGPerf,这是一个端到端的检索增强生成(RAG)系统基准测试框架,它通过将工作流解耦为模块化组件、支持多样化的数据与模型配置,并自动化收集性能与准确性指标,从而实现对 RAG 系统行为的细粒度分析与评估。
本文提出了名为 Aceso 的自适应微服务部署系统,旨在通过结合碳强度、成本与延迟约束的智能优化策略,帮助中小型企业(SME)在区域受限的基础设施中实现比传统静态部署减少 37.4% 碳排放和 3.6% 运营成本的高效绿色部署。
该研究通过调查 25 名 K-12 教师在专业发展工作坊中使用 AI 生成评分量表的经历,发现尽管 AI 能有效提供结构清晰且详细的初稿,但教师仍强调需进行人工审核与修改以解决通用性、错位及定制化不足等问题,从而表明在确保教师控制权和工作流支持灵活定制的前提下,教师对采用此类 AI 工具持条件性接受态度。
该研究针对物联网网络中不断演变的威胁和概念漂移问题,提出了一种基于 LSTM 的增量联邦学习框架,利用 CICIoMT2024 数据集评估了多种策略在隐私保护、资源受限条件下维持非静态入侵检测系统长期性能与低延迟的平衡。
该论文提出了一种名为“条件退化引导”(CDG)的新范式,通过用策略性退化的条件替代传统的空提示来生成引导信号,从而在不增加额外训练或计算成本的情况下,显著提升了扩散模型在复杂组合任务中的语义控制精度。
该论文针对透明玻璃器皿中化学实验监测的难点,提出了包含新数据集 CTG 2.0 和融合局部 - 全局注意力机制与边界校准模块的 LGA-RCM-YOLO 模型,实现了高精度的相界面实例分割,从而为实验室自动化提供了一种可靠的视觉传感器。
本文通过分析流匹配框架下优化动力学的二次型几何特性,揭示了标准训练在跨样本干扰控制上的不足,进而提出了语义粒度对齐(SGA)方法,通过干预向量残差场有效缓解梯度冲突,显著提升了文本到图像合成模型的收敛效率与结构完整性。
该论文通过引入更广泛的模型配置和去污染的真实世界数据集,重新评估了 EVMBench 基准测试,发现 AI 智能体在智能合约安全审计中存在结果不稳定、无法独立完成端到端漏洞利用以及受脚手架影响显著等局限,从而挑战了全自动 AI 审计即将实现的乐观预期,并主张采用人机协同的审计工作流。
本文提出了 PolGS++,一种通过集成偏振 BRDF 模型和深度引导可见性掩码机制,在无需昂贵光线追踪的情况下实现快速、高质量反射表面重建的物理引导高斯泼溅框架。
该论文通过识别并验证视觉 Transformer 中触发器的线性方向,揭示了不同后门攻击的内部处理机制差异,并据此提出了一种无需数据的权重检测方案,证明了机械可解释性在诊断和解决计算机视觉安全漏洞方面的有效性。
本文提出了一种基于压缩树结构的广义数据超立方表示法,并构建了集成特征提取系统,以高效处理地球科学中不规则、稀疏及分支的复杂数据集,从而弥补了传统数据立方模型在表达复杂数据空间与实现高效访问方面的不足。
本文提出了 HanMoVLM,这是一种针对中国绘画领域的大规模视觉语言模型,通过引入专家验证的思维链(CoT)和基于真实拍卖数据的 HanMo-Bench 数据集,实现了专业级的画作评估,并作为测试时扩展的核心组件显著提升了中国画作生成的质量。
该论文提出了名为 MEDISEG 的数据集,通过提供涵盖 32 种药片及 8262 张图像(包括重叠、遮挡等复杂场景)的实例分割标注,有效解决了现有药片识别数据集缺乏真实世界复杂性的问题,并验证了其在提升药物错误预防 AI 模型性能及少样本泛化能力方面的显著价值。
该研究通过构建可扩展的空间显式框架,利用地理加权分类模型量化了捷克局部区域人口特征与建成环境之间具有空间异质性的线性关系,揭示了建成环境类型在加剧社会空间不平等中的选择性作用。
该研究从部署导向视角出发,评估了基于两阶段目标检测框架的少样本药片识别系统在跨数据集视觉域偏移下的表现,发现虽然语义分类在极少样本下即可快速饱和,但在重叠和遮挡等复杂场景下定位与召回率显著下降,从而强调了训练数据真实性和诊断性评估对系统部署就绪的重要性。
本文提出了一种名为 MAD(内存分配多样性)的新方法,通过结合内存分配与软件多样性原则,利用两种新颖的空间多样化技术克服内存子系统熵不足的障碍,以硬件和软件无关的方式有效延缓 DRAM 错误(如 RowHammer 攻击),从而为系统响应争取宝贵时间。
该论文提出了一种基于霍奇分解的拓扑模型,用于将无服务器平台中的复杂信息流分解为可局部修正的组件与反映系统结构特性的谐波模式,并据此开发了一种通过引入“耗散效应”来制定修复策略的迭代分析方法,从而有效识别架构异常并优化系统性能。
本文提出了名为 UltrasoundAgents 的分层多智能体框架,通过模拟从病灶定位到局部特征分析再到证据整合的临床工作流,并结合解耦渐进式训练策略,实现了具有可追溯证据链和更高诊断准确性的乳腺超声辅助诊断。
本文介绍了 OSUM-Pangu,这是一个基于 OpenPangu-7B 大语言模型并在昇腾 NPU 全栈非 CUDA 环境下构建的开源多维语音理解基础模型,其通过分阶段训练策略实现了与主流 GPU 模型相当的任务准确率,为开源语音社区提供了可复现的非 CUDA 基准。
该论文针对多模态大语言模型在长上下文场景中因视觉 token 注意力随文本序列增长而衰减(即“视觉淡化”)的问题,提出了一种基于模态交互解耦的模态间距离不变位置编码(DIPE)方法,通过保留模态内相对位置并固定模态间感知邻近性,有效消除了模态间距离带来的惩罚,从而显著提升了模型在长上下文中的视觉 grounding 能力。