RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement
该论文提出了 RED 网络,通过引入面向鲁棒性的扰动策略模拟事件缺失,并采用“先解耦后选择融合”的机制分离模态特征,从而在事件相机触发阈值导致运动线索缺失的复杂场景下实现高鲁棒性的运动去模糊。
149 篇论文
该论文提出了 RED 网络,通过引入面向鲁棒性的扰动策略模拟事件缺失,并采用“先解耦后选择融合”的机制分离模态特征,从而在事件相机触发阈值导致运动线索缺失的复杂场景下实现高鲁棒性的运动去模糊。
GaiaFlow 是一个创新的语义引导扩散微调框架,它通过结合检索引导的朗之万动力学、硬件无关性能建模、自适应早退机制及精度感知量化推理,在保持检索精度的同时显著降低了大规模神经搜索系统的碳足迹,实现了效果与能效的卓越平衡。
该论文指出传统 Text-to-SQL 指标无法评估大规模数据场景下的成本与性能开销,因此提出了针对“文本转大数据 SQL"的新评估体系,并通过实验证明现有指标在大规模数据下存在不足,而新指标能更准确地反映执行效率、成本及数据规模的影响。
该论文提出了一种面向大规模电商搜索的统一排序模型,通过将多通道检索融合重构为查询感知的学习排序任务,有效解决了传统方法无法处理通道间交互和查询特异性权重的难题,在满足低延迟生产要求的同时显著提升了用户转化率。
本文介绍了名为 Aletheia 的新型浏览器扩展,它利用检索增强生成(RAG)和大语言模型(LLM)技术,不仅通过实验证明在虚假新闻检测性能上优于现有基线,还通过包含讨论中心和事实核查推送的交互功能,在 250 名参与者的用户研究中验证了其高可用性与感知有效性,从而提供了一种透明且以用户为中心的解决方案来应对虚假新闻传播问题。
本文介绍了 VDCook,一个基于自然语言查询和 MCP 协议实现自动检索与合成、支持持续演进与多维元数据标注的自进化视频数据操作系统,旨在降低构建垂直领域多模态大模型训练数据集的门槛。
AutoThinkRAG 通过引入查询复杂度路由器和将视觉解析与逻辑推理功能解耦的小规模 VLM 与大语言模型协同架构,有效解决了多模态文档问答中的长上下文与信息过载难题,在显著降低推理成本的同时实现了新的最先进性能。
该论文提出了名为 CBR-to-SQL 的框架,通过借鉴基于案例的推理(CBR)思想,将问答对抽象为可复用的案例模板并采用两阶段检索机制,有效解决了医疗领域文本转 SQL 任务中传统检索增强生成(RAG)方法面临的术语噪声、可扩展性差及数据稀缺等挑战,在 MIMICSQL 数据集上实现了优于现有方法的逻辑形式准确率与鲁棒性。
该论文通过算法审计揭示,《数字服务法》因对“广告”定义过窄,导致 TikTok 虽在形式上遵守禁止向未成年人投放基于画像广告的规定,却未能有效规制未标注的网红营销等实质商业内容,致使未成年人仍遭受严重的个性化商业诱导,因此呼吁扩大监管定义以填补这一漏洞。
该研究通过在 POPROX 平台上对 120 名美国用户进行为期 5 周的实地实验,验证了结合“主题 - 地域双重校准”算法与基于大语言模型的个性化呈现“助推”策略能有效提升新闻推荐的多样性,并促使读者逐渐养成兼顾国内与国际新闻的阅读习惯。
该论文针对敏感领域(如医疗、法律)中检索增强型意图澄清系统面临的隐私保护挑战,提出了通过定义攻击模型、设计检索级防御机制以及评估保护与效用权衡的三步研究框架,旨在构建能够作为敏感数据守门人的对话代理。
本文针对大语言模型购物代理的强化学习优化难题,提出了包含智能评测基准 SmartShopBench、分层奖励建模 HRM 及动态对比策略优化 DCPO 的完整方法,成功训练出在稳定性与综合表现上均优于通用推理大模型的 ChatShopBuddy 智能购物助手。
本文提出了 OMEGA,一种仅需在 K=1 上训练即可通过动态细化机制高效处理多 K 值向量搜索的通用模型,在显著降低预处理成本的同时实现了比现有最先进方法更低的延迟和同等召回率。
本文提出了 MLLMRec-R1 框架,通过离线将视觉信号文本化以降低计算成本、构建高质量的多模态思维链监督以及采用混合粒度数据增强策略,有效解决了现有基于 GRPO 的方法在 multimodal 序列推荐中面临的训练成本高昂和奖励膨胀问题,显著提升了多模态大模型的推理与推荐性能。
该论文提出了 R4T 框架,通过利用强化学习一次性生成目标一致的训练数据来蒸馏扩散模型,从而在显著提升集合级检索质量的同时,将查询延迟降低了约一个数量级。
CARROT 是一种针对检索增强生成(RAG)的基于蒙特卡洛树搜索的成本约束检索优化框架,它通过考虑块间相关性、解决效用非单调性问题以及引入查询自适应配置代理,显著提升了检索质量与效率。
该论文推出了名为 Ettin 的开源模型套件,包含一系列参数规模从 1700 万到 10 亿、基于相同训练配方构建的配对编码器与解码器模型,不仅在各规模下刷新了 SOTA 性能,还通过实证表明针对特定任务(如分类或生成)使用原生架构优于跨架构适配。
本文提出了 TURA(工具增强的统一检索代理),这是一种结合检索增强生成(RAG)与智能体工具调用的三阶段框架,通过意图感知检索、基于 DAG 的任务规划及轻量级执行器,有效解决了传统 RAG 在处理实时动态数据(如库存和票务)方面的局限,实现了面向大规模工业级 AI 搜索产品的静态内容与动态信息源的统一检索。
该论文通过理论推导与实证分析证明,基于单向量嵌入的检索方法存在由嵌入维度决定的根本性理论局限,即使面对简单查询,现有最先进模型也无法克服这一限制,从而呼吁开发新的技术范式。
本文提出了首个标准化的位置感知信息检索基准 PosIR,通过涵盖多语言多领域的数据集及长度控制策略,系统性地揭示了现有检索模型中普遍存在且随文档长度加剧的位置偏差问题,并深入分析了其内部机制。