Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation
该研究通过在 POPROX 平台上对 120 名美国用户进行为期 5 周的实地实验,验证了结合“主题 - 地域双重校准”算法与基于大语言模型的个性化呈现“助推”策略能有效提升新闻推荐的多样性,并促使读者逐渐养成兼顾国内与国际新闻的阅读习惯。
5575 篇论文
该研究通过在 POPROX 平台上对 120 名美国用户进行为期 5 周的实地实验,验证了结合“主题 - 地域双重校准”算法与基于大语言模型的个性化呈现“助推”策略能有效提升新闻推荐的多样性,并促使读者逐渐养成兼顾国内与国际新闻的阅读习惯。
该论文提出了 BM25-V 方法,通过将稀疏自编码器生成的视觉词激活与 Okapi BM25 评分相结合,利用逆文档频率(IDF)加权机制在无需微调的情况下实现了高效、可解释且高精度的图像检索。
该论文提出了“证明护栏”(Proof-of-Guardrail)系统,利用可信执行环境(TEE)为 AI 代理生成可验证的密码学证明,以确保证据表明响应确实经过了特定开源安全护栏的处理,同时指出即便有此类证明,恶意开发者仍可能通过主动越狱护栏来实施欺骗。
本文提出了 StreamWise 系统,通过自适应地动态管理生成质量、模型并行策略及资源调度,在异构硬件上实现了多模态实时生成(如播客视频)的高效服务,在满足严格延迟要求的同时显著降低了成本。
本文提出了“歧义坍缩”概念,即大语言模型在处理具有多重合法解释的模糊术语时将其强行简化为单一结论,从而绕过人类意义协商过程,并据此构建了一个涵盖过程、输出和生态系统三个层面的认识论风险分类体系,旨在通过多层面的缓解原则设计能够保留并负责任地治理歧义的系统。
本文提出了名为 MaCS 的架构无关正则化框架,通过联合优化逻辑空间中的分类间隔与局部预测一致性,在无需额外数据或架构改动的情况下,显著提升了视觉模型的校准度、鲁棒性及泛化能力。
本文针对大语言模型在对话式视觉分析评估中面临的挑战,基于用户调研提出了 Lexara 工具包,该工具包通过涵盖真实场景的测试用例、可解释的多维度评估指标以及无需编程的交互式探索功能,有效辅助开发者进行模型与提示词的选择。
该论文通过对比提示和余弦相似度分析,揭示了 EleutherAI/gpt-j-6B 大语言模型内部对信任的表征与 Castelfranchi 社会认知模型最为契合,表明 LLM 能够以支持人类-AI 协作系统设计的方式编码社会认知构建。
该论文提出了一种结合卷积神经网络(CNN)与视觉 Transformer(ViT)的集成学习融合模型,通过训练四个独立模型并在预测阶段进行集成,有效克服了单一架构的局限性及冗余特征瓶颈,在 UC Merced、RSSCN7 和 MSRSI 等遥感图像数据集上取得了优于现有方法的分类精度。
本文提出了 MACRO,一种通过从验证执行轨迹中自主发现并合成可复用复合工具,从而将静态工具组合转变为经验驱动式自我演进的医疗影像智能体,显著提升了多步骤任务编排的准确性与跨域泛化能力。
本文汇集国际专家观点,在评估基础模型与智能体驱动的计算病理学在诊断、预后等任务中表现优异但临床落地滞后的现状基础上,从技术成熟度、运营准备度及经济监管环境等多维度,探讨了将其负责任地整合至临床实践的路径与障碍。
该论文提出了一种基于自监督表示重建(SSRR)损失的新方法,显著提升了神经音频编解码器的训练效率、语音可懂度及实时流式性能,并据此构建了低延迟、零前瞻的 JHCodec 模型。
本文针对大语言模型在长故事生成中普遍存在的连贯性缺陷,提出了包含 2000 个提示和 19 种细粒度错误分类的 ConStory-Bench 基准及 ConStory-Checker 自动检测工具,并通过实验揭示了事实与时间维度错误高发、多出现在叙事中段及高熵文本段等关键规律。
该论文针对大语言模型在分子优化任务中因缺乏轨迹数据而导致推理能力退化和奖励稀疏的问题,提出了一种名为 RePO 的参考引导策略优化方法,通过结合强化学习与参考分子引导的混合训练机制,在无需轨迹数据的情况下有效平衡了探索与利用,显著提升了分子优化的成功率与泛化性能。
本文提出了 LUMINA 框架,利用大语言模型通过瓶颈分析自动提取架构知识并生成设计规则,从而在仅需 20 步探索的情况下,高效地发现了比 A100 性能更优的 GPU 设计方案,显著提升了 GPU 架构探索的效率与质量。
该论文提出了名为 ProEvolve 的基于图的框架,通过可编程的图变换技术实现环境演化的自动可控生成,从而在动态变化的环境中更有效地评估智能体的适应能力。
该论文提出了首个面向复杂病灶推理分割的 Chain-of-Thought 基准 ComLesion-14K,并设计了结合语义引导提示适配器与自适应双粒度奖励机制的 CORE-Seg 框架,通过从监督微调(SFT)到 GRPO 的渐进式训练策略,显著提升了复杂病灶分割的精度与逻辑可解释性。
该论文针对深度研究报告事实性验证的难题,指出静态基准的局限性,提出了通过“审计 - 评分”机制实现基准与智能体协同进化的 DeepFact 框架,显著提升了专家标注可靠性并构建了可审计的 DeepFact-Bench 基准及高性能验证代理。
该论文提出了一种结合节点 Transformer 架构与 BERT 情感分析的集成框架,通过将股票市场建模为图结构并融合多源数据,在 S&P 500 股票预测中显著降低了误差并提升了方向预测准确率。
本文提出了名为 BlackMirror 的通用无训练黑盒检测框架,通过镜像匹配与镜像验证机制分析指令与生成图像间的语义偏差及其稳定性,从而有效识别现有基于图像相似性方法难以检测的多样化文本到图像模型后门攻击。