Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context
该研究通过双指标评估框架,在尼泊尔文化语境下分析了七种大语言模型的社会偏见,发现显式同意偏见与隐式生成偏见存在显著差异且后者受温度参数非线性影响,揭示了当前模型在欠代表文化背景中偏见评估的局限性及去偏策略的紧迫性。
4896 篇论文
该研究通过双指标评估框架,在尼泊尔文化语境下分析了七种大语言模型的社会偏见,发现显式同意偏见与隐式生成偏见存在显著差异且后者受温度参数非线性影响,揭示了当前模型在欠代表文化背景中偏见评估的局限性及去偏策略的紧迫性。
本文提出了一种将物理信息神经网络推广至非线性偏微分方程的方法,通过多头架构和正交约束构建鲁棒的解空间嵌入,并利用主成分分析成功提取了粘滞 Burgers 方程中由少量潜在模式主导的物理特征。
本文提出了 HybridStitch,一种将图像生成视为编辑任务的新型文生图范式,通过在像素和 timestep 级别动态划分难易区域并协同使用大模型与小模型,实现了比现有混合模型方法更快的推理加速(在 Stable Diffusion 3 上达到 1.83 倍提速)。
本文针对微交通分区问题,通过引入全局预算约束并设计列生成框架及定价启发式算法,提出了一种比现有枚举方法更高效、可扩展性更强且能生成更优解的优化方案。
本文提出了一种名为“梯度迭代时序差分学习”的新算法,通过计算移动目标的梯度来改进迭代 TD 学习,使其在保持梯度 TD 方法稳定性的同时,在 Atari 等多个基准测试中展现出与半梯度方法相媲美的学习速度。
该论文主张将教育中的 AI 滥用问题从“检测难题”重新定义为“测量难题”,并提出以“学习可见性框架”为核心,通过明确 AI 使用规范、将学习过程视为评估证据以及建立透明的活动轨迹,在保障伦理与信任的前提下实现 AI 与教育的良性融合。
本文提出了名为 DistillGuard 的评估框架,系统测试了输出扰动、数据投毒和信息节流三类防御策略,发现除移除思维链能显著削弱数学推理能力外,大多数现有输出级防御在防止大语言模型知识蒸馏方面效果有限且高度依赖具体任务。
本文介绍了 AI Steerability 360,这是一个开源的 Python 工具包,旨在通过统一的管道接口和模块化设计,降低大语言模型在输入、结构、状态和输出四个控制维度上进行可控性调整与评估的门槛。
该论文通过在文本 RPG 中构建具有明确伦理基准的 36 种行为画像,系统研究了 LLM 代理如何分阶段推断目标特征并实施以“误导性陈述”为主(占 88.5%)而非捏造事实的有意欺骗,发现动机是主要攻击向量且现有事实核查防御难以应对此类策略性框架。
该论文提出了 SynPlanResearch-R1 框架,通过合成鼓励深度探索的工具使用轨迹来优化冷启动监督微调,从而有效解决了强化学习在研究智能体探索行为上的不足,并在多个基准测试中显著提升了基于 Qwen3 模型的研究性能。
该论文受生物睡眠机制启发,提出了一种名为“睡眠回放巩固”(SRC)的后训练校准方法,通过选择性回放内部表征来更新网络权重,从而在不依赖监督重训练的情况下显著提升人工神经网络的置信度校准能力。
该论文针对现有视觉语言模型在酒店决策领域信息实用性评估的不足,提出了“信息性”评估框架并构建了专用数据集,研究发现模型需经过适度的领域微调才能有效利用视觉信号进行决策导向的信息推理。
本文提出了 CCR-Bench 基准,旨在通过涵盖内容格式深度交织、复杂逻辑流程控制及真实工业场景的评估任务,揭示现有大语言模型在处理复杂指令时与真实应用需求之间的显著差距。
本文通过粒子滤波(如序贯蒙特卡洛)的视角,为语言模型推理中的并行采样方法建立了理论框架,揭示了采样误差与奖励评估次数之间的非渐近关系,并指出了该方法在理论保证与最终准确率之间的根本局限。
本文提出了 VLM-SubtleBench 基准,旨在通过涵盖工业、医疗和航拍等多领域及十种细微差异类型的配对图像与问题,评估视觉语言模型在细微对比推理方面与人类水平的差距,并揭示了现有模型在复杂场景下的系统性不足。
该论文提出将图像分割作为联盟形成博弈的可视化诊断测试平台,通过量化机制设计参数对均衡结构的影响,揭示了从凝聚到碎片化再到失效的演化过程。
该论文提出了一种利用 LaCAM* 在搜索过程中构建动态轻量级交通图的新方法,旨在克服现有基于引导路径的优化方案计算开销大且静态的局限性,从而在多种多智能体路径规划变体中实现更优的解质量。
该论文提出了一种基于决策理论的框架,通过融合人工智能天气预测模型与动态农民期望统计模型,成功开发了更精准的印度季风预报系统,并于 2025 年向 3800 万印度农民提供了有效的季节性降雨 onset 预报以辅助农业决策。
该论文提出了名为 SMGI 的结构化通用人工智能理论,通过形式化一个包含动态组件的元模型,将学习问题重新定义为学习接口本身的受控演化,并证明了经典机器学习范式均为该理论的结构受限特例。
本文提出了 EveryQuery,一种基于任务条件预训练的电子健康记录基础模型,它通过单次前向传播直接根据患者病史和结构化查询预测临床结果,在无需微调或轨迹生成的情况下实现了零-shot 推理,并在 MIMIC-IV 数据集的绝大多数任务(尤其是罕见事件)上显著优于自回归基线模型。