Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?
本文提出“氛围研究”(vibe researching)概念,通过构建认知任务框架界定 AI 智能体在社会科学研究中的能力边界,论证其虽能大幅加速研究流程并辅助方法实施,但在理论原创性与隐性知识方面仍无法替代人类学者,进而警示了该变革带来的职业分层风险与教学危机。
2792 篇论文
本文提出“氛围研究”(vibe researching)概念,通过构建认知任务框架界定 AI 智能体在社会科学研究中的能力边界,论证其虽能大幅加速研究流程并辅助方法实施,但在理论原创性与隐性知识方面仍无法替代人类学者,进而警示了该变革带来的职业分层风险与教学危机。
该论文提出了衡量系统交互有效性的“双预测性”(bipredictability)这一核心指标,证明了其在经典与量子系统中的理论界限,指出当前 AI 仅具备行动能力而缺乏自我监控与适应的“智能”,并据此提出了一种受生物机制启发的实时反馈架构以构建具备真正智能的自适应系统。
本文提出了名为 AVDE 的轻量级框架,通过结合对比学习对齐 EEG 与图像表征,并利用基于“多尺度预测”策略的自回归生成模型,实现了高效、低参数量且符合人类视觉感知层级特性的脑电视觉解码。
该研究通过分解 HealthBench 数据集中的医师分歧发现,尽管大部分分歧源于病例本身的结构性特征且难以通过常规元数据消除,但区分“可消除的不确定性”(如信息缺失)与“不可消除的不确定性”(如固有医学模糊性)为优化评估设计提供了关键方向,即通过填补信息缺口可在不增加固有模糊性的情况下降低分歧。
本文提出了 CeRA(容量增强型秩适应)方法,通过引入 SiLU 门控和结构式丢弃在权重层面实现流形扩展,从而突破低秩适应(LoRA)在复杂推理任务中因线性约束导致的性能瓶颈,以显著更低的秩实现了超越高秩 LoRA 的谱效率与推理能力。
本文提出了一种基于学习显式转移模型的广义规划方法,通过让神经网络自回归预测中间世界状态而非直接预测动作序列,在多个领域中以更少的训练样本和更小的模型实现了比直接动作预测更强的分布外泛化能力。
该论文通过利用经过优化的微调大语言模型生成数百万条文本相关性标签,有效解决了专家标注稀缺的难题,并在 App Store 搜索排序中实现了行为相关性与文本相关性的同步提升,最终在全球 A/B 测试中显著提高了转化率,尤其在长尾查询场景下效果最为突出。
本文提出了 Attn-QAT,一种针对 4 比特注意力机制的量化感知训练方法,通过解决反向传播中的精度失配问题,在无需显式异常值抑制的情况下实现了稳定的 FP4 训练与推理,并在 RTX 5090 上带来了高达 1.5 倍的加速。
本文提出了 PEPA,一种通过三层认知架构利用人格特质作为内在组织原则,使具身智能体能够在无需外部任务指令的情况下自主生成目标并实现持久自主运行的机器人系统。
本文提出了一种可复现的评估框架,通过将心电图推理分解为“感知”(利用代理框架生成代码验证时序结构)和“推理”(基于检索比对临床准则)两个独立组件,实现了对多模态模型在心电图信号上真实推理能力的可扩展验证。
该论文提出了一种共形预测框架,通过针对不同临床文档结构(如结构化 FDA 标签与自由文本放射报告)中大语言模型置信度校准偏差的异质性进行自适应调整,在确保医疗实体提取达到 90% 以上覆盖率的同时实现了可控的拒绝率,从而为临床安全部署提供了保障。
该技术报告通过引入城市资源分配新案例,跨领域验证了可解释性解决方案空间(ESS)框架的通用性,证明其能根据治理角色、风险特征及利益相关者配置系统性地调整可解释 AI 策略,从而成为适用于各类社会技术系统的通用决策支持工具。
该论文针对 2026 年 F1 新规下因对手隐藏状态导致的部分可观测随机博弈问题,提出了一种结合隐藏马尔可夫模型(HMM)推断对手能量状态与深度 Q 网络(DQN)制定决策的两层框架,有效解决了传统单智能体优化方法无法应对的“反收割陷阱”等复杂策略挑战。
HarmonyCell 是一个端到端智能体框架,通过大语言模型驱动的语义统一器和自适应蒙特卡洛树搜索引擎,分别解决单细胞扰动研究中的语义异构与分布偏移挑战,实现了无需人工干预的自动化虚拟细胞建模。
本文提出了一种由大语言模型驱动的闭环框架,通过将自然语言指令映射为可执行规则并自动语义标注选项,有效解决了深度强化学习在数据效率、可解释性及跨环境迁移方面的关键挑战,并在 Office World 和 Montezuma's Revenge 任务中验证了其在约束合规与任务迁移上的优越性能。
该论文提出了一种检测门控流水线,通过结合定位器与分割器及时间一致性机制,实现了跨数据集鲁棒的高清喉镜声门区域波形提取,并验证了其在区分健康与病理发声功能中的临床有效性。
本文提出了一种结合 CoAtNet 架构与模型汤(Model Soups)技术的框架,通过集成多样化检查点来降低方差并提升泛化能力,从而在数据稀缺的湄公河三角洲非物质文化遗产图像分类任务中取得了优于现有基准的优异性能。
该论文提出了一种诊断框架,通过对比不同写入与检索策略在 LoCoMo 数据集上的表现,发现检索方法对 LLM 代理性能的影响远大于写入策略,且当前更高效的原始分块存储配合优质检索往往优于昂贵的摘要式写入方案。
本文提出了一种基于代理的评估框架,通过引入评估代理来确保逻辑推理任务评估的可复现性与鲁棒性,并在 FOLIO 数据集上验证了该方法下自动形式化代理在逻辑推理任务中显著优于思维链基线的表现。
本文提出了一种无需梯度计算或参数更新的无监督方法,通过引入 GramCol 和运动特征选择算法生成可解释的运动注意力图(IMAP),从而在视频扩散 Transformer 中实现了对运动及非运动概念时空定位的精准解释。