A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature
本文提出了一种基于多模态大语言模型的多智能体系统,通过协同专用工具与网络服务,显著提升了从化学文献中提取复杂多模态反应信息的准确率与通用性,为构建高质量化学数据库及推动 AI 驱动的化学研究奠定了坚实基础。
5167 篇论文
本文提出了一种基于多模态大语言模型的多智能体系统,通过协同专用工具与网络服务,显著提升了从化学文献中提取复杂多模态反应信息的准确率与通用性,为构建高质量化学数据库及推动 AI 驱动的化学研究奠定了坚实基础。
该论文提出了一种名为 MAP 的免训练解码方法,通过将模型隐藏状态视为二维语义地图并引入层间交错注意力与全局 - 局部 Logit 融合机制,有效利用广泛分布的事实信息以缓解大型视觉语言模型中的幻觉问题。
本文提出了 VLMQ,一种针对视觉语言模型(VLM)的特定后训练量化框架,通过利用梯度驱动的显著性因子识别并优先保留关键令牌、抑制冗余视觉令牌,有效解决了视觉过度表征和模态分布差异导致的量化性能下降问题,从而在低比特设置下实现了显著的性能提升。
该论文提出了一种名为 SGDFuse 的语义引导扩散模型,通过利用 Segment Anything Model (SAM) 生成的高质量语义掩码作为显式先验,指导条件扩散模型进行从粗到细的生成,从而解决了现有红外与可见光图像融合方法中目标丢失、伪影及细节缺失等问题,实现了高保真且语义感知强的融合效果。
本文提出了一种基于最佳优先搜索与延迟部分扩展的算法,通过将控制参数显式视为决策点而非约束,有效解决了自动化规划中无限域参数的搜索问题,并证明了其在特定条件下的完备性。
该论文提出了名为“先答后查”(Answer-Then-Check)的新型安全对齐方法,通过构建包含 8 万样本的 ReSA 数据集训练模型在生成最终回复前进行推理与安全评估,从而在显著提升抗越狱能力、降低过度拒绝率的同时,保持了模型在通用推理任务上的性能。
该论文针对现有同时性语音翻译延迟评估指标在短文本场景下因分词偏差导致结果不一致的问题,提出了首个涵盖多语言与系统的元评估,并引入了新型指标 YAAL 与 LongYAAL 及重分词工具 SoftSegmenter,显著提升了延迟评估的准确性与可靠性。
本文提出了名为 LikePhys 的免训练评估方法,通过利用去噪目标作为似然代理来区分物理有效与无效视频,构建了涵盖四大物理领域的基准测试,证明了其指标与人类偏好高度一致,并揭示了当前视频扩散模型在物理理解能力上随模型规模与推理设置扩展而呈现的改进趋势。
Phys2Real 提出了一种结合视觉语言模型物理参数先验与基于不确定性感知的在线交互适应的“实 - 仿 - 实”强化学习框架,通过融合 3D 高斯溅射重建、VLM 推断及在线估计,显著提升了机器人在复杂物理动力学任务中的 sim-to-real 迁移成功率与效率。
本文提出了 CanvasMAR,一种通过引入作为非均匀掩码的全局模糊“画布”先验、运动感知采样课程以及组合无分类器引导,从而在极少采样步数下实现高保真视频预测的自回归模型。
该论文提出了一种“即时目标”(Just-In-Time Objectives)方法,通过被动观察用户行为实时推断并优化其特定目标,从而引导大语言模型动态生成高度个性化的专用工具与高质量交互响应,显著优于传统通用模型。
本文提出了 3DThinker 框架,通过两阶段训练使视觉语言模型在无 3D 先验和标注数据的情况下,能够像人类一样利用图像中的几何信息进行 3D 空间想象与推理,从而在有限视角下显著提升了空间关系理解能力。
该研究通过引入三项子群一致性检验,证实了 ChatGPT 在基于性别和种族/民族群体的协作沟通数据编码中,其表现与人类评分者保持一致,从而验证了其在大规模协作评估中的应用潜力。
该论文提出了一种受贝叶斯实验设计启发的蒙特卡洛推理策略,通过“协作战舰”等任务显著提升了语言模型在信息寻求任务中的提问质量与决策理性,使其在成本极低的情况下甚至能超越人类和前沿模型的表现。
本文提出了 REx86,一个基于 Qwen2.5-Coder-7B 模型并通过 5981 个 x86 汇编样本进行参数高效微调的本地开源大语言模型,旨在解决逆向工程中的隐私与效率问题,实验表明其在代码理解准确性和注释质量上显著优于基线模型。
本文提出了 LA-MARRVEL 框架,这是一种基于知识且具备语言感知能力的临床级大语言模型系统,它通过构建富含表型的结构化提示,在罕见病致病基因优先排序任务中显著提升了召回率,并能生成符合 ACMG 标准的可审计临床推理。
该论文针对生成式扩散模型中文化记忆与泛化能力交织的“多模态图标性”现象,提出了将“识别”与“实现”分离的评估框架(CRT 指标),通过大规模实验揭示了模型在文化引用下的行为差异及其受数据频率、文本独特性等多重因素的影响,从而推动了从简单图文匹配向深层语境理解的评估范式转变。
该论文提出了软 Q 函数重参数化策略梯度扩散微调(SQDF)方法,通过引入折扣因子、一致性模型集成及离线回放缓冲区等创新,有效解决了扩散模型微调中的奖励过优化问题,在提升目标奖励的同时保持了样本的多样性与自然性。
本文提出了 XR-DT 框架,该框架结合扩展现实(XR)数字孪生技术与基于注意力机制的轨迹预测模型,通过新型的人类感知模型预测路径积分(HA-MPPI)控制器,实现了人机共享空间中安全、高效且可解释的机器人运动规划。
该论文指出强化学习导致大语言模型推理多样性下降的根源在于其隐式优化了“零强制”反向 KL 散度,并提出了一种基于-散度族的新方法,通过显式构建目标分布并调节精度与多样性的权衡,在 Lean 定理证明基准上实现了覆盖率和精度的最优平衡。