From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

本文提出了工具增强的推理框架 TAR-FAS,通过构建包含多轮工具使用轨迹的 ToolFAS-16K 数据集并引入多样化的工具组相对策略优化(DT-GRPO)训练机制,使多模态大模型能够从直觉观察过渡到利用外部视觉工具进行细粒度调查,从而在跨域人脸活体检测任务中实现了最先进的性能与可解释性。

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

该论文提出了 MM-DeepResearch,一种通过引入基于超图的多模态问答数据生成方法(Hyper-Search)、基于工具专家分解与树搜索的轨迹优化策略(DR-TTS)以及支持离线强化学习的多工具搜索引擎,来有效解决多模态深度研究智能体在数据稀缺、轨迹缺乏及训练成本高昂方面挑战的基线模型。

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI