From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

本文提出了工具增强的推理框架 TAR-FAS,通过构建包含多轮工具使用轨迹的 ToolFAS-16K 数据集并引入多样化的工具组相对策略优化(DT-GRPO)训练机制,使多模态大模型能够从直觉观察过渡到利用外部视觉工具进行细粒度调查,从而在跨域人脸活体检测任务中实现了最先进的性能与可解释性。

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

该论文提出了 MM-DeepResearch,一种通过引入基于超图的多模态问答数据生成方法(Hyper-Search)、基于工具专家分解与树搜索的轨迹优化策略(DR-TTS)以及支持离线强化学习的多工具搜索引擎,来有效解决多模态深度研究智能体在数据稀缺、轨迹缺乏及训练成本高昂方面挑战的基线模型。

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

本文提出了 GroundedSurg,这是首个面向多手术场景的语言条件化实例级手术工具定位基准,旨在通过结合自然语言描述与像素级定位标注,填补现有评估范式在解析特定器械实例功能角色及空间关系方面的空白,从而推动具备临床现实推理能力的手术人工智能系统发展。

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs