Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning
この論文は、地理的推論を静的な認識からインタラクティブな探索へと転換する初のオープンアクセスグローバル位置特定ベンチマーク「WanderBench」と、推論を身体動作と連動させて不確実性を能動的に低減するフレームワーク「GeoAoT」を提案し、大規模マルチモーダルモデルの位置特定能力を飛躍的に向上させたことを報告しています。