AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

農業ビジョン分野におけるモデルの汎化性能向上を目指し、複数のチームが独立して収集した多様なフィールドデータを用いた「AgrI Challenge」というデータ中心のコンペティション枠組みと、クロスチーム検証(CTV)という評価手法を提案し、単一ソース学習の限界とマルチソース協調学習の有効性を示した。

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

本論文は、複数の予測時間軸における冗長な計算を削減しつつ、スパースな事象監視下で確率的な空間分布を生成する長期的な山火事リスク予測を実現するために、早期の去ノイズ段階を共有し後段で分岐する階層的拡散モデル「N-Tree Diffusion」を提案し、実世界のデータセットを用いた評価で精度向上と推論コストの削減を実証したものです。

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

本論文は、曖昧な視覚質問に対する戦略的な応答生成を可能にするため、曖昧さのレベルと最適な対応戦略を分類した新しいデータセット「AQuA」を提案し、これを用いて微調整された視覚言語モデルが曖昧さを認識し、不確実性を管理して文脈に適した戦略で応答する能力を実証したものです。

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

この論文は、深層学習の予測精度を維持しつつ臨床的透明性を確保するため、CTA 画像から形態学的および血流力学的な臨床概念を介して脳動脈瘤を分類する解釈可能な 3D コンセプトボトルネックモデルを提案し、その有効性を検証したものである。

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

本論文は、既存の歯科画像データセットの限界を克服するため、視覚言語モデルを用いて単一の歯の画像から包括的な説明文を生成する手法を提案し、ガイド付きプロンプトが画像の視覚的特徴を的確に記述する質の高いキャプション生成に有効であることを示しています。

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

既存の万能画像復元モデルが複数の劣化を同時に学習する際に発生する干渉と忘却の問題を解決するため、専門的なエキスパートを組み合わせるマルチブランチの混合エキスパートアーキテクチャを採用し、大規模かつ制御可能な万能画像復元を実現する「UnSCAR」を提案する。

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

本論文は、ドメイン不変性を促進する二重レベルの敵対的学習とクエリ組み合わせに基づくトリプレット教師あり学習を導入し、季節や天候、昼夜など多様なドメイン変化に対して最先端の性能を達成する新しいクエリベースのドメイン非依存ビジュアルプレイス認識モデル「QdaVPR」を提案しています。

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

この論文は、空間階層と周波数意味の 2 つの次元でテキスト事前知識を分離し、大規模な DisText-SR データセットと多ブランチの条件付きガイダンスを活用することで、高品質かつ制御可能な拡散モデルに基づく画像超解像を実現する DTPSR を提案しています。

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

本論文は、モバイル GUI エージェントの汎化性能評価を目的とした新たなベンチマーク「AndroidWorld-Generalization」と、GRPO を活用したスケーラブルな強化学習システムを提案し、教師あり微調整ベースラインを上回る性能向上と、未見のタスクやアプリに対する汎化における課題を明らかにしたものです。

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

本論文は、学習プロセスに合わせてサンプルの重要性を動的に判断し、損失と不確実性の複合報酬に基づいてデータ選択を最適化するエンドツーエンドの「Data Agent」を提案し、ImageNet-1k や MMLU などのタスクにおいて性能を維持しつつトレーニングコストを 50% 以上削減できることを実証しています。

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

この論文は、サポート画像の領域異質性とクエリ応答の不均一性という課題を解決するため、信頼性重み付きプロトタイプマイニングと幾何学的適応閾値選択を導入し、トレーニング不要なワンショットポリープセグメンテーションの精度を大幅に向上させた「RPG-SAM」というフレームワークを提案するものです。

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

本論文は、拡散モデルで強化された法線場の最適化と条件付き部分的な画像補完を用いることで、単一の RGB 画像から高忠実度かつ完全な 3 次元犬モデルを再構築するフレームワーク「DogWeave」を提案し、既存の手法を上回る形状精度とテクスチャの写実性を達成することを示しています。

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

本論文は、医療分野におけるラベル付きデータの不足という課題を解決するため、ラベルなしのテストデータを活用し、特徴量駆動の疑似ラベル付けと階層的な報酬設計を導入した新たな自己進化フレームワーク「Med-Evo」を提案し、既存の最良手法を上回る性能向上を実現したことを報告しています。

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

SIGMAE は、マルチスペクトルリモートセンシング画像の事前学習において、ドメイン固有のスペクトル指数を活用して意味的に重要な領域を動的に選択する「意味的顕著性ガイド動的トークンマスキング(SSDTM)」を導入し、ランダムマスキングの課題を克服して下流タスクにおける性能を大幅に向上させる新しい基盤モデルを提案するものです。

Xiaokang Zhang, Bo Li, Chufeng Zhou, Weikang Yu, Lefei Zhang2026-03-10💻 cs

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

本論文は、画像とLiDARのモダリティ間ギャップに起因する負の転移問題を解決するため、深度の不確実性を統合して正の転移を促進する「MonoSTL」と呼ばれる選択的転移学習手法を提案し、KITTIおよびNuScenesデータセットにおいて既存の最先端モデルを上回る単眼3D物体検出の精度達成を実証しています。

Rui Ding, Meng Yang, Nanning Zheng2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

本論文は、3D 印刷物体の分類タスクにおける再学習不要な自動化を実現するため、CAD モデルと実写を対応させた新規データセット「ThingiPrint」を提案し、回転不変性を備えたコントラスト学習によるプロトタイプベース分類が既存モデルを上回る性能を示すことを実証しています。

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs