AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision
農業ビジョン分野におけるモデルの汎化性能向上を目指し、複数のチームが独立して収集した多様なフィールドデータを用いた「AgrI Challenge」というデータ中心のコンペティション枠組みと、クロスチーム検証(CTV)という評価手法を提案し、単一ソース学習の限界とマルチソース協調学習の有効性を示した。
3891 件の論文
農業ビジョン分野におけるモデルの汎化性能向上を目指し、複数のチームが独立して収集した多様なフィールドデータを用いた「AgrI Challenge」というデータ中心のコンペティション枠組みと、クロスチーム検証(CTV)という評価手法を提案し、単一ソース学習の限界とマルチソース協調学習の有効性を示した。
本論文は、複数の予測時間軸における冗長な計算を削減しつつ、スパースな事象監視下で確率的な空間分布を生成する長期的な山火事リスク予測を実現するために、早期の去ノイズ段階を共有し後段で分岐する階層的拡散モデル「N-Tree Diffusion」を提案し、実世界のデータセットを用いた評価で精度向上と推論コストの削減を実証したものです。
マカクにおける視覚課題の学習は、ベイズ推論の予測と一致して、ニューロン応答の情報冗長性を増加させ、個々のニューロンが運ぶ情報を増大させることが示されました。
本論文は、曖昧な視覚質問に対する戦略的な応答生成を可能にするため、曖昧さのレベルと最適な対応戦略を分類した新しいデータセット「AQuA」を提案し、これを用いて微調整された視覚言語モデルが曖昧さを認識し、不確実性を管理して文脈に適した戦略で応答する能力を実証したものです。
この論文は、深層学習の予測精度を維持しつつ臨床的透明性を確保するため、CTA 画像から形態学的および血流力学的な臨床概念を介して脳動脈瘤を分類する解釈可能な 3D コンセプトボトルネックモデルを提案し、その有効性を検証したものである。
この論文は、VLM による画像キャプション生成の課題を解決し、著作権に配慮した高品質な学習データ構築を目指すため、評価指標の体系化と構造化されたキャプション生成のためのデータ選定・モデル微調整を組み合わせた「VIVECaption」という二面アプローチを提案するものです。
本論文は、既存の歯科画像データセットの限界を克服するため、視覚言語モデルを用いて単一の歯の画像から包括的な説明文を生成する手法を提案し、ガイド付きプロンプトが画像の視覚的特徴を的確に記述する質の高いキャプション生成に有効であることを示しています。
既存の万能画像復元モデルが複数の劣化を同時に学習する際に発生する干渉と忘却の問題を解決するため、専門的なエキスパートを組み合わせるマルチブランチの混合エキスパートアーキテクチャを採用し、大規模かつ制御可能な万能画像復元を実現する「UnSCAR」を提案する。
本論文は、ドメイン不変性を促進する二重レベルの敵対的学習とクエリ組み合わせに基づくトリプレット教師あり学習を導入し、季節や天候、昼夜など多様なドメイン変化に対して最先端の性能を達成する新しいクエリベースのドメイン非依存ビジュアルプレイス認識モデル「QdaVPR」を提案しています。
この論文は、空間階層と周波数意味の 2 つの次元でテキスト事前知識を分離し、大規模な DisText-SR データセットと多ブランチの条件付きガイダンスを活用することで、高品質かつ制御可能な拡散モデルに基づく画像超解像を実現する DTPSR を提案しています。
本論文は、モバイル GUI エージェントの汎化性能評価を目的とした新たなベンチマーク「AndroidWorld-Generalization」と、GRPO を活用したスケーラブルな強化学習システムを提案し、教師あり微調整ベースラインを上回る性能向上と、未見のタスクやアプリに対する汎化における課題を明らかにしたものです。
本論文は、学習プロセスに合わせてサンプルの重要性を動的に判断し、損失と不確実性の複合報酬に基づいてデータ選択を最適化するエンドツーエンドの「Data Agent」を提案し、ImageNet-1k や MMLU などのタスクにおいて性能を維持しつつトレーニングコストを 50% 以上削減できることを実証しています。
この論文は、サポート画像の領域異質性とクエリ応答の不均一性という課題を解決するため、信頼性重み付きプロトタイプマイニングと幾何学的適応閾値選択を導入し、トレーニング不要なワンショットポリープセグメンテーションの精度を大幅に向上させた「RPG-SAM」というフレームワークを提案するものです。
本論文は、拡散モデルで強化された法線場の最適化と条件付き部分的な画像補完を用いることで、単一の RGB 画像から高忠実度かつ完全な 3 次元犬モデルを再構築するフレームワーク「DogWeave」を提案し、既存の手法を上回る形状精度とテクスチャの写実性を達成することを示しています。
本論文は、医療分野におけるラベル付きデータの不足という課題を解決するため、ラベルなしのテストデータを活用し、特徴量駆動の疑似ラベル付けと階層的な報酬設計を導入した新たな自己進化フレームワーク「Med-Evo」を提案し、既存の最良手法を上回る性能向上を実現したことを報告しています。
SLNet は、NAPE と GMU という 2 つの簡素なアイデアに基づき、非常に少ないパラメータ数と計算コストで 3D 点雲認識タスクにおいて最先端の性能を達成する超軽量な幾何適応ネットワークを提案する論文です。
この論文は、VAE、GAN、拡散モデルなど過去 10 年間の画像生成モデルの技術的変遷を包括的に調査し、各モデルの技術詳細や限界、動画生成への発展、そして深層偽造リスクや責任ある展開といった倫理的課題までを網羅的に解説するものである。
SIGMAE は、マルチスペクトルリモートセンシング画像の事前学習において、ドメイン固有のスペクトル指数を活用して意味的に重要な領域を動的に選択する「意味的顕著性ガイド動的トークンマスキング(SSDTM)」を導入し、ランダムマスキングの課題を克服して下流タスクにおける性能を大幅に向上させる新しい基盤モデルを提案するものです。
本論文は、画像とLiDARのモダリティ間ギャップに起因する負の転移問題を解決するため、深度の不確実性を統合して正の転移を促進する「MonoSTL」と呼ばれる選択的転移学習手法を提案し、KITTIおよびNuScenesデータセットにおいて既存の最先端モデルを上回る単眼3D物体検出の精度達成を実証しています。
本論文は、3D 印刷物体の分類タスクにおける再学習不要な自動化を実現するため、CAD モデルと実写を対応させた新規データセット「ThingiPrint」を提案し、回転不変性を備えたコントラスト学習によるプロトタイプベース分類が既存モデルを上回る性能を示すことを実証しています。