SelvaBox: A high-resolution dataset for tropical tree crown detection
本論文は、熱帯林の樹冠検出を目的とした、3 カ国にまたがり 8 万 3 千以上の手動ラベル付き高解像度ドローン画像を含む「SelvaBox」という大規模オープンデータセットを公開し、高解像度入力が検出精度の向上に寄与することや、本データセットで学習したモデルが他データセットにおいても優れた汎化性能を示すことを実証しています。
6611 件の論文
本論文は、熱帯林の樹冠検出を目的とした、3 カ国にまたがり 8 万 3 千以上の手動ラベル付き高解像度ドローン画像を含む「SelvaBox」という大規模オープンデータセットを公開し、高解像度入力が検出精度の向上に寄与することや、本データセットで学習したモデルが他データセットにおいても優れた汎化性能を示すことを実証しています。
この論文は、単一画像の摂動ではなく概念の分布を操作する確率的アプローチを採用することで、元の概念を保持しつつ多様で効率的な敵対的サンプルを生成する新たな攻撃フレームワークを提案しています。
この論文は、気象分野でまだあまり利用されていない説明可能なブースティングマシン(EBM)を用いて、知識に基づく機械学習アプローチにより衛星画像からオーバーシュート・トップを特定する解釈可能なモデルを開発し、人間の専門家の戦略と機械学習を融合させた手法を提案しています。
本論文は、分散・異質なデータ環境において視覚言語モデルを効率的に適応させるため、モダリティ固有の層と共有投影層を備えたマルチモーダルアダプターを導入し、個人化と汎化性能の両立を達成する新しいパーソナライズド連合学習フレームワーク「pFedMMA」を提案するものである。
この論文は、長尾分布を持つ分類タスクにおいて、既存のコンフォーマル予測法が抱える「予測セットのサイズ」と「クラス条件付きカバレッジ」のトレードオフを解消し、マクロカバレッジを最適化する新しいスコア関数と補間手法を提案し、大規模な植物画像データセットでその有効性を示したものである。
この論文は、ラベル付きデータが不足している状況でも多様な神経行動分析を可能にするため、マスク付き自己符号化と時間的対照学習を組み合わせて未ラベル動画データから実験固有のビジョントランスフォーマーを事前学習する新しいフレームワーク「BEAST」を提案し、その有効性を複数の種およびタスクで実証したものである。
この論文は、単一画像からプリミティブを推定する CNN 初期化器とノイズのある姿勢推定に対応するパイプラインを導入することで、宇宙環境における高精度な 3D 物体モデルの学習を、必要な画像数と計算コストを大幅に削減しながら実現する手法を提案しています。
本論文は、自律走行における 3D 空間占有予測の精度と効率性を両立させるため、Lift-Splat-Shoot パラダイムを基盤とし、垂直方向の幾何学的情報を明示的に符号化する高さスコア投影と方向認識型畳み込みを導入した「DA-Occ」という純粋な 2D フレームワークを提案し、nuScenes データセットで高精度かつリアルタイム推論を実現したことを述べています。
本論文は、テキストから画像を生成するモデルに仕込まれた悪意のあるバイアス(バックドア攻撃)を、事前知識なしに自動的に検出し、視覚言語モデルと CLIP 導出のトレーニングを用いて画像の品質を維持したまま除去するフレームワーク「AutoDebias」を提案し、その有効性を検証したものである。
本論文は、3D 医療画像セグメンテーションにおいて、自己注意機構に代わって適応フーリエニューラル演算子(AFNO)を採用することで計算効率を向上させながら、最先端の性能を達成する軽量モデル「AMBER-AFNO」を提案し、複数の公開データセットでその有効性を検証したものである。
本論文は、3D シーンへの人間のアニメーション統合における位置決め、衝突回避、スタイル整合、カメラ軌道の制御といった課題を解決し、高品質な動的映像を生成する統合フレームワーク「AnimateScene」を提案するものである。
この論文は、花の帯電したアークトポドとの相互作用によって生じる電場データを深層学習モデル(U-Net)に学習させることで、花の形状を高精度に再構築する新しい手法を開発し、昆虫の電気受容が空間的な詳細情報を伝達し得ることを示したものである。
本論文は、CLIP モデルなどのマルチモーダルモデルが自然画像とは異なる構造的・記号的な情報を持つ図表の理解に課題を抱えている点に着目し、図表の構造的特性を活用した「ハード」サンプルを用いた対照学習と 2 つの専用損失関数を導入する新たな訓練パラダイムを提案し、フローチャットなどの図表理解タスクにおいて既存手法を大幅に上回る性能向上を実証したものです。
本論文は、画像編集における理解モジュールと生成モジュールの役割分担の非対称性を解消するため、複雑な指示理解と編集の設計図を明示的に提供する大規模データセット「Draw-In-Mind」を提案し、これにより小規模モデルでも最先端の画像編集性能を達成することを示しています。
本論文は、高次球面調和関数の代わりに軽量な球面ガウスローブを採用し、プリミティブ数とローブ数の剪定を統合的に最適化する「MEGS」を提案することで、レンダリング時の VRAM 使用量を大幅に削減しつつ画質を維持するメモリ効率の良い 3D ガウススプラッティング手法を確立した。
本論文は、継続的学習における「可塑性の喪失」を軽減するため、活性化関数の形状(負の枝の形状と飽和挙動)を分析し、追加容量やタスク固有の調整なしに汎用的に可塑性を維持できる新しい活性化関数を提案することを示しています。
本論文は、手動の UV マッピングに依存せず、セマンティックな整合性と可視性(目立たない継ぎ目)を考慮した教師なし学習フレームワークを提案し、3D メッシュのパラメータ化を自動化してテクスチャ生成の品質向上と継ぎ目アーティファクトの低減を実現するものである。
本論文は、自動運転を次なる経路点の予測という言語生成問題として再定義し、大規模な専門家データからの模倣学習により nuScenes データセットで最先端の性能を達成する、軽量かつ強力なエンドツーエンド型ビジョン・言語モデル「Max-V1」を提案しています。
本論文は、3D ガウススプラッティングを N 次元の異方性ベータカーネルに一般化した統一フレームワーク「Universal Beta Splatting」を提案し、補助ネットワークを必要とせずに空間・角度・時間的な依存関係を統一的にモデル化することで、リアルタイムレンダリング性能と既存手法を上回る画質を実現するものです。
この論文は、暗所でのロボティクス視覚を強化するため、赤外線画像のノイズを除去し高品質な画像を再構築する「CLEAR-IR」という新しい手法を提案し、既存の技術を上回る性能で RGB 画像で訓練されたタスクを極低照度環境でも実行可能にすることを示しています。