Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment
この論文は、アノテーションを必要とせず、テスト時のデータ拡張と予測バウンディングボックスの空間的一貫性を測定することで、実環境における物体検出モデルの信頼性を評価する新しい指標「累積合意スコア(CCS)」を提案し、その有効性と理論的根拠を実証しています。
1871 件の論文
この論文は、アノテーションを必要とせず、テスト時のデータ拡張と予測バウンディングボックスの空間的一貫性を測定することで、実環境における物体検出モデルの信頼性を評価する新しい指標「累積合意スコア(CCS)」を提案し、その有効性と理論的根拠を実証しています。
本論文は、都市の街路樹インベントリを効率化するため、2 つの都市で収集された 2 万 1,007 件のアノテーション付き木々を含む大規模なマルチモーダルデータセット「WHU-STree」を提案し、その多様なタスクへの適用性と将来の課題を検証するものです。
本論文は、制限された計算資源やプライバシー制約下でも実用的な産業環境で動作する、5 つの役割特化型エージェントと安全チェックアウディット、および適応的ステップ融合(ASF)を採用したマルチエージェント協調アシスタント「MICA」を提案し、その有効性をベンチマークと評価指標を用いて実証するものである。
この論文は、大規模視覚言語モデル(LVLM)が文脈的不整合下で物体認識に失敗する現象を「ORIC」フレームワークを用いて分析し、不整合な文脈における認識精度の低下を実証するとともに、視覚強化学習による微調整でモデルの信頼性を向上させる手法を提案しています。
本論文は、イベントカメラのバイナリ構造とフーリエ領域の高速相互相関を用いて処理遅延を 2.88ms に抑え、昼夜・室内外を問わず 3000 メートル以上で横逸脱誤差 15cm 未満のリアルタイム視覚教示・反復ナビゲーションを実現するシステムを提案するものである。
この論文は、既存の動画ベンチマークが音声情報を過小評価していることを実証し、音声エンコーダーを統合した新しいモデルが音声理解やクロスモーダルなタスクにおいて明確な性能向上をもたらすことを示しています。
本論文は、単一の画像から高忠実度な表面と SDF 場を数秒で効率的に再構築し、ロボットにおける表面追従タスクへの応用を可能にする軽量フレームワーク「FINS」を提案するものである。
本論文は、大規模な 3D 再構築モデル VGGT の推論コストを削減するため、重み付きトークンによる重たい分布やマルチビューデータの不安定性という課題を解決し、4 ビット量子化で 3.7 倍のメモリ削減と 2.5 倍の高速化を実現する新しい量子化フレームワーク「QuantVGGT」を提案する。
本論文は、検出と追跡クエリを単一のデコーダ層で処理する既存の DETR 系フレームワークの課題を克服するため、フレーム間での物体運動を明示的に予測して追跡クエリを事前に更新する「Motion-Aware Transformer(MATR)」を提案し、DanceTrack や SportsMOT などの主要ベンチマークで最先端の性能を達成したことを示しています。
本論文は、3D ガウススプラッティングに基づく高忠実度メッシュ再構成のために、外部モデルに依存せず反射面にも頑健な材料感知最適化フレームワーク「GS-2M」を提案し、多視点フォトメトリック変動に基づく粗さ監視戦略を用いて最先端の手法と同等の精度を達成することを示しています。
本論文は、ビジョン・ファウンデーションモデルを教師として活用し、セマンティックセグメンテーションと深度推定を同時に行う効率的なドメイン適応型マルチタスク学習フレームワーク「FAMDA」を提案し、合成から実世界への転移や昼夜間適応において最先端の性能と軽量性を両立させることを示しています。
本論文は、モデル量子化とアテンション疎化を統合し、マルチスケールな注目蒸留と第二次数疎アテンション再パラメトリゼーションを導入することで、HunyuanVideo-13B において既存の量子化手法を大幅に上回る画質を維持しつつ、ストレージを 3.68 倍、推論速度を 1.88 倍に改善する「QuantSparse」という動画生成トランスフォーマーの圧縮フレームワークを提案しています。
本論文は、テキスト、音楽、先行モーションなど多様な入力に基づき、リクトファインフローと RAG モジュールを活用して、二人間の協調的なインタラクティブおよびリアクティブな 3D 運動を高速かつ高精度に生成する統合フレームワーク「DualFlow」を提案し、その性能を多角的なベンチマークで実証したものである。
本論文では、血流力学のナビエ - ストークス方程式に基づいて脈動信号が二次動的システムに従うことを理論的に示し、これを基にゼロ演算量の軸交換モジュール、適応的空間フィルタ、ゲート付き TCN を組み合わせた軽量かつ高精度な物理駆動型 rPPG モデル「PHASE-Net」を提案し、頭部運動や照明変化に対するロバスト性と実用性を両立させています。
本論文は、眼科における視力障害疾患の診断支援とバイアス評価を目的として、12 の疾患と 5 つの画像モダリティにまたがる大規模なマルチモーダルデータセット「LMOD+」と、24 種類の最先端マルチモーダル大規模言語モデルの包括的ベンチマークを提案し、その性能限界と将来の可能性を明らかにしたものである。
本論文は、自己回帰型動画拡散モデルにおいて、生成された動画の任意のフレームを任意の物体に対してインタラクティブにドラッグ操作し、潜空間のドリフトや文脈干渉を抑制するトレーニング不要な手法「DragStream」を提案し、ストリーミング型のドラッグ指向動画操作タスク「REVEL」を実現するものである。
本論文は、強化学習と自己ロールアウト機構を組み合わせることで、リアルタイムかつ高精度な運動制御を実現し、既存の拡散モデルに比べて大幅な遅延低減と高画質を両立する初の RL 強化型少量ステップ自己回帰動画生成モデル「AR-Drag」を提案するものである。
本論文は、2018 年から 2025 年にかけて脳 MRI 画像の異常検出に応用された教師なし深生成モデルに関する 33 件の研究を体系的にレビューし、その潜在的可能性と方法論的な課題、そして今後の臨床的有用性を高めるための新たな方向性を明らかにしたものである。
本論文は、音声と視覚の連続学習におけるモダリティの干渉を解決するため、マルチモーダルなサンプル選択と衝突に基づくリハーサル機構を組み合わせた新しいフレームワークを提案し、音声誘導型の連続オーディオ・ビジュアルセグメンテーションタスクにおける性能向上を実証しています。
本論文は、自律走行の知覚タスクにおける合成データの有用性を検証し、3D 資産を駆使して多視点のコーナーケースを大規模に生成する新たなフレームワーク「Dream4Drive」と大規模 3D アセットデータセット「DriveObj3D」を提案し、下流の知覚モデルの性能向上を実証しています。