OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection
本論文は、ステージングデータ、合成データ、実世界の事故動画という 3 つのドメインを統合し、プライバシーに配慮しつつ実環境での転送性能を評価できる包括的なフォール検出ベンチマーク「OmniFall」を提案し、合成データが実ステージングデータを凌駕する可能性を示しています。
7536 件の論文
本論文は、ステージングデータ、合成データ、実世界の事故動画という 3 つのドメインを統合し、プライバシーに配慮しつつ実環境での転送性能を評価できる包括的なフォール検出ベンチマーク「OmniFall」を提案し、合成データが実ステージングデータを凌駕する可能性を示しています。
本論文は、拡散モデルを用いた画像編集において、構造的な変化や非剛体変形を伴う編集でもアーティファクトを抑制し、ソース画像の構造やテクスチャを正確に維持しながら高品質な結果を得るために、対応関係に基づくノイズ補正と補間アテンションマップを導入した新しいフレームワーク「Cora」を提案するものである。
本論文は、既存の歩行者軌道予測モデルに環境との衝突を回避する能力を付与し、ETH/UCY データセットでの実験により衝突発生率を大幅に低減したコントラスト学習ベースのモジュール「ECAM」を提案するものである。
この論文は、大規模言語モデル(LLM)の知識を活用してテキスト情報を強化し、CLIP による画像・テキスト埋め込みの融合と多重アテンション機構を組み合わせることで、クロスドメイン逐次推薦の精度を大幅に向上させる新しい手法「LLM-EMF」を提案し、複数の電子商取引データセットでの実験によりその有効性を実証したものです。
この論文は、教師モデルのバイアスに起因する長尾分布における知識蒸留の課題を解決するため、予測分布の誤差をグループ間・グループ内で分解し、再重み付けされた損失関数を用いてバランスの取れた知識を抽出する新しいフレームワーク「LTKD」を提案し、複数のデータセットで既存手法を上回る性能を実証しています。
この論文は、SFT と RLVR のトレードオフを動的に調整する「DyME」という新たな学習パラダイムと視覚的監視メカニズムを提案し、小規模な視覚言語モデル(SVLM)に安定した推論能力を付与することで、専門分野における性能を大幅に向上させることを示しています。
本論文は、熱帯林の樹冠検出を目的とした、3 カ国にまたがり 8 万 3 千以上の手動ラベル付き高解像度ドローン画像を含む「SelvaBox」という大規模オープンデータセットを公開し、高解像度入力が検出精度の向上に寄与することや、本データセットで学習したモデルが他データセットにおいても優れた汎化性能を示すことを実証しています。
この論文は、単一画像の摂動ではなく概念の分布を操作する確率的アプローチを採用することで、元の概念を保持しつつ多様で効率的な敵対的サンプルを生成する新たな攻撃フレームワークを提案しています。
この論文は、気象分野でまだあまり利用されていない説明可能なブースティングマシン(EBM)を用いて、知識に基づく機械学習アプローチにより衛星画像からオーバーシュート・トップを特定する解釈可能なモデルを開発し、人間の専門家の戦略と機械学習を融合させた手法を提案しています。
本論文は、分散・異質なデータ環境において視覚言語モデルを効率的に適応させるため、モダリティ固有の層と共有投影層を備えたマルチモーダルアダプターを導入し、個人化と汎化性能の両立を達成する新しいパーソナライズド連合学習フレームワーク「pFedMMA」を提案するものである。
この論文は、長尾分布を持つ分類タスクにおいて、既存のコンフォーマル予測法が抱える「予測セットのサイズ」と「クラス条件付きカバレッジ」のトレードオフを解消し、マクロカバレッジを最適化する新しいスコア関数と補間手法を提案し、大規模な植物画像データセットでその有効性を示したものである。
この論文は、ラベル付きデータが不足している状況でも多様な神経行動分析を可能にするため、マスク付き自己符号化と時間的対照学習を組み合わせて未ラベル動画データから実験固有のビジョントランスフォーマーを事前学習する新しいフレームワーク「BEAST」を提案し、その有効性を複数の種およびタスクで実証したものである。
この論文は、単一画像からプリミティブを推定する CNN 初期化器とノイズのある姿勢推定に対応するパイプラインを導入することで、宇宙環境における高精度な 3D 物体モデルの学習を、必要な画像数と計算コストを大幅に削減しながら実現する手法を提案しています。
本論文は、自律走行における 3D 空間占有予測の精度と効率性を両立させるため、Lift-Splat-Shoot パラダイムを基盤とし、垂直方向の幾何学的情報を明示的に符号化する高さスコア投影と方向認識型畳み込みを導入した「DA-Occ」という純粋な 2D フレームワークを提案し、nuScenes データセットで高精度かつリアルタイム推論を実現したことを述べています。
本論文は、テキストから画像を生成するモデルに仕込まれた悪意のあるバイアス(バックドア攻撃)を、事前知識なしに自動的に検出し、視覚言語モデルと CLIP 導出のトレーニングを用いて画像の品質を維持したまま除去するフレームワーク「AutoDebias」を提案し、その有効性を検証したものである。
本論文は、3D 医療画像セグメンテーションにおいて、自己注意機構に代わって適応フーリエニューラル演算子(AFNO)を採用することで計算効率を向上させながら、最先端の性能を達成する軽量モデル「AMBER-AFNO」を提案し、複数の公開データセットでその有効性を検証したものである。
本論文は、3D シーンへの人間のアニメーション統合における位置決め、衝突回避、スタイル整合、カメラ軌道の制御といった課題を解決し、高品質な動的映像を生成する統合フレームワーク「AnimateScene」を提案するものである。
この論文は、花の帯電したアークトポドとの相互作用によって生じる電場データを深層学習モデル(U-Net)に学習させることで、花の形状を高精度に再構築する新しい手法を開発し、昆虫の電気受容が空間的な詳細情報を伝達し得ることを示したものである。
本論文は、CLIP モデルなどのマルチモーダルモデルが自然画像とは異なる構造的・記号的な情報を持つ図表の理解に課題を抱えている点に着目し、図表の構造的特性を活用した「ハード」サンプルを用いた対照学習と 2 つの専用損失関数を導入する新たな訓練パラダイムを提案し、フローチャットなどの図表理解タスクにおいて既存手法を大幅に上回る性能向上を実証したものです。
本論文は、画像編集における理解モジュールと生成モジュールの役割分担の非対称性を解消するため、複雑な指示理解と編集の設計図を明示的に提供する大規模データセット「Draw-In-Mind」を提案し、これにより小規模モデルでも最先端の画像編集性能を達成することを示しています。