v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound
本論文は、視覚的手がかりと環境音の両方を用いた動画のユーモア理解を評価するための新しいベンチマーク「v-HUB」を提案し、マルチモーダル大規模言語モデルの現状の課題と音声モダリティの重要性を実証しています。
2385 件の論文
本論文は、視覚的手がかりと環境音の両方を用いた動画のユーモア理解を評価するための新しいベンチマーク「v-HUB」を提案し、マルチモーダル大規模言語モデルの現状の課題と音声モダリティの重要性を実証しています。
音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。
本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。
本論文は、ナビゲーションエージェントの空間知能を体系的に評価する新しいベンチマーク「NavSpace」と、それにおいて既存モデルを上回る性能を示す新しいナビゲーションモデル「SNav」を提案するものである。
本論文は、視覚的推論を検証可能な記号問題へと変換し、チャートや図表などの構造化された視覚データに対する推論精度を飛躍的に向上させるために、視覚を可実行コードへ逆変換する「デレンダリング」を活用した新しいエージェントフレームワーク「RECODE」を提案するものです。
本論文は、生成タスクにおいて従来のエキスパートマージ手法よりも優位性を示し、ルーターゲート値とエキスパート活性化ノルムを考慮した新たな剪定基準「REAP」を提案することで、大規模なSMoEモデルの50% 剪定においてもコード生成などのタスクでほぼ損失のない圧縮を実現することを明らかにしています。
本論文は、拡散ビジョモーターポリシーを基盤とした実世界強化学習フレームワーク「RL-100」を提案し、模倣学習と強化学習を統合して 1000 回の試行で 100% の成功率を達成し、人間を超える性能と高い汎用性・頑健性を示したことを報告しています。
本論文は、2D エンコーダの限界を克服し、RGB 画像から強力な 3D 幾何学的事前知識を抽出してアクションヘッドに注入する新たなパラダイム「FALCON」を提案し、シミュレーションおよび実世界タスクにおいて最先端の性能と高い汎用性を達成したことを報告しています。
この論文は、離散的な人間 - 物体相互作用表現と自然言語を統合した新しいフレームワーク「SynHLMA」を提案し、可動部を持つ物体に対する言語指示に基づく一連の巧みな把持動作を生成・予測・補間することを可能にするものである。
この論文は、グラフ基礎モデルの発展に伴い未探索であったグラフドメイン逐次学習(Domain-IL)における catastrophic forgetting を、埋め込みのシフトと決定境界の逸脱を防ぐための知識の解離と保存を可能にする「GraphKeeper」を提案し、既存手法を大幅に上回る性能で達成したことを示しています。
この論文は、構造化正則化、ロバストな前処理、効率的な最適化を通じて過学習を抑制し、多クラス分類におけるロジスティック回帰に基づく再較正手法のバイアス・バリアンスのトレードオフを効果的に管理することで、既存の手法よりも大幅な精度向上を実現する手法を提案し、オープンソース実装を提供しています。
本論文は、トークナイザーの効率性を含む「情報容量」という新たな指標を提案し、大規模言語モデルの推論効率を定量化するとともに、モデルサイズやベンチマークスコアとの相関を実証的に検証したものである。
本論文は、時間系列基盤モデルのデータ価値評価において、従来の手法が抱える計算コストと時系列依存性の課題を解決するため、コンテキスト微調整と時間ブロック集約を活用した軽量かつ高精度な評価手法「LTSV」を提案し、その有効性を検証したものである。
本論文は、医療教育における多輪対話と実体レベルの推論を可能にする新たなタスク「MEMR-Seg」と大規模データセット「MR-MedSeg」を提案し、誤差伝播を軽減する「判定・修正メカニズム」を備えた基線モデル「MediRound」を開発してその有効性を示したものである。
この論文は、事前学習済み時系列基盤モデル(TSFM)のインコンテキスト学習を活用し、微調整や従来の分類モデルの学習なしにサーボプレスモータのベアリング振動データを健康状態ごとに分類する手法を提案し、従来のカスタム AI 解決策を超えたスケーラブルな予知保全システムの実現可能性を示しています。
この論文は、Google Gemini 2.0 Flash を活用したチャットボットと Python による自動化ワークフローを開発し、Gmsh と GetDP を用いて電磁場シミュレーションモデルの構築から求解、および結果の要約までを自動化することで、シミュレーション設定に要する時間を削減する手法を提案しています。
本論文は、追加学習を必要とせず推論時に高信頼かつ多様な特徴を蓄積する適応的多様性キャッシュ(ADC)モジュールを提案し、VLM ベースの人間 - 物体相互作用(HOI)検出における長尾分布の偏りを効果的に軽減し、特に希少カテゴリの検出性能を向上させることを示しています。
この論文は、推論と学習を分離し、オフポリシーバイアスなしで同期 RL と等価な非同期パイプラインを実現する「Periodic Asynchrony」を提案し、NPU 環境において既存フレームワークの 3〜5 倍のトレーニングスループット向上を達成したことを示しています。
本論文は、異なる VLA モデルや実環境への転移が可能なユニバーサルな物理的パッチ攻撃「UPA-RFAS」を提案し、視覚 - 言語 - 行動モデルが未知のアーキテクチャやシミュレーションから実世界への移行においても普遍的な脆弱性を持つことを実証しています。
この論文は、現実世界の通信制約下での協調学習の課題に対処するため、通信条件を統一的に記述する一般化モデルを学習の事前分布として活用し、損失あり・なしのメッセージの影響を双方向相互情報量推定器を用いて分離・定量化する新たなマルチエージェント強化学習フレームワークを提案し、その有効性を検証したものである。