Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy
この論文は、視覚言語モデル(VLM)を用いて人手による報酬設計を不要とし、多様な静的・動的・関節物体との長期的な人間 - 物体相互作用を物理ベースで自動生成する新たなフレームワーク「VLM-Guided RMD」と、それを支える大規模データセット「Interplay」を提案するものです。
5489 件の論文
この論文は、視覚言語モデル(VLM)を用いて人手による報酬設計を不要とし、多様な静的・動的・関節物体との長期的な人間 - 物体相互作用を物理ベースで自動生成する新たなフレームワーク「VLM-Guided RMD」と、それを支える大規模データセット「Interplay」を提案するものです。
本論文は、物体間の相互作用が乏しい既存のテキストから画像生成モデルの課題を解決するため、マルチモーダル大規模言語モデルを用いて相互作用に特化したデータセット「\data」を構築し、生成画像を分解・批判・部分拡散プロセスによる精緻化を行う手法「\model」を提案し、その有効性を示したものである。
本論文は、テキストから画像を生成するシステムが持つ「記憶機能」を悪用し、セグメンテーションと再帰処理を組み合わせて多回対話で安全フィルターを回避する新たなジェイルブレイク攻撃手法「Inception」を提案し、その実世界プラットフォームにおける有効性を示したものである。
本論文は、超音波画像における希少甲状腺癌の分類課題を解決するため、EfficientNet と ViT を統合した二重ブランチ注意ネットワーク(CSASN)を提案し、多施設データを用いた実験で既存モデルを上回る性能と不均衡データ下での安定性を実証したものである。
この論文は、iPhone のポートレートモード画像に見られる「Apple 合成ボケノイズパターン(SDNP)」を詳細に特徴付け、その推定手法を提案するとともに、PRNU に基づくカメラソース検証における誤検出を大幅に低減し、画像の追跡可能性を向上させる法医学的応用を明らかにしたものである。
本論文は、視覚トークンプルーニングにおけるプロンプト整合性と視覚保存のトレードオフをハウスドルフ距離に基づく誤差限界とε-被覆理論で定式化し、これらを最適にバランスさせる「Multi-Objective Balanced Covering (MoB)」を提案することで、LLaVA などの大規模マルチモーダルモデルにおいてトークン数を大幅に削減しつつ性能を維持する手法を開発した。
本論文は、複雑なレイアウトやナスターリク文字の課題に直面するウルドゥー語新聞のテキスト認識において、YOLOv11x と超解像技術による前処理を組み合わせ、新しいデータセット「UNB」を用いて従来の OCR と大規模言語モデル(LLM)を比較評価し、特に少量のドメイン固有データで微調整した LLM の高い適応性を示した研究です。
この論文は、理論的根拠を持つ極めて単純かつ高速な「Feature Mixing」という手法と、新しいマルチモーダルデータセット「CARLA-OOD」を提案し、安全クリティカルなアプリケーションにおけるアウト・オブ・ディストリビューション(OOD)検出とセグメンテーションの性能を大幅に向上させ、最先端の結果を達成したことを報告しています。
本論文は、デジタル行動変容における曖昧さや躊躇(A/H)の自動認識を可能にするため、300 名の参加者から収集され専門家によって注釈付けされたマルチモーダル動画データセット「BAH」を公開し、そのベンチマーク評価を通じて既存モデルの限界と今後の課題を明らかにしています。
この論文は、拡散モデルを用いて学習の初期段階で十分に学習されていないサンプルのみを標的に合成データを生成する「TADA」というフレームワークを提案し、データセット全体を拡張する既存手法よりも少ない計算コストで、画像分類や物体検出の汎化性能を大幅に向上させることを示しています。
本研究は、受動的回折層と浅いニューラルネットワークを統合した低消費電力かつ低コストな光学システムを開発し、従来の手法よりも 1 桁以上精度を向上させて構造物の 3 次元振動スペクトルをリアルタイムで遠隔監視する新しい手法を提案しています。
本論文は、点群、3D 手の姿勢、テキスト記述などの豊富な外部視点観測情報を用いて、従来の手法の制約を克服し、拡張現実やロボット工学などの応用に不可欠な外部視点から内部視点への視覚変換を実現する新しいフレームワーク「EgoWorld」を提案し、複数のデータセットで最先端の性能と優れた汎化能力を実証しています。
この論文は、高コストな完全なアノテーションに依存せず、部分的な弱教師データと未ラベルデータを効率的に活用して、既存の半教師あり手法に匹敵または凌駕する性能を実現する新たな「部分的弱教師あり向き物体検出(PWOOD)」フレームワークを提案するものである。
この論文は、ラグランジュ乗数法と補助的な PnP 去噪器を活用して、教師なし学習における深層イメージングネットワークの訓練を大幅に加速し、性能も向上させる「Fast Equivariant Imaging(FEI)」という新しいフレームワークを提案しています。
この論文は、文書画像の歪み補正において既存手法が水平方向のみに焦点を当てていたのに対し、水平・垂直両方向の幾何学的特徴を統合する「D2Dewarp」モデルと、注釈付きライン特徴を自動生成する大規模データセット「DocDewarpHV」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。
従来のフローマッチングや拡散モデルが抱える反復的な条件付けによる計算コストの課題を解決するため、視覚表現から直接潜在行動へマッピングする「VITA」を提案し、行動の自己符号化器とフロー潜在デコーディングにより、推論速度を 1.5〜2 倍に向上させつつ最先端の性能を達成しました。
この論文は、組織病理学スライドの分類において、局所性と翻訳等変換性を保持する「持続的ホモロジー畳み込み」を導入することで、従来のモデルや大域トポロジー要約を用いる手法よりも優れた性能と安定性を達成する新しい手法を提案しています。
本論文は、訓練後に固定される従来の手法の限界を克服し、テスト画像ごとに動的にプロンプトを調整する「画像適応型プロンプト学習(IAPL)」を提案することで、未知の生成器による偽造画像に対する検出性能と汎化能力を大幅に向上させることを目指しています。
本論文は、既存の順序集合や時系列のどちらの手法にもある限界を克服するため、歩行をランダムに抽出した連続フレームの断片(スニペット)の組み合わせとして捉え、マルチスケールの時間的コンテキストを統合することで歩行認識精度を向上させる「GaitSnippet」を提案し、複数のデータセットでその有効性を実証しています。
この論文は、大規模視覚言語モデルに連鎖思考(CoT)とグループ相対方策最適化(GRPO)を組み合わせて導入した「Veason-R1」を提案し、推論の解釈性と時空間推論能力を強化することで、動画推論セグメンテーションの性能を飛躍的に向上させたことを報告しています。