Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting
本論文は、画像内の物体間の関係性を捉えるためにシーングラフを視覚的プロンプトとして重ね合わせる「Graph-of-Mark」を提案し、マルチモーダル言語モデルのゼロショット空間推論能力を最大 11 ポイント向上させることを実証しています。
1877 件の論文
本論文は、画像内の物体間の関係性を捉えるためにシーングラフを視覚的プロンプトとして重ね合わせる「Graph-of-Mark」を提案し、マルチモーダル言語モデルのゼロショット空間推論能力を最大 11 ポイント向上させることを実証しています。
この論文は、拡散トランスフォーマー(DiT)ベースの動画生成モデルが抱えるメモリ消費と遅延の問題を解決するため、シーケンス並列推論と因果的ローテート位置埋め込み(Causal-RoPE SP)の導入、および演算融合などのシステム最適化を行い、リアルタイム対話アプリケーションに対応可能な高速な推論を実現したことを報告しています。
この論文は、医療分野の視覚言語モデルにおいて連鎖思考(CoT)が直接回答よりも性能を低下させる「医療知覚のボトルネック」を特定し、領域関心提示や高品質な記述によるグラウンディング介入によってこの問題を解決し、CoT の有効性を回復させることを示しています。
本論文は、隣接する視覚トークンの共起パターンを「フレーズ単位」で検証する新しいトレーニングフリーの加速フレームワーク「SJD-PV」を提案し、画像生成の推論速度を品質を損なうことなく最大 30% 向上させることを示しています。
本論文は、水面環境における特徴の欠如や干渉ノイズといった課題に対処するため、変換器(トランスフォーマー)を用いた微分可能な外パラメータ最適化を統合し、レーダーとカメラの融合検出精度を向上させる「CalibFusion」を提案するものである。
画像生成モデルで有効とされる意味ノイズ初期化が動画生成にも転用可能か検証した本研究は、統計的に有意な改善は見られなかったものの、時間的関連性の向上傾向が示唆されたことから、動画生成における初期化スキームの評価にはプロンプトレベルの対比較とノイズ空間の診断が重要であると結論付けています。
この論文は、歴史的な油彩画の断面を分析する際、大気や取得アーティファクトの影響を軽減し、解釈性を向上させるために、重み付きスペクトル角度距離(WSAD)損失関数とパッチベースのモデル化を組み合わせた教師なし CNN オートエンコーダーを提案し、ヴァン・エイク兄弟に帰属する「ゲントの祭壇画」の断面データでその有効性を実証したものである。
この論文は、長文の科学テキストから参照画像に基づくスタイル適応を可能にし、ネイティブな SVG 形式で完全な編集性を備えた科学図表を生成するエンドツーエンドシステム「AutoFigure-Edit」を提案するものです。
この論文は、限られたアノテーションデータ条件下でトウモロコシ、イネ、小麦の葉病を高精度に分類し、Grad-CAM による可視化で意思決定の透明性を確保する、XAI と少数ショット学習を統合したハイブリッド分類モデルを提案するものである。
本論文は、チャートの深層分析能力の向上に向けた課題として、多様な報酬信号やデータ間の競合を解消する並列相対方策最適化(PRPO)と、エラー注入に基づく客観的評価ベンチマーク(MCDR-Bench)を提案し、これらを通じてチャート深層分析のトレーニングと評価を体系的に改善する統合フレームワークを構築したことを示しています。
この論文は、ユーザーによる環境の編集可能性とマルチプレイヤー間の一貫性を確保するため、拡散ゲームエンジンにユーザー行動によって更新・参照される外部メモリを統合し、生成プロセスをメモリ・観測・ダイナミクスに分解する「MultiGen」という新しいアプローチを提案しています。
本論文は、画像内の視認性と視点推論を評価し、モデルが「見える/見えない」を判断するだけでなく、人間にも判断できない場合に棄権できる能力を検証する新しいベンチマーク「VB」を提案し、主要な大規模言語モデルの性能を比較評価したものである。
RADAR は、3D 医療画像と研修医による予備報告書および指導医による修正候補を対照させたマルチモーダルベンチマークであり、画像レベルの合意評価、臨床的重症度の判定、編集種類の分類を通じて、放射線報告書のレビュー段階における多モーダルモデルの臨床推論能力を評価することを目的としています。
マルチモーダルイベント抽出における連鎖的な誤りを抑制するため、ECHO は共有されたマルチモーダルイベントハイパーグラフを介して専門エージェントを協調させ、リンク後に役割を決定する戦略を用いて最先端の性能を達成する多エージェントフレームワークを提案しています。
本論文は、スマートフォンなどのモバイルデバイスで撮影した映像から構造から運動(SfM)技術を用いて資材山を3次元再構築し、個別の骨材をセグメント化してサイズや形状を分析する革新的な手法を提案し、現場での品質保証・管理への応用可能性を示しています。
本論文は、視覚入力から現実世界の地理的・時間的推論を行うビジョン・ランゲージモデルの能力を評価するため、80 か国からの 1,455 枚の画像と構造化された予測タスクを含むベンチマーク「TimeSpot」を提案し、既存のモデルが時間的推論において依然として低い性能しか示していないことを明らかにしています。
本論文は、マルチモーダル大規模言語モデルによる物語計画と動的メモリバンクを備えた制御モジュールを統合し、長期的な視覚的一貫性と物語の整合性を維持する「Narrative Weaver」を提案するとともに、関連タスクの初となる大規模データセット「EAVSD」を公開し、生成 AI による長編コンテンツ制作の可能性を拓いたことを述べています。
この論文は、訓練データが存在しない条件下でも、畳み込みフィルタリングと最適化された早期停止戦略を用いた教師なし学習フレームワークにより、高エネルギー加速器のビーム診断において低信号対雑音比環境でのビームエミッタンス画像の高精度な復元とビームハローの解像度向上を実現する手法を提案しています。
本論文は、Hyperspectral Imaging(HSI)データに特化した事前学習を行っていないマルチモーダル基盤モデル「TerraMind」の適応性を検証し、バンド選択による中程度の性能低下は認められるものの、HSI 固有のトークン化を備えたモデルの優位性を示唆し、将来のアーキテクチャ設計における重要な基盤を確立した。
この論文は、移動ロボット向けの一人称視点におけるシャトルコック検出の課題を解決するため、新規データセットと半自動アノテーションパイプラインを導入し、YOLOv8 を最適化してリアルタイムかつ頑健な検出を実現するフレームワークを提案するものです。