Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

本論文は、画像内の物体間の関係性を捉えるためにシーングラフを視覚的プロンプトとして重ね合わせる「Graph-of-Mark」を提案し、マルチモーダル言語モデルのゼロショット空間推論能力を最大 11 ポイント向上させることを実証しています。

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

この論文は、拡散トランスフォーマー(DiT)ベースの動画生成モデルが抱えるメモリ消費と遅延の問題を解決するため、シーケンス並列推論と因果的ローテート位置埋め込み(Causal-RoPE SP)の導入、および演算融合などのシステム最適化を行い、リアルタイム対話アプリケーションに対応可能な高速な推論を実現したことを報告しています。

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

この論文は、医療分野の視覚言語モデルにおいて連鎖思考(CoT)が直接回答よりも性能を低下させる「医療知覚のボトルネック」を特定し、領域関心提示や高品質な記述によるグラウンディング介入によってこの問題を解決し、CoT の有効性を回復させることを示しています。

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

本論文は、隣接する視覚トークンの共起パターンを「フレーズ単位」で検証する新しいトレーニングフリーの加速フレームワーク「SJD-PV」を提案し、画像生成の推論速度を品質を損なうことなく最大 30% 向上させることを示しています。

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

本論文は、水面環境における特徴の欠如や干渉ノイズといった課題に対処するため、変換器(トランスフォーマー)を用いた微分可能な外パラメータ最適化を統合し、レーダーとカメラの融合検出精度を向上させる「CalibFusion」を提案するものである。

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

画像生成モデルで有効とされる意味ノイズ初期化が動画生成にも転用可能か検証した本研究は、統計的に有意な改善は見られなかったものの、時間的関連性の向上傾向が示唆されたことから、動画生成における初期化スキームの評価にはプロンプトレベルの対比較とノイズ空間の診断が重要であると結論付けています。

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

この論文は、歴史的な油彩画の断面を分析する際、大気や取得アーティファクトの影響を軽減し、解釈性を向上させるために、重み付きスペクトル角度距離(WSAD)損失関数とパッチベースのモデル化を組み合わせた教師なし CNN オートエンコーダーを提案し、ヴァン・エイク兄弟に帰属する「ゲントの祭壇画」の断面データでその有効性を実証したものである。

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

この論文は、長文の科学テキストから参照画像に基づくスタイル適応を可能にし、ネイティブな SVG 形式で完全な編集性を備えた科学図表を生成するエンドツーエンドシステム「AutoFigure-Edit」を提案するものです。

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

本論文は、チャートの深層分析能力の向上に向けた課題として、多様な報酬信号やデータ間の競合を解消する並列相対方策最適化(PRPO)と、エラー注入に基づく客観的評価ベンチマーク(MCDR-Bench)を提案し、これらを通じてチャート深層分析のトレーニングと評価を体系的に改善する統合フレームワークを構築したことを示しています。

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

この論文は、ユーザーによる環境の編集可能性とマルチプレイヤー間の一貫性を確保するため、拡散ゲームエンジンにユーザー行動によって更新・参照される外部メモリを統合し、生成プロセスをメモリ・観測・ダイナミクスに分解する「MultiGen」という新しいアプローチを提案しています。

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

RADAR は、3D 医療画像と研修医による予備報告書および指導医による修正候補を対照させたマルチモーダルベンチマークであり、画像レベルの合意評価、臨床的重症度の判定、編集種類の分類を通じて、放射線報告書のレビュー段階における多モーダルモデルの臨床推論能力を評価することを目的としています。

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

マルチモーダルイベント抽出における連鎖的な誤りを抑制するため、ECHO は共有されたマルチモーダルイベントハイパーグラフを介して専門エージェントを協調させ、リンク後に役割を決定する戦略を用いて最先端の性能を達成する多エージェントフレームワークを提案しています。

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

本論文は、スマートフォンなどのモバイルデバイスで撮影した映像から構造から運動(SfM)技術を用いて資材山を3次元再構築し、個別の骨材をセグメント化してサイズや形状を分析する革新的な手法を提案し、現場での品質保証・管理への応用可能性を示しています。

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

本論文は、視覚入力から現実世界の地理的・時間的推論を行うビジョン・ランゲージモデルの能力を評価するため、80 か国からの 1,455 枚の画像と構造化された予測タスクを含むベンチマーク「TimeSpot」を提案し、既存のモデルが時間的推論において依然として低い性能しか示していないことを明らかにしています。

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

本論文は、マルチモーダル大規模言語モデルによる物語計画と動的メモリバンクを備えた制御モジュールを統合し、長期的な視覚的一貫性と物語の整合性を維持する「Narrative Weaver」を提案するとともに、関連タスクの初となる大規模データセット「EAVSD」を公開し、生成 AI による長編コンテンツ制作の可能性を拓いたことを述べています。

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

この論文は、訓練データが存在しない条件下でも、畳み込みフィルタリングと最適化された早期停止戦略を用いた教師なし学習フレームワークにより、高エネルギー加速器のビーム診断において低信号対雑音比環境でのビームエミッタンス画像の高精度な復元とビームハローの解像度向上を実現する手法を提案しています。

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

本論文は、Hyperspectral Imaging(HSI)データに特化した事前学習を行っていないマルチモーダル基盤モデル「TerraMind」の適応性を検証し、バンド選択による中程度の性能低下は認められるものの、HSI 固有のトークン化を備えたモデルの優位性を示唆し、将来のアーキテクチャ設計における重要な基盤を確立した。

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs