PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

この論文は、視覚的証拠の誤った認識を伴う推論プロセスの幻覚を解消し、最終的な正解だけでなく推論プロセス自体を視覚的事実と整合させるためのフレームワーク「PaLMR」を提案し、Qwen2.5-VL-7B における HallusionBench などで SOTA 性能を達成したことを報告しています。

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

本論文では、ConvNeXt のバックボーンを凍結し、効率的な畳み込みを用いた特徴補正ブロック(FCB)と軽量デコーダを組み合わせた FCBNet を提案し、多スペクトル航空画像における雑草検出において、高精度かつ計算効率の面で既存モデルを上回る性能を実証しています。

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

本論文は、人間のゲームプレイにおける「行動・反省・再挑戦」のループを模倣し、失敗事例と専門家のチュートリアル動画を組み合わせることで視覚言語モデル(VLM)の戦略を学習・改善させることを可能にする新しいベンチマーク「GameVerse」を提案し、その有効性を示しています。

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

この論文は、生成 AI が科学リテラシーの定義や教育課題を再考させ、科学知識と推論の教授・学習・評価の一貫性を高めるためのアーキテクチャの構築とその実装、さらには今後の研究開発の方向性を論じています。

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

本論文は、画像内の物体間の関係性を捉えるためにシーングラフを視覚的プロンプトとして重ね合わせる「Graph-of-Mark」を提案し、マルチモーダル言語モデルのゼロショット空間推論能力を最大 11 ポイント向上させることを実証しています。

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

この論文は、拡散トランスフォーマー(DiT)ベースの動画生成モデルが抱えるメモリ消費と遅延の問題を解決するため、シーケンス並列推論と因果的ローテート位置埋め込み(Causal-RoPE SP)の導入、および演算融合などのシステム最適化を行い、リアルタイム対話アプリケーションに対応可能な高速な推論を実現したことを報告しています。

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

この論文は、医療分野の視覚言語モデルにおいて連鎖思考(CoT)が直接回答よりも性能を低下させる「医療知覚のボトルネック」を特定し、領域関心提示や高品質な記述によるグラウンディング介入によってこの問題を解決し、CoT の有効性を回復させることを示しています。

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

本論文は、エッジ環境における AI サービスとマイクロサービスのハイブリッドなオーケストレーション問題に対し、グラフ注意ネットワークと自己模倣学習を統合した強化学習フレームワーク「SIL-GPO」を提案し、既存手法を凌駕する低遅延かつ高効率なサービス提供を実現することを示しています。

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

本論文は、水面環境における特徴の欠如や干渉ノイズといった課題に対処するため、変換器(トランスフォーマー)を用いた微分可能な外パラメータ最適化を統合し、レーダーとカメラの融合検出精度を向上させる「CalibFusion」を提案するものである。

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

画像生成モデルで有効とされる意味ノイズ初期化が動画生成にも転用可能か検証した本研究は、統計的に有意な改善は見られなかったものの、時間的関連性の向上傾向が示唆されたことから、動画生成における初期化スキームの評価にはプロンプトレベルの対比較とノイズ空間の診断が重要であると結論付けています。

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

この論文は、長文の科学テキストから参照画像に基づくスタイル適応を可能にし、ネイティブな SVG 形式で完全な編集性を備えた科学図表を生成するエンドツーエンドシステム「AutoFigure-Edit」を提案するものです。

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

本論文は、チャートの深層分析能力の向上に向けた課題として、多様な報酬信号やデータ間の競合を解消する並列相対方策最適化(PRPO)と、エラー注入に基づく客観的評価ベンチマーク(MCDR-Bench)を提案し、これらを通じてチャート深層分析のトレーニングと評価を体系的に改善する統合フレームワークを構築したことを示しています。

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

この論文は、ユーザーによる環境の編集可能性とマルチプレイヤー間の一貫性を確保するため、拡散ゲームエンジンにユーザー行動によって更新・参照される外部メモリを統合し、生成プロセスをメモリ・観測・ダイナミクスに分解する「MultiGen」という新しいアプローチを提案しています。

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

本論文は、マルチモーダル大規模言語モデルによる物語計画と動的メモリバンクを備えた制御モジュールを統合し、長期的な視覚的一貫性と物語の整合性を維持する「Narrative Weaver」を提案するとともに、関連タスクの初となる大規模データセット「EAVSD」を公開し、生成 AI による長編コンテンツ制作の可能性を拓いたことを述べています。

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

この論文は、放射線科医の視覚的検索プロセスを捉えた時間順の視線追跡データを「視線トークン」として VLM に導入し、医療画像の視覚的推論を人間のように順序立てて行うことで、MIMIC-EYE などのベンチマークにおいて最先端の性能とドメイン外での頑健性を達成した手法を提案しています。

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

本論文は、Syntax Guided Synthesis 技術と TSLf_f(Temporal Stream Logic の有限接頭辞解釈)を組み合わせることで、ブール値抽象化の限界を超え、データ変換と時制仕様を同時に学習し、より頑健かつ効率的にリアクティブプログラムを合成する手法を提案しています。

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

本論文は、大規模なツール環境において小規模言語モデル(SLM)がコンテキストの制御と実行構造を学習し、ルブリックに基づく強化学微細調整を通じて、パラメータやコンテキスト制約が厳しい条件下でも最先端のエージェントに匹敵する性能を発揮できるようにする「ATLAS」というフレームワークを提案するものである。

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG