OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

本論文は、地球観測における視覚言語モデル(VLM)の性能を包括的に評価するための新しいベンチマーク「OmniEarth」を提案し、知覚・推論・頑健性の 3 つの次元で 28 のタスクを定義し、既存モデルが地理空間的に複雑なタスクにおいて依然として課題を抱えていることを示しています。

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

本論文は、視覚オブジェクトとテキストエンティティ間の関係抽出タスク(MORE)において、既存手法の限界を克服し、教師あり微調整(SFT)による高品質な段階的推論データセットの構築と、グループ相対方策最適化(GRPO)を用いた強化学習を組み合わせることで、大規模視覚言語モデル(LVLM)の推論能力を飛躍的に向上させ、最先端の性能を達成した「MORE-R1」を提案するものです。

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

本論文は、視覚トークンの冗長性を削減しつつ本質的な情報を保持するために、意味的クラスタリングとグループ内非最大値抑制を組み合わせたトレーニング不要の手法「PruneSID」を提案し、LLaVA シリーズなど多様な VLM において既存手法を上回る高精度と高速推論を実現したことを報告するものです。

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

本論文は、物理的制約を考慮したハイブリッド損失関数と大規模なスタイル別指令データセットを活用し、Qwen3-VL-4B を基盤とした「StyleVLA」を提案することで、既存の VLA モデルや Gemini-3-Pro などのプロプライエタリモデルを上回る、多様な運転スタイルと物理的実現性を兼ね備えた自律運転を実現する手法を提示しています。

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes BetzWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

この論文は、自己注意エンコーディングと座標保持融合を用いたコンポーネント意識型の自己洗練フレームワークを提案し、既存の GAN や拡散モデルを上回る高忠実度かつ高品質なスケッチから画像への生成を実現するものである。

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

本論文は、時間的依存関係の活用不足と露出バイアスを解決するため、非対称な生成戦略と暗黙的なオプティカルフローモデリングを組み合わせた「対角蒸留(Diagonal Distillation)」を提案し、高品質な動画ストリーミング生成をリアルタイム(最大 31 FPS)で実現する手法を開発しました。

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

この論文は、複雑化する規制への対応を目的として、異なる視点間の調整を可能にする統合的なコンプライアンス・バイ・デザインを実現するための「規制要件工学のためのアーティファクトモデル(AM4RRE)」の合成と今後の評価計画について報告し、学術的な議論を喚起することを目的としています。

Oleksandr KosenkovWed, 11 Ma💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

本論文は、手術ビデオ理解における組織やタスクの多様性という課題に対処するため、言語ガイダンスを用いたチャネル選択とハイパーアグリゲーションを導入し、ロボット支援低侵襲手術のセグメンテーションと深度推定を統合的に学習するマルチタスク連合学習フレームワーク「SurgFed」を提案し、複数の公開データセットで最先端の性能を達成したことを示しています。

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

本論文は、任意精度演算のオーバーヘッドを回避し、異なる素数法の下で並列計算を行うマルチモジュラー手法と多項式推論を組み合わせることで、大規模オペランドを持つ算術回路の語レベル検証を効率的に行うハイブリッド手法「TalisMan2.0」を提案し、その有効性を乗算器ベンチマークで実証したものである。

Clemens Hofstadler, Daniela Kaufmann, Chen ChenWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

本論文は、自動運転における視覚言語モデル(VLM)が応答の一貫性や時間的推論の欠如により信頼性に課題を抱えていることを指摘し、未来のシーン推論を評価する新たなベンチマーク「FutureVQA」と、時間ラベルを必要としない自己教師ありチューニング手法を提案するものである。

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

この論文は、現実世界の非マルコフ的かつ長期の操作タスクを評価するための新しいベンチマーク「RuleSafe」を提案し、過去の状態を離散潜在トークンに符号化する「VQ-Memory」を導入することで、既存の Vision-Language-Action モデルの長期計画能力と汎化性能を向上させる手法を提示しています。

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai ChenjiaWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

本論文では、センサー劣化や敵対的攻撃といった現実世界の課題に対処するため、既存の BEV 知覚モデルにプラグアンドプレイで適用可能であり、潜在世界モデルを用いて汚染された観測からクリーンな特徴を予測・復元する強健な手法「RESBev」を提案し、nuScenes データセットでの実験によりその有効性を示しています。

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

DCAU-Net は、2 つの独立した softmax 注意マップの差分を計算して識別構造を強調し、計算複雑度を低減する「差分クロス注意(DCA)」と、スキップ接続とアップサンプリング経路からの特徴を適応的に再較正する「チャネル・空間特徴融合(CSFF)」を導入することで、医療画像セグメンテーションの精度と頑健性を向上させる新しいフレームワークを提案しています。

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

本論文は、大規模言語モデルを活用して指導内容の意味に即した音声とジェスチャーを動的に生成する教育エージェント手法を提案し、VR 環境での実験により、学習者の学習効果や関与度の向上、疲労感の軽減、そして人間らしさや社会的臨場感の増大が確認されたことを報告しています。

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

この論文は、大規模なマルチモーダル交差データに依存せず、既存の統一モデルにグループ相対方策最適化(GRPO)を拡張した強化学習アプローチを導入することで、視覚的物語や段階的推論などのタスクにおける高品質なマルチモーダル交差生成を実現する手法を提案しています。

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

この論文は、動的かつ人間が関与する環境における Embodied Question Answering(EQA)の課題を解決するため、新しいデータセット「DynHiL-EQA」と、曖昧な観測の検証と情報豊富な証拠の選択的保持により推論効率と頑健性を両立させるトレーニング不要のフレームワーク「DIVRR」を提案しています。

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

この論文は、記号エンコーダによる構造化プリミティブの抽出、記号ソルバによるデータ効率の高い動作シーケンス生成、およびオンライン強化学習による広範な探索を統合したニューロ記号型視覚言語動作モデル(NS-VLA)を提案し、ロボット操作タスクにおいて従来の手法を上回るデータ効率、ゼロショット汎化能力、および探索性能を実証しています。

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran LuoWed, 11 Ma💻 cs