SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

本論文は、非対称な設計と記憶検索モジュールを導入することで、既存のスパイクニューラルネットワーク追跡フレームワークの課題を解決し、LaSOT データセットで TransT を上回る精度を 1/26 のエネルギー消費で達成する、初の高精度かつ高効率なスパイク駆動型 RGB 追跡フレームワーク「SpikeTrack」を提案しています。

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

本論文は、単一ショットの制約を超えた長編動画生成の評価を可能にする初の包括的ベンチマーク「MSVBench」を提案し、大規模マルチモーダルモデルと専門モデルを融合させたハイブリッド評価枠組みにより、既存モデルが真の世界モデルではなく視覚的補間器に留まっていることを明らかにするとともに、人間の判断と高い相関を持つ信頼性の高い評価指標とスケーラブルな教師信号を提供するものである。

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

本論文は、写真撮影における美的指導(Aesthetic Guidance)と構図の最適化(Aesthetic Cropping)を可能にするため、大規模なデータセット「AesGuide」と段階的学習フレームワーク「Venus」を提案し、マルチモーダル大規模言語モデルの美的評価・改善能力を飛躍的に向上させた研究です。

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

本論文は、MRI 画像から学習した生体マーカーの構造を音声モデルに転移させる「MINT」というフレームワークを提案し、推論時に画像を必要とせずともアルツハイマー病の早期スクリーニングを可能にする生物学的に裏付けられた手法を開発したことを示しています。

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

本論文は、既存の 3D 超解像手法が抱える制約を克服し、大規模データから 3D 固有の高周波情報を学習することで、未見のシーンに対しても強力なゼロショット汎化性能とリアルタイム性を実現する、スパースな低解像度画像から高解像度 3D ガウススプラッティングを直接予測する新しいフレームワーク「SR3R」を提案するものである。

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

本研究は、最適輸送を用いた安全検出とクロスモーダル注意機構による安全プレフィックスの適応的再配分という2つの戦略を組み合わせることで、追加学習なしにマルチモーダル大規模言語モデルの安全性を向上させつつ有用性を維持する「GuardAlign」というフレームワークを提案しています。

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

本論文は、過剰な視覚トークンによる干渉を抑制し、隠れ状態とパッチ埋め込みの整合性に基づいて最も一貫性のあるパッチのみを適応的に強化するトレーニング不要なフレームワーク「AIR」を提案し、マルチモーダル大規模言語モデルの幻覚を効果的に軽減することを示しています。

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

この論文は、単一画像や動画から高忠実度な 3D 衣類を再構築するための統合フレームワークを提案し、Implicit Sewing Patterns と拡散モデルを組み合わせることで、合成データのみで学習しながらも実世界の画像において既存手法を上回る精度で、細部まで再現された動的な衣類形状の生成を実現しています。

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

本論文は、視覚言語モデルのポストトレーニング量子化において、トークンごとの重要なチャネル分布の差異を考慮し、トークン非依存および依存のグループに対してそれぞれ共有およびルーティングされた低ランクアダプターを用いたミクスチャー・オブ・エキスパートを提案することで、フル精度モデルに匹敵する性能を維持しつつタスク精度を向上させる「Quant Experts (QE)」手法を提示しています。

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

この論文は、SMT ソルバーと臨床知識ベースを用いて放射線レポートの論理的整合性を形式的に検証するニューロシンボリックフレームワークを提案し、従来の指標では検出できない推論の欠陥を特定・排除することで、臨床推論の信頼性を保証する手法を示しています。

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

本論文は、RAG におけるページ単位のチャンキングがもたらす過剰なコンテキスト負荷とハルシネーションのリスクを解決するため、クエリ駆動で必要な領域のみを動的に抽出・認識する新たな OCR パラダイム「AgenticOCR」を提案し、視覚的ドキュメントの理解効率と精度を大幅に向上させることを示しています。

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

本論文は、再構成品質に基づいた適応的剪定と正負の密度を単一プリミティブで表現する「3 次元差のガウス」を導入することで、3D ガウススプラッティングのプリミティブ数を最大 90% 削減しつつ、最先端の手法と同等かそれ以上の視覚品質を達成する効率的な手法を提案しています。

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

本論文は、大規模な事前学習や外部データに依存せず、動画から生成されたテキスト情報と視覚特徴を組み合わせたマルチモーダル最適輸送手法「TASOT」を提案し、手術ロボティクスにおける教師なしの手術フェーズおよびステップ認識を高精度に実現するものである。

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI