Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

本論文は、拡散モデルのサンプリング品質を向上させるため、モデル自身のサブネットワークを確率的に構築して低品質な予測を回避する「Stochastic Self-Guidance(S²-Guidance)」という新しい学習不要の手法を提案し、既存の CFG 法や他の先進的な手法を上回る性能をテキストから画像・動画生成タスクで実証しています。

Chubin Chen, Jiashu Zhu, Xiaokun Feng + 7 more2026-03-05💻 cs

Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

本論文は、宇宙探査機の厳しい計算リソース制約下でリアルタイムなクレーター検出を可能にするため、低精度量子化ニューラルネットワークと適応的多センサー融合を統合した「適応量子化惑星クレーター検出システム(AQ-PCDSys)」のアーキテクチャと数学的根拠を提案する概念論文である。

Aditri Paul, Archan Paul2026-03-05🤖 cs.AI

ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments

本論文は、手術器具の局所化におけるアノテーション効率と情報量のバランスを改善するため、既存の ROBUST-MIS データセットから派生し、骨格ポーズとインスタンスセグメンテーションの両方を統合した新しいデータセット「ROBUST-MIPS」と、それに対応するベンチマークモデルおよび注釈ソフトウェアを公開するものである。

Zhe Han, Charlie Budd, Gongyu Zhang + 3 more2026-03-05💻 cs

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

本論文は、文書画像から非情報領域を事前にフィルタリングし、テキスト領域の空間的整合性を高める軽量トークンプルーニング手法を提案することで、文書理解における視覚言語モデルの計算コストを大幅に削減しつつ精度を維持することを示しています。

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

Enhancing Feature Fusion of U-like Networks with Dynamic Skip Connections

本論文は、従来のスキップ接続が抱える特徴間の静的制約と内部特徴の多スケール相互作用の不足という課題を解決するため、推論時の適応的調整を行うテスト時学習モジュールと、文脈に応じた動的なカーネルサイズ選択を行う動的マルチスケールカーネルモジュールを統合した「動的スキップ接続(DSC)ブロック」を提案し、多様な U 型ネットワークにおいて汎用的かつ効果的に機能することを示しています。

Yue Cao, Quansong He, Kaishen Wang + 3 more2026-03-05💻 cs

Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

本論文は、動作に基づく動画物体分割におけるテキストプロンプトとマスク注釈のノイズ問題に初めて取り組むため、ActiSeg-NL というベンチマークと評価プロトコルを確立し、並列マスクヘッド機構(PMHM)を含むノイズ耐性学習戦略の包括的解析を提案するものである。

Wenxin Li, Kunyu Peng, Di Wen + 4 more2026-03-05🤖 cs.LG

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

Vision-Zero は、任意の画像から生成された戦略的ゲームを用いたマルチエージェント自己対戦と反復自己プレイ方策最適化(Iterative-SPO)を組み合わせることで、人間の注釈なしに視覚言語モデルを自律的に進化させ、推論やチャート理解などのタスクにおいて既存の注釈ベース手法を上回る性能を実現するスケーラブルなフレームワークです。

Qinsi Wang, Bo Liu, Tianyi Zhou + 6 more2026-03-05🤖 cs.AI

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

この論文は、チャートや図表などの構造化された視覚情報の生成・編集における事実性の課題に対処するため、大規模データセット、統合モデル、および評価ベンチマーク「StructBench」を包括的に構築・提案し、推論時の思考プロセスが事実精度の向上に寄与することを示しています。

Le Zhuo, Songhao Han, Yuandong Pu + 8 more2026-03-05💻 cs

Topological Alignment of Shared Vision-Language Embedding Space

本論文は、多言語マルチモーダルデータにおけるグローバルな幾何学的構造の欠如を解決するため、パーシステントホモロジーに基づくトポロジカル制約を導入し、多言語表現の構造的整合性とゼロショット性能を向上させる「ToMCLIP」と呼ばれる新しいフレームワークを提案するものである。

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

この論文は、限られた種子質問を素因に分解・再構成することで合成データを生成し、強化学習を通じてチャートやウェブページなどの人工画像ドメインにおける多モーダル大規模言語モデルの推論能力を飛躍的に向上させる「COGS」というデータ効率型フレームワークを提案しています。

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

A Geometry-Based View of Mahalanobis OOD Detection

本論文は、Mahalanobis 距離に基づく OOD 検出の性能が特徴空間の幾何学的性質に依存することを示し、クラス内スペクトル構造と局所内次元という 2 つの指標を特定するとともに、特徴ベクトルの半径を制御する新しい正規化手法を提案することで、OOD 検出の安定性と精度を向上させることを明らかにしています。

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

本論文は、医療画像診断における解釈性の高い予測を実現するため、概念アノテーションを不要としクラスレベルの事前知識を活用した弱教師あり学習フレームワーク「Prior-guided Concept Predictor (PCP)」を提案し、複数の医療データセットにおいてゼロショット手法を大幅に上回る概念予測精度と、完全教師ありモデルに匹敵する分類性能を達成したことを示しています。

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

この論文は、極限環境下におけるイベント-RGB セグメンテーションの課題を解決するため、両モダリティの「エッジ」特性を活用して不確実性を考慮した特徴再符号化と統合を行う「エッジ意識セマンティック・コンコルダンス」フレームワークを提案し、既存手法を上回る性能と耐性を示すことを報告しています。

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs