Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

本論文は、タスク間の負の転移を解消し、データ側の「AV-UIE v2」およびモデル側の「I-LoRA」による明示的な協調メカニズムを通じて、単一タスクモデルを上回る性能で多様な音声・視覚タスクを統合的に理解するスケーラブルなモデル「Crab+^{+}」を提案するものである。

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

本論文は、階層的クラスタリング過程に実数値フローを統合して記述子の忠実性を維持し、最終段階でのみ二値化する「HBRB-BoW」手法を提案することで、ORB-SLAM の視覚語彙の表現精度とループクロージングや再局所化の性能を向上させることを目的としています。

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

本論文は、局所特徴とグローバル依存性の両方を効率的に捉えるため、学習可能な反復しきい値アルゴリズム(LISTA)によるスパース符号化とビジュアル・トランスフォーマーを融合させた「LISTA-Transformer」を提案し、CWRU データセットにおける故障診断で既存手法を上回る 98.5% の高い識別精度を達成したことを報告しています。

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

この論文は、野生動物の個体再識別における画像劣化の影響を初めて体系的に研究し、訓練データに人工的な多様な劣化を付加する拡張学習フレームワークを導入することで、未知の個体を含む実世界の劣化画像における再識別精度を最大 8.5% 向上させることを示しています。

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

この論文は、対数尤度という観点から一般化平均を用いた密度集約を統一的に分析し、r[0,1]r \in [0,1] の範囲(線形および幾何学的プーリングを含む)が個々の分布に対して体系的な改善を保証する唯一の領域であることを理論的に示し、深層アンサンブルを用いた実証評価でその妥当性を裏付けています。

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

本論文は、デジタルドキュメントベンチマーク「OmniDocBench」をスキャン、歪み、スクリーン撮影、照明、傾きという 5 つの現実世界シナリオで完全物理再構築した初のベンチマーク「Real5-OmniDocBench」を提案し、ドキュメント解析における「現実とのギャップ」を特定し、ロバストなモデル開発を導くための診断ツールを提供するものである。

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

Nearest-Neighbor Density Estimation for Dependency Suppression

この論文は、非パラメトリックな最近傍密度推定に基づく新しい損失関数と変分オートエンコーダを組み合わせて、敏感な変数との統計的依存性を明示的に推定・修正し、既存の手法よりも優れた公平性・プライバシー保護とデータ有用性の両立を実現するエンコーダベースのアプローチを提案するものである。

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

本論文は、拡散トランスフォーマー(DiT)における表現の多様性が学習に重要であるという洞察に基づき、長残差接続と表現多様性損失を導入して表現の多様性を明示的に促進する新たなフレームワーク「DiverseDiT」を提案し、ImageNet での生成性能向上と収束加速を実証しています。

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

DeNuC: Decoupling Nuclei Detection and Classification in Histopathology

本論文は、病理画像における核の検出と分類を結合最適化する際の表現劣化と計算コストの問題を解決するため、軽量モデルによる検出と病理ファウンデーションモデルによる分類を分離する「DeNuC」を提案し、既存の最先端手法を大幅に上回る性能を達成したことを示しています。

Zijiang Yang, Chen Kuang, Dongmei Fu2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

本論文は、ストリーミング画像からオンラインかつほぼリアルタイムに3D幾何復元とオープンボキャブラリ意味理解を同時に行うための、フィードフォワード設計の新しい3Dガウススプラッティング手法「EmbodiedSplat」を提案し、CLIPの汎用性を維持しつつメモリ効率を最適化するアーキテクチャによって、既存のオフラインまたはシーン固有最適化に依存する手法の限界を克服したことを示しています。

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

本論文は、学習プロセスに手続き的知識を明示的に統合する「可微分ビタビ層」を備えた ViterbiPlanNet を提案し、既存の手法よりもはるかに少ないパラメータで、より高いサンプル効率と頑健性を実現する最先端の指示動画計画モデルを構築したことを示しています。

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

本論文は、大規模言語モデルによる圧縮が可能なテキスト記述と、それと相補的な情報を捉える軽量な画像特徴ベクトルを組み合わせる「Similarity Space Replication(SSR)」という新しいフレームワークを提案し、ロボティクスにおける地図のメモリおよび帯域幅の大幅な削減を実現しながら高精度な局所化を維持することを示しています。

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

CREST-2 試験の 500 個の頸動脈プラークを対象に、コヒーレンス損失とグループ疎正則化を組み合わせた新しいカーネルベースの加法モデルを開発し、B モード超音波画像の放射線学的特徴と臨床的リスクとの関連を解釈可能かつ高精度に評価しました。

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI