Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

本論文は、DINOv3 のパッチ埋め込み表現に対して 2 次元自己回帰モデルを導入し、空間的・文脈的依存関係を明示的に学習することで、既存の DINO ベース手法が抱える大規模なメモリ使用量や計算コストを削減しつつ、競合する性能を達成する効率的な教師なし異常検知フレームワークを提案しています。

Ertunc Erdil, Nico Schulthess, Guney Tombak + 1 more2026-03-04💻 cs

The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes

この論文は、da Vinci Xi 内視鏡と構造化光カメラを用いてブタの死体から収集された、腹部の非剛体変形を伴う手術シーンの 4 次元再構成を評価するための大規模な「Dresden データセット(D4D Dataset)」を提案し、30 万フレーム以上の動画と数百の点群データを含む包括的なベンチマークとして、非剛体 SLAM や深度推定手法の開発・評価を可能にすることを示しています。

Reuben Docea, Rayan Younis, Yonghao Long + 10 more2026-03-04💻 cs

Any Resolution Any Geometry: From Multi-View To Multi-Patch

本論文は、高解像度画像をパッチに分割し、事前学習された粗い幾何学情報とクロスパッチアテンションを統合した「Ultra Resolution Geometry Transformer (URGT)」を提案することで、単一画像からの深度と法線の推定において、細部と大域的整合性を両立し、UnrealStereo4K などで最先端の精度を達成する手法を提示しています。

Wenqing Cui, Zhenyu Li, Mykola Lavreniuk + 4 more2026-03-04💻 cs

BRIGHT: A Collaborative Generalist-Specialist Foundation Model for Breast Pathology

本研究は、19 病院の 4 万超の患者から得られた約 2 億枚の画像を用いて開発され、汎用病理モデルを breast 専門知識と協働させることで、診断から予後予測までの 24 種類の臨床タスクにおいて最先端の性能を示した、乳がん病理に特化した最初の基盤モデル「BRIGHT」を提案し、その臨床的有用性と臓器特異的基盤モデル開発の新たなパラダイムを実証したものです。

Xiaojing Guo, Jiatai Lin, Yumian Jia + 39 more2026-03-04💻 cs

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

本論文は、高品質で大規模な DaTikZ-V4 データセットと逆グラフィックスに基づく強化学習を活用し、小規模なオープンソースモデル「TikZilla」を開発することで、テキストから高品質な TikZ 図を生成する性能を大幅に向上させ、GPT-5 に匹敵する結果を達成したことを報告しています。

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

AWDiff: An a trous wavelet diffusion model for lung ultrasound image synthesis

本論文は、肺超音波画像の生成において解像度低下による診断情報の損失を防ぎ、生物医学的意味情報との整合性を保つために、a trous ウェーブレット変換と BioMedCLIP を統合した拡散モデル「AWDiff」を提案し、既存手法よりも高い構造的忠実度と多様性を達成したことを示しています。

Maryam Heidari, Nantheera Anantrasirichai, Steven Walker + 2 more2026-03-04💻 cs

Conditioned Activation Transport for T2I Safety Steering

本論文は、安全なプロンプトに対する画像品質の劣化を最小限に抑えつつ、テキストから画像への生成モデルにおける安全性を向上させるために、対照的なデータセット「SafeSteerDataset」を構築し、非線形輸送マップと幾何学的条件付けを組み合わせた「Conditioned Activation Transport(CAT)」フレームワークを提案するものである。

Maciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński + 3 more2026-03-04🤖 cs.AI

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

本論文は、オムニマルチモーダル大規模言語モデルにおけるクロスモーダルの幻覚を軽減するため、無関係なモダリティのノイズへの不変性と関連モダリティの変化への感応性を強制し、テキスト依存を抑制する「モダリティ分離型直接選好最適化(MoD-DPO)」を提案し、複数のベンチマークで既存手法を上回る性能を実証したものである。

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

Chain of World: World Model Thinking in Latent Motion

本論文は、世界モデルの時間的推論能力と潜在動作のコンパクトさを統合し、事前学習された動画 VAE を用いて構造と運動を因子分解する「CoWVLA」と呼ばれる新しいパラダイムを提案し、ロボットシミュレーションベンチマークにおいて既存手法を上回る性能を示したことを報告しています。

Fuxiang Yang, Donglin Di, Lulu Tang + 6 more2026-03-04🤖 cs.AI

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

本論文は、自律走行、ロボティクス、ドローンなど多様な物理的実体における汎用性を可能にする共通基盤として「空間知能」に着目し、共有基盤の構築、専門化、そしてモデル統合を行う SSR パラダイムと GRPO を採用した汎用型基盤脳「ACE-Brain-0」を提案し、24 のベンチマークで最先端の性能を達成したことを報告しています。

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

本論文は、テスト時学習メモリと非パラメトリックなスライディングウィンドウアテンションを組み合わせたハイブリッド記憶機構を導入することで、従来の推論時の最適化なしに数千フレームにわたる動画から高忠実度かつ一貫性のある 3D 幾何復元を実現する「LoGeR」という新しいアーキテクチャを提案しています。

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

本論文は、Transfusion フレームワークを用いたゼロからの中核的なマルチモーダル前訓練を通じて、視覚と言語の相補性、世界モデルの自然な獲得、そしてデータ要求量の非対称性を MoE 構造で解決するスケーリング則など、ネイティブなマルチモーダルモデルの設計指針を明らかにしたものである。

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs