MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

本論文は、RGB 画像と物理ベースレンダリング(PBR)マッピングを統合した新しい表現を用いた生成基盤モデル「MatPedia」を提案し、大規模な RGB 画像データから学習した視覚的知識を活用しながら、単一アーキテクチャで高品質かつ多様な PBR 素材の生成や分解を可能にするものです。

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

本論文は、動画理解の課題に対処するため、複数のエージェントが協調して動的にツール呼び出しの方針を生成・実行・更新する「協調方針計画(CPP)」と多エージェント強化学習を組み合わせた新システム「VideoChat-M1」を提案し、複数のベンチマークで最先端の性能を達成したことを報告するものです。

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

UniLight: A Unified Representation for Lighting

本論文は、テキスト、画像、照度、環境マップなど多様な照明表現を対照学習により統合された潜在空間「UniLight」に変換することで、照明の理解と表現の課題を解決し、検索や生成、合成画像の照明制御など多様なタスクにおけるモダリティ間の柔軟な転送を可能にする手法を提案しています。

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising

本論文は、低線量全身 PET 画像のノイズ除去において、ウェーブレット変換に基づく構造的な事前知識を凍結された拡散モデルに注入する「WCC-Net」と呼ばれる 3 次元フレームワークを提案し、既存の手法を上回る画質と解剖学的整合性の達成を実証したものである。

Peiyuan Jing, Yue Yang, Chun-Wun Cheng + 8 more2026-03-05🤖 cs.AI

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

本論文は、直交する 2 次元投影画像から推定された 3 次元マスクを用いて頚椎の関心領域を抽出し、2.5 次元の CNN-Transformer Ensemble モデルで骨折を識別する、次元削減と高い診断精度を両立する新しい自動パイプラインを提案するものである。

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

本論文は、医療画像分野における強化学微調整(RFT)の課題を解決するため、事前知識の注入や知覚駆動の方針改善などの戦略を導入して知覚と推論を強化するフレームワーク「VRFT-Aug」を提案し、複数のデータセットで既存手法を上回る性能を実証したものである。

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

本論文は、生体認証用歩行圧力データセット「StepUP-P150」を基に開催された初の国際コンペティションの概要、23 チームの参加状況、最優秀チーム(Saeid_UCC)が達成した 10.77% の等誤り率(EER)の結果、および履物変化への汎化という残された課題について報告しています。

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor は、単一画像の基礎モデルとクロスビュー注意機構を組み合わせて一貫した法線ベクトルを推定し、これを逆レンダリング最適化の事前知識として活用することで、高密度なカメラアレイや高コストな計算を必要とせず、数秒で写真測量に匹敵する高忠実度な 3D 頭部形状を復元するハイブリッド手法です。

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

Momentum Memory for Knowledge Distillation in Computational Pathology

本論文は、バッチ内の限られた比較に依存する既存の知識蒸留手法の不安定性を克服するため、モメンタム更新メモリを用いてバッチを超えた情報を集約し、ゲノムと組織病理の勾配を分離することで、組織病理画像のみによるがん診断において最先端の性能と汎用性を達成する「Momentum Memory Knowledge Distillation (MoMKD)」を提案するものである。

Yongxin Guo, Hao Lu, Onur C. Koyun + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

本論文は、視覚的場所認識(VPR)システムが環境の特定領域でユーザーが定義した性能要件を満たすことを保証するため、複数の参照経路のマッチングパターンを分析して最適な地図密度を自動的に選択する手法を提案し、その有効性を複数のベンチマークで実証したものである。

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

本論文は、視覚言語モデルにおける「空間的クレジットの崩壊」がハルシネーションの一因であることを特定し、モデル重みの変更なしに推論時に視覚的文脈を再分配する軽量かつ高速な手法「Spatial Credit Redistribution (SCR)」を提案し、複数のベンチマークでハルシネーションを大幅に削減しつつ生成品質を維持する効果を実証しています。

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

本論文は、多視点ステレオ、多視点フォトメトリックステレオ、偏光多視点形状復元といった多様なニューラル 3 次元再構成手法を包括的に評価するための、25 個の物体と 8,500 枚の画像からなる実世界データセット「EvalMVX」を提案し、既存手法の性能比較と課題の特定を行った研究です。

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

本論文は、不均衡データ、背景ノイズ、ドメインシフトといった課題に対処するため、Focal Loss、軽量アテンションゲート、アライメントモジュールの 3 つのモジュール的改良を MambaBDA 枠組みに導入し、既存災害における精度向上だけでなく、未見の災害に対する汎化性能を最大 27% 向上させることを実証しています。

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs