FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation

この論文は、メッシュ生成における従来の頂点座標列の非効率性を克服するため、三角形の面を単一のトークンとして扱う「FACE」という新しい自己回帰的オートエンコーダフレームワークを提案し、計算コストを大幅に削減しながら高品質なメッシュ生成を実現する手法を紹介しています。

Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu + 6 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

複雑な多物体シーンにおける空間的推論を要する微細な画像編集を可能にするため、テキストによる位置推論と視覚的グラウンディングを交互に行う「InterCoG」という新しいフレームワークと、それに対応する大規模データセット「GroundEdit-45K」を提案し、高い空間的精度を実現した。

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

本論文は、知覚から共感までの認知的階層を統合する新しい枠組みを提案し、22 億パラメータの軽量マルチモーダル言語モデル「Nano-EmoX」と段階的学習フレームワーク「P2E」を開発することで、6 つの主要な感情タスクにおいて最先端の性能と優れた汎用性を達成したことを示しています。

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

本論文は、実世界の動画から物理的に妥当で視覚的に忠実な構成要素ベースのシーン再構築を実現するため、「知覚・生成・シミュレーション」のパイプラインに能動的視点最適化とシーングラフ合成器という 2 つの中継モジュールを導入した SimRecon を提案し、ScanNet データセットにおいて既存の最先端手法を上回る性能を実証しています。

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

本論文は、ストリーミング画像からオンラインで 3D 形状と言語情報を再構築する「OnlineX」を提案し、累積ドリフトを解決するためにアクティブ状態と安定状態を分離・融合する新たなパラダイムを導入することで、リアルタイムかつ高精度な 3D 再構築と意味理解を実現するものです。

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

本論文は、大規模データ不足や製品詳細の保持、粗い教師信号の課題を解決するため、共有強化アテンションと詳細認識損失を導入し、自動フィルタリングで構築した HP-Image-40K データセットを用いて、製品の詳細を忠実に保持した人間と製品の合成画像生成を実現する HiFi-Inpaint を提案するものです。

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

本論文は、時系列予測における時系列の連続性と適応的解像度の課題を解決するため、2D ガウススプラッティングの概念を応用し、未来の系列を連続的な潜在表面としてレンダリングする新しいフレームワーク「TimeGS」を提案し、主要なベンチマークで最先端の性能を達成したことを報告しています。

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

本論文は、合成テキスト記述から得られる意味的アイデンティティ事前知識を視覚特徴と統合するマルチモーダル検証フレームワークを提案し、大規模な動物データセットを用いた系統的なアブレーション研究により、単一モーダル手法を大幅に上回る動物識別精度を達成したことを示しています。

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

本論文は、プロンプトの結合とドリフトによる劣化を解消するため、タスク一般知識とタスク固有特徴を分離するデュアルプールプロンプトと、プロトタイプに基づく疑似ラベル生成モジュールを組み合わせた「PDP」を提案し、継続的物体検出において最先端の性能を達成したものである。

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

Loss Design and Architecture Selection for Long-Tailed Multi-Label Chest X-Ray Classification

本論文は、CXR-LT 2026 ベンチマークにおける長尾分布を伴う多ラベル胸部 X 線画像分類に対し、LDAM-DRW 損失関数と ConvNeXt-Large アーキテクチャの組み合わせが最も効果的であることを示し、68 チーム中 5 位という高い成績を収めた手法の体系的な評価と実践的知見を提示しています。

Nikhileswara Rao Sulake2026-03-04⚡ eess

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

本論文は、画像から得られるインタラクション意図を接触認識埋め込みとして集約し、マルチモーダル大規模言語モデル(MLLM)の能力を活用して階層的なクロスモーダル統合と多粒度の幾何学的リフティングを行う新たなフレームワーク「HAMMER」を提案し、これにより既存手法を上回る精度と頑健性で3D オブジェクトの機能性(アフォードアンス)を意図駆動で局所化する手法を確立したものである。

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Preconditioned Score and Flow Matching

この論文は、フローマッチングおよびスコアベース拡散モデルにおいて、中間分布の共分散行列の条件数が最適化バイアスに与える影響を解析し、幾何学的な条件付けを改善する事前条件付けマップを提案することで、低分散モードの学習停滞を回避し、モデルの性能向上を実現することを示しています。

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI