cs.CV 件の論文 | Gist.Science

Chain of World: World Model Thinking in Latent Motion

本論文は、世界モデルの時間的推論能力と潜在動作のコンパクトさを統合し、事前学習された動画 VAE を用いて構造と運動を因子分解する「CoWVLA」と呼ばれる新しいパラダイムを提案し、ロボットシミュレーションベンチマークにおいて既存手法を上回る性能を示したことを報告しています。

Fuxiang Yang, Donglin Di, Lulu Tang + 6 more2026-03-04🤖 cs.AI

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

本論文は、自律走行、ロボティクス、ドローンなど多様な物理的実体における汎用性を可能にする共通基盤として「空間知能」に着目し、共有基盤の構築、専門化、そしてモデル統合を行う SSR パラダイムと GRPO を採用した汎用型基盤脳「ACE-Brain-0」を提案し、24 のベンチマークで最先端の性能を達成したことを報告しています。

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Copernicus 地球観測データの多様なセンサ間変換における不確実性を捉えるため、COP-GEN は確率的な潜在拡散トランスフォーマーを導入し、任意のモダリティ間での条件付き生成や欠損データ補完を可能にする。

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

本論文は、生成能力が理解を向上させるかどうかを体系的に検証した新たなベンチマーク「UniG2U-Bench」を提案し、統合マルチモーダルモデルが直接推論より劣る傾向にある一方で、空間知能や多段階推論などの特定タスクでは生成が有効であるという知見を示しています。

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

DuoMo は、ノイズや不完全な観測を含む制約のない動画から、カメラ空間と世界空間の 2 つの拡散モデルを連携させることで、パラメトリックモデルを介さずに世界座標系での人間運動を高精度に再構築する生成手法です。

Yufu Wang, Evonne Ng, Soyong Shin + 8 more2026-03-04💻 cs

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

本論文は、テスト時学習メモリと非パラメトリックなスライディングウィンドウアテンションを組み合わせたハイブリッド記憶機構を導入することで、従来の推論時の最適化なしに数千フレームにわたる動画から高忠実度かつ一貫性のある 3D 幾何復元を実現する「LoGeR」という新しいアーキテクチャを提案しています。

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

本論文は、Transfusion フレームワークを用いたゼロからの中核的なマルチモーダル前訓練を通じて、視覚と言語の相補性、世界モデルの自然な獲得、そしてデータ要求量の非対称性を MoE 構造で解決するスケーリング則など、ネイティブなマルチモーダルモデルの設計指針を明らかにしたものである。

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

本論文は、少数のデモンストレーションから視覚言語モデルのガイダンスにより意味的対応関係に基づいて軌道を歪めるオープンループ方策を設計し、これを用いて実世界で自律的に多様な機能遊びを実行することで、人間の介入を最小限に抑えながら高品質な学習データを生み出し、最終的に人間によるデモンストレーションと同等の性能を持つクローズドループ模倣方策を構築する「Tether」という手法を提案しています。

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

本論文は、大規模モーションキャプチャデータを物理的に妥当な形でヒューマノイドへ変換するニューラルリターゲティング手法と、事前定義された動作参照に依存せず視覚入力や高レベルなタスク指示から自律的な全身操作を実現する統合マルチモーダル制御器を組み合わせた「ULTRA」フレームワークを提案し、シミュレーションおよび実機 Unitree G1 における検証で、従来の追跡ベースの手法を凌ぐ汎用性と頑健性を示したものである。

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

この論文は、力覚データ収集と模倣学習による初期方策の学習、および定量的指標と人間のフィードバックを組み合わせた報酬モデルを用いた選好ベースの微調整という 2 段階のフレームワークを提案し、50〜200 の試行のみで多種多様な果物・野菜の皮むきにおいて 90% 以上の成功率と優れたゼロショット汎化性能を実現したことを報告しています。

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

MIBURI: Towards Expressive Interactive Gesture Synthesis

本論文は、LLM による音声テキスト埋め込みを条件とした 2 次元因果フレームワークと身体部位を考慮した手势コーデックを採用し、リアルタイムで自然かつ多様性のある全身ジェスチャーと表情を生成する初のオンライン手法「MIBURI」を提案するものである。

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Utonia: Toward One Encoder for All Point Clouds

本論文は、リモートセンシングから屋内 LiDAR、CAD モデル、RGB 動画から抽出された点雲まで多様なドメインにまたがる単一の自己教師あり点変換器エンコーダ「Utonia」を提案し、これによりドメイン横断的な表現学習を実現するとともに、ロボティクスや視覚言語モデルにおける推論能力の向上など、広範な応用における潜在的可能性を示しています。

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

この論文は、1 ステージ物体検出における極端なクラス不均衡問題を解決するため、分類タスクをランキングタスクに置き換え、平均精度損失（AP-loss）を最適化する新しいアルゴリズムを提案し、既存のネットワーク構造を変更せずに検出精度を大幅に向上させることを示しています。

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

この論文は、1 ステージ物体検出における極端なクラス不均衡問題を解決するため、分類タスクをランキングタスクに置き換え、平均精度損失（AP-loss）を最適化するための新規アルゴリズムを提案し、既存手法を上回る性能を達成したことを報告しています。

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

OmniTracker: Unifying Object Tracking by Tracking-with-Detection

本論文は、追跡と検出の両方の長所を統合した「追跡付き検出」のパラダイムを提案し、単一の共有アーキテクチャでインスタンス追跡からカテゴリ追跡まであらゆる視覚的物体追跡タスクを効率的かつ高精度に解決する統一モデル「OmniTracker」を開発したものである。

Junke Wang, Zuxuan Wu, Dongdong Chen + 4 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

この論文は、従来の空間アテンション機構の限界を克服し、受容野の空間特徴に焦点を当てた新たな「受容野アテンション（RFA）」とそれを組み込んだ「RFAConv」を提案することで、計算コストをほぼ増やすことなく畳み込みニューラルネットワークの性能を大幅に向上させることを示しています。

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

従来の光学設計が画像の鮮明さやエンドツーエンド学習の不安定性に課題を抱える中、本論文は事前学習済みビジョンモデルを固定してレンズのみを最適化する「タスク駆動型レンズ設計」を提案し、安定した学習プロセスを通じて既存の光学レンズを上回る性能を持つ新しいレンズ設計を実現したことを示しています。

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

データが不足する状況におけるマルチインスタンス学習の課題を解決するため、インスタンス間のトポロジカル構造を保持する制約を導入した「トポロジーガイド型 MIL（TG-MIL）」を提案し、合成データから希少疾患分類までの幅広い評価で既存の最先端モデルを上回る性能向上を実現したことを報告しています。

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

既存の動画フレーム補間手法が抱える速度の曖昧さによるぼやけを解消するため、時間位置ではなく移動距離に基づく明示的な「距離インデックス」を導入し、参照ベースの反復推定や連続マップ推定と組み合わせることで、任意の時間補間における画質と精度を大幅に向上させる新たなアプローチを提案する。

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

この論文は、大規模マルチモーダルデータの複雑な因果構造を捉えるために新しい潜在部分因果モデルを提案し、その理論的同一性証明と実証実験を通じて、MultiModal Contrastive Learning（MMCL）や CLIP などの事前学習モデルが持つ表現の解離性や汎化能力のメカニズムを解明し、その実用性を拡張するものです。

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

← 前へ次へ →