Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

この論文は、マルチモーダルタスクにおける既存の評価指標の限界を克服するため、基準ごとのスコアを統合して総合評価を行う参照不要の指標「HarmonicEval」を提案し、4 つのタスクにわたる 18,000 件の専門家の人間評価を含む新しいベンチマーク「MMHE」を構築してその有効性を検証したものである。

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

本論文は、幾何学監督とコントラスト損失を用いた共同学習戦略および階層的コンテキスト認識モジュールを導入し、3D 空間内の物体表面に言語フィールドを正確に整合させることで、テキストクエリによる高精度な 2D/3D セグメンテーションや編集タスクを実現する「LangSurf」を提案しています。

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

この論文は、事前学習された視覚言語モデル(VLM)を活用して画像から抽象的な記述子(述語)を学習し、これを用いた記号的な世界モデルを構築することで、限られた短いデモンストレーションから未知の環境や目標、そして長期のタスクに対するゼロショットな汎化を実現するロボット制御手法を提案しています。

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

本論文は、事前学習された無条件拡散モデルを条件付き生成タスクに応用するため、ベイズの定理に基づき条件付きスコア関数を無条件スコアとガイダンス項に分解し、自然画像のガウス型事前分布を組み込んだ最大事後確率(MAP)に基づく新たなガイダンス項推定法を提案することで、逆問題の解像度向上や画像修復において既存手法よりも内容の保存性や一貫性を高める手法を提示しています。

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

この論文は、専門家のデモから生成拡散ポリシーをクローンし、デモとランダムな探索から予測行動条件付き世界モデルを学習し、その世界モデルを用いて将来を予測しながらアクション提案を最適化する「生成予測制御(GPC)」という学習制御フレームワークを提案し、シミュレーションおよび実世界における多様なロボット操作タスクで行動模倣を凌駕する性能を実証したものである。

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

複雑な抽象的な指示に基づいて未知の大規模環境を自律的に移動する課題に対し、神経記号(NeSy)アプローチを用いてタスク分解と効率的な探索を可能にする新しいビジョン・言語ナビゲーションシステム「VL-Nav」を提案し、シミュレーションおよび実世界環境で高い成功率を達成したことを示しています。

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Subclass Classification of Gliomas Using MRI Fusion Technique

本研究は、BraTS データセットの多モーダル MRI 画像を前処理し、2D と 3D の UNET によるセグメンテーション結果を重み付き平均で融合して ResNet50 に投入する手法を提案し、99.25% の分類精度を達成することで、グリオーマのサブクラス分類の精度を大幅に向上させたことを示しています。

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

この論文は、解剖学的ランドマークを組み込んだトランスフォーマーベースの幾何学的深層学習モデルを提案し、侵襲的で高価なPETスキャンに頼らずにアルツハイマー病の診断精度を向上させ、中リスク群における脳アミロイド陽性性の予測を可能にするものである。

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

本論文は、ユーザーの自撮り写真をガウス領域適応技術を用いて3Dアバターに変換し、さらにユーザーのアイデンティティを保持したまま二次的なスタイルを付与する「デュアル・スタイライゼーション」プロセスを通じて、モバイル端末で30〜40 FPS のアニメーション再生を可能にする即時生成型アバターシステム「Snapmoji」を提案するものです。

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

本論文は、テキスト条件付き 3D 室内シーン生成の評価における既存手法の限界を克服するため、明示的な要件と暗黙的な期待の両方を測定する新たな評価フレームワーク「SceneEval」と、それを支えるベンチマークデータセット「SceneEval-500」を提案し、現在の生成手法が実用性と制御可能性において依然として課題を抱えていることを明らかにしています。

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

本論文は、従来のバックワードコンパチブル学習における厳密なアライメント制約が新モデルの識別能力を損なう問題を解決するため、旧モデルの原型に摂動を導入して制約を緩和し、ランドマークおよび商品データセットにおいて最先端の手法を上回る性能を示す「原型摂動」アプローチを提案するものである。

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

本論文は、視覚基盤モデルからの多様な 2D 事前知識を統合して構造整合性を確保し、衝突勾配に基づく生成拡散モデルを用いて物理的に妥当な 3D 両手姿勢を生成することで、単眼画像からの両手再構成における複雑な姿勢や重度の遮蔽、手同士の貫通問題を解決する手法を提案しています。

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

本論文は、トランスフォーマーの注意機構やスペクトル抽出などのモジュールにリプシッツ連続性制約を課し、学習可能なアンサンブル融合戦略を組み合わせることで、脳波に基づく感情認識の安定性、精度、およびロバスト性を向上させる新しいフレームワーク「LEL」を提案し、複数のベンチマークデータセットで優れた性能を実証したものである。

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

本論文は、哺乳類の空間認知に着想を得て、直交制約付き変分情報ボトルネック(O-VIB)エンコーダを導入し、冗長な特徴を剪除することで帯域幅制約の厳しい都市環境における高精度な視覚的局所化を実現するタスク指向のセマンティック圧縮フレームワークを提案するものである。

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

本論文は、低線量かつ高品質な CBCT 画像再構成を実現するため、多視点・多スケール特徴を統合した DiCE ネットワークと大規模データを用いた HyViP 事前学習フレームワークを備えた、初の CBCT 用基盤モデル「DeepSparse」を提案し、既存手法を上回る性能を実証したものである。

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs