ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

この論文は、連続的な特徴に依存する従来の深層学習とは異なり、画像を視覚的プリミティブで再構成することで高次な構造的説明を学習する神経記号システムを提案し、組織学的画像の異常診断において、従来の深層学習アーキテクチャよりも高い分類精度と透明性を達成したことを示しています。

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

NASA の Landsat および Sentinel-2 データを用いて訓練され、多様な地球観測タスクで先行モデルや他社モデルを上回る性能を発揮するオープンソースの汎用地球観測基盤モデル「Prithvi-EO-2.0」が発表されました。

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

この論文は、マルチモーダルタスクにおける既存の評価指標の限界を克服するため、基準ごとのスコアを統合して総合評価を行う参照不要の指標「HarmonicEval」を提案し、4 つのタスクにわたる 18,000 件の専門家の人間評価を含む新しいベンチマーク「MMHE」を構築してその有効性を検証したものである。

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

本論文は、幾何学監督とコントラスト損失を用いた共同学習戦略および階層的コンテキスト認識モジュールを導入し、3D 空間内の物体表面に言語フィールドを正確に整合させることで、テキストクエリによる高精度な 2D/3D セグメンテーションや編集タスクを実現する「LangSurf」を提案しています。

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

この論文は、事前学習された視覚言語モデル(VLM)を活用して画像から抽象的な記述子(述語)を学習し、これを用いた記号的な世界モデルを構築することで、限られた短いデモンストレーションから未知の環境や目標、そして長期のタスクに対するゼロショットな汎化を実現するロボット制御手法を提案しています。

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

本論文は、事前学習された無条件拡散モデルを条件付き生成タスクに応用するため、ベイズの定理に基づき条件付きスコア関数を無条件スコアとガイダンス項に分解し、自然画像のガウス型事前分布を組み込んだ最大事後確率(MAP)に基づく新たなガイダンス項推定法を提案することで、逆問題の解像度向上や画像修復において既存手法よりも内容の保存性や一貫性を高める手法を提示しています。

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

この論文は、専門家のデモから生成拡散ポリシーをクローンし、デモとランダムな探索から予測行動条件付き世界モデルを学習し、その世界モデルを用いて将来を予測しながらアクション提案を最適化する「生成予測制御(GPC)」という学習制御フレームワークを提案し、シミュレーションおよび実世界における多様なロボット操作タスクで行動模倣を凌駕する性能を実証したものである。

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

複雑な抽象的な指示に基づいて未知の大規模環境を自律的に移動する課題に対し、神経記号(NeSy)アプローチを用いてタスク分解と効率的な探索を可能にする新しいビジョン・言語ナビゲーションシステム「VL-Nav」を提案し、シミュレーションおよび実世界環境で高い成功率を達成したことを示しています。

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Subclass Classification of Gliomas Using MRI Fusion Technique

本研究は、BraTS データセットの多モーダル MRI 画像を前処理し、2D と 3D の UNET によるセグメンテーション結果を重み付き平均で融合して ResNet50 に投入する手法を提案し、99.25% の分類精度を達成することで、グリオーマのサブクラス分類の精度を大幅に向上させたことを示しています。

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

この論文は、解剖学的ランドマークを組み込んだトランスフォーマーベースの幾何学的深層学習モデルを提案し、侵襲的で高価なPETスキャンに頼らずにアルツハイマー病の診断精度を向上させ、中リスク群における脳アミロイド陽性性の予測を可能にするものである。

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

本論文は、ユーザーの自撮り写真をガウス領域適応技術を用いて3Dアバターに変換し、さらにユーザーのアイデンティティを保持したまま二次的なスタイルを付与する「デュアル・スタイライゼーション」プロセスを通じて、モバイル端末で30〜40 FPS のアニメーション再生を可能にする即時生成型アバターシステム「Snapmoji」を提案するものです。

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

本論文は、テキスト条件付き 3D 室内シーン生成の評価における既存手法の限界を克服するため、明示的な要件と暗黙的な期待の両方を測定する新たな評価フレームワーク「SceneEval」と、それを支えるベンチマークデータセット「SceneEval-500」を提案し、現在の生成手法が実用性と制御可能性において依然として課題を抱えていることを明らかにしています。

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs