PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

本論文は、大規模言語モデル(LLM)と rPPG 固有のコンポーネントを協調最適化する「PhysLLM」フレームワークを提案し、テキスト原型ガイダンスや双領域定常アルゴリズムを通じて照明変化やモーションアーティファクトに頑健な遠隔生理信号計測を実現し、複数のベンチマークデータセットで最先端の性能を達成したことを示しています。

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

本論文は、高忠実度かつ長期的な一貫性を持つリアクティブダンス生成を実現するため、細やかな空間表現を可能にする階層的有限スカラー量子化(HFSQ)と、効率的な長系列生成を可能にするブロック単位局所コンテキスト(BLC)戦略を備えた拡散モデル「ReactDance」を提案するものです。

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

本論文は、カメラとレーダーの融合を用いた鳥瞰図セグメンテーションにおいて、段階的な残差自己回帰学習と双経路ボクセル特徴符号化を組み合わせることで、高精度かつリアルタイムな環境認識を実現する「RESAR-BEV」という説明可能なフレームワークを提案し、nuScenes ベンチマークで最先端の性能を達成したことを報告しています。

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

本論文は、外部データやモデルに依存せず、アテンションベースのオブジェクトマスクとオブジェクト重み付き SimPO 損失を活用してオブジェクトレベルのテキスト - 画像整合性を強化し、物体の幻覚を削減する自己改善型ファインチューニング手法「OSPO」を提案し、その有効性を示したものである。

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

本論文は、事前学習された画像キャプションモデルによる埋め込みの初期化、潜在空間における逆方向の微調整、および埋め込みからテキストへの変換を組み合わせた「EDITOR」と呼ばれる手法を提案し、既存の手法を上回る画像類似性、テキスト整合性、解釈可能性、汎用性を達成するとともに、クロスコンセプト合成やセグメンテーションなど多様な応用を実現するものです。

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

非エルミート結晶のエネルギー準位から自動抽出された 1160 万枚の空間多重グラフを含む大規模データセット「HSG-12M」を提案し、既存のグラフベンチマークが見過ごしていた幾何学的情報の重要性を浮き彫りにするとともに、物性物理学におけるデータ駆動型発見と幾何学意識型グラフ学習の新たな基盤を確立しました。

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

この論文は、複数の人物や物体が同一の動画内で相互作用するシナリオに対応するため、各アイデンティティの空間的・時間的領域にテキスト、画像、音声などのマルチモーダル条件を厳密に紐付ける新しいフレームワーク「InterActHuman」を提案し、高品質な多概念人間アニメーション生成を実現するものです。

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

本論文は、脳腫瘍セグメンテーションの高精度かつ軽量な実装を可能にするため、モダリティ適応型エンコーダ、グラフに基づく多モーダル協調相互作用モジュール、およびボクセル再細化アップサンプリングモジュールを組み合わせた「GMLN-BTS」という新しいネットワークを提案し、主要な 3D トランスフォーマーと比べてパラメータ数を 98% 削減しつつ最先端の性能を達成したことを示しています。

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

本論文は、任意のノイズパターンを扱えるよう拡散モデルの設計空間を拡張し、画像復元タスクにおけるノイズの複雑化による計算コスト増大を防ぐ新たな理論的枠組み「EDA」を提案し、医療画像および自然画像の多様な復元タスクにおいて高い汎用性と性能を実証したものである。

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

本論文は、組織病理画像における高細胞密度や異質性、そして臨床的な分割意図とピクセルレベルの教師信号の乖離といった課題に対処するため、視覚基盤モデルに初めて直接選好最適化(DPO)を適用し、多様なノイズを含むプロンプトから正確な分割を可能にする「SAMPO」という新たなファインチューニングフレームワークを提案するものです。

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

この論文は、大規模な障害物回避を可能にするために特権情報(到達時間マップ)と新しい損失関数を活用した強化学習ベースの四旋回飛行ロボットナビゲーション手法を提案し、シミュレーションおよび屋外実機実験において高い成功率と安全性を実証したものである。

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

本論文は、計算リソースが限られた遠隔物体の局所化問題に対し、マルチビュー三角測量や粒子フィルタを用いた手法を提案し、ドローンによる画像セグメンテーションと GNSS 位置情報からなるノイズの多い画像系列を用いたシミュレーションおよび実証実験により、山火事監視などの安全クリティカルなタスクへの信頼性ある適用可能性を示したものである。

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs