Multimodal Graph Representation Learning with Dynamic Information Pathways

この論文は、画像やテキストなど異種の特徴を持つマルチモーダルグラフにおいて、静的な構造や密なアテンションに依存する既存手法の限界を克服し、モダリティ固有の擬似ノードと動的な情報経路を活用することで、適応的かつ効率的なグラフ表現学習を実現する「DiP」と呼ばれる新しいフレームワークを提案し、複数のベンチマークで優れた性能を示したことを述べています。

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

本論文は、ウェブ動画から大規模な視覚言語ナビゲーション学習フレームワークを構築し、3D 復元を不要とする隐幾何表現を導入することで、実世界環境でのナビゲーション性能と汎用性を大幅に向上させたことを報告しています。

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

本論文は、VR 会議におけるエンドツーエンド遅延が、ユーザーの相互作用の流暢さ(知覚的側面)と社会的臨場感(認知的側面)に与える影響を、従来のビデオ会議と比較した主観実験を通じて分析し、その関係を解明することで没入型仮想環境のシステム最適化に貢献する知見を提供するものである。

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi Lin2026-03-11💻 cs

On the Online Weighted Non-Crossing Matching Problem

この論文は、ユークリッド平面上のオンライン重み付き非交差マッチング問題について、決定論的アルゴリズムの限界、重み制限下およびランダム化アルゴリズムによる定数競争比の達成可能性、取り消しや共線点などのバリエーション、および最適解を得るためのアドバイス複雑性の改善された限界を研究したものである。

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis Pankratov2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

本論文は、産業分野におけるテキストから 3D 生成の課題であるドメイン適応と幾何学的推論の欠如を解決するため、カテゴリ間干渉を排除するマルチエキスパート LoRA 集合体と、高次構造依存関係を捉えるクロスビューハイパーグラフ幾何強化を導入した「ForgeDreamer」という新たなフレームワークを提案しています。

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

本論文は、複数の参加者が混合現実(MR)環境で触れ合うことで、菌根菌ネットワークの相互依存関係を身体的に体験し、加速する個人主義への批判的視点から「菌類の認識論」に基づく新たな倫理的・美的体験を提示する「FungiSync」という共同 MR 作品を紹介するものである。

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu Lin2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

この論文は、影、急激な動き、マスクの欠陥といった現実世界の不完美な条件下でも、MUSE、DA-Seg、カリキュラム学習に基づく 2 段階トレーニングという 3 つの主要な設計により、時間的安定性と視覚的一貫性を維持しながら物体を安定して除去する新しいフレームワーク「SVOR」を提案し、動画物体除去を理想的な環境から実世界応用へと進展させるものです。

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

この論文は、古典的な凸性の定義に基づく自己教師ありの幾何学的目的関数を用いて連続的な特徴場を学習し、物理シミュレーションの衝突検出などに応用可能な高品質な凸分解を、メッシュやCAD モデル、ガウシアンスプラットなど多様な 3D 表現に対して汎用的に実行できる最初のフィードフォワードモデルを提案するものである。

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender は、認知空間と意味多様体のマッピングとフローマッチング手法の再定式化により、画像生成プロセスにおいて価性や覚醒度などの認知属性を連続的かつ多角的に制御し、意図した心理的効果を持つ画像を生成する新しいフレームワークを提案するものです。

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

本論文は、マルチモーダル物体追跡において既存手法の課題である均一な融合と時系列情報の混在を解決するため、モダリティ固有の融合と時系列情報の分離伝達を実現する新しいフレームワーク「MDTrack」を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

本論文は、大規模言語モデルエージェントがオープンソースのコードリポジトリを自動的に標準化された実行可能ツールに変換し、人間の介入を最小限に抑えて安全にタスクを完了させるための統合フレームワーク「ToolRosetta」を提案するものである。

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

本論文は、タスクの進捗を可視的なマイルストーンとして監視し、失敗時に状態を巻き戻す「See, Plan, Rewind (SPR)」という新しいビジョン・言語・アクションフレームワークを提案し、追加学習なしでロボットの操作タスクにおける堅牢性と未知環境への適応能力を大幅に向上させることを示しています。

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

本論文は、テキストに依存せず音声の非言語的特徴と感情情報を統合したモデルを提案し、共感的対話における「感情の受容(バリデーション)」の適切なタイミングを高精度に検出することで、より共感的な人間・ロボット対話の実現を目指す研究です。

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya Kawahara2026-03-11💻 cs

External entropy supply for IoT devices employing a RISC-V Trusted Execution Environment

この論文は、RISC-V 基盤のトラステッド・エクスキューション・エンバイロメント(TEE)を活用して、エントロピー収集が困難な IoT データに対して外部から暗号学的に強固な乱数を供給する実用的なソリューションを提案し、その実現可能性と有効性をオープンソース実装を通じて実証したものである。

Arttu Paju, Alejandro Cabrera Aldaya, Nicola Tuveri, Juha Savimäki, Marko Kivikangas, Brian McGillion2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

本論文は、生成された SVG のレンダリング結果を視覚的に評価し、そのフィードバックを生成プロセスに閉ループで組み込む「イントロスペクティブな生成器・批評家フレームワーク(IntroSVG)」を提案し、これにより既存の手法を凌駕する複雑で意味整合性の高い高品質なテキストから SVG への生成を実現したことを述べています。

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

本論文は、従来の較正が手間とコストを要していた湾曲視触覚センサーに対し、身近な物体との数回の接触だけで高精度な 3 次元再構成を可能にする効率的な較正フレームワーク「NLiPsCalib」と、その検証用センサー「NLiPsTac」を提案するものである。

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs