Advancing Complex Video Object Segmentation via Progressive Concept Construction

この論文は、大規模視覚言語モデルを活用して高レベルな概念表現を段階的に構築する「Segment Concept (SeC)」フレームワークと、複雑な意味理解を要する新たなベンチマーク「SeCVOS」を提案し、既存の最先端手法を大幅に上回る性能で複雑なビデオ物体セグメンテーションを実現したことを報告しています。

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

本論文は、スタンフォード大学のロボット試験施設と高速シミュレーション環境を組み合わせたハイブリッド・ツインフレームワークを提案し、宇宙機の接近・編隊飛行におけるガイダンス・航法・制御(GNC)システムの信頼性を、ソフトウェアおよびハードウェア・イン・ザ・ループの両面から検証・評価する手法を示しています。

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

本論文は、Panoptic Studio や Ego-Exo4D などのデータセットを用いた実験により、少数のスパースな視点からの動画から動的なシーンを再構築する手法「MonoFusion」を提案し、従来の密な多視点手法が苦手とする限定的な視点重なり下でも、各単眼再構築を整合させることで高品質な動的シーン再構築と新規視点レンダリングを実現することを示しています。

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

本論文は、多変量時系列データの複雑な相互依存関係を捉えるために階層的ハイパーグラフとトランスフォーマーを統合した「HGTS-Former」を提案し、核融合におけるエッジ局所モード(ELM)の認識を含む多様なタスクで最先端の性能を達成したことを報告しています。

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

この論文は、視覚状態の遷移を統合的にモデル化し、マクロレベルの計画とミクロレベルの実行という二段階の推論パラダイムを導入することで、計算コストを抑えながら視覚と言語にまたがる一貫性のある推論を実現する「Uni-CoT」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

本論文は、視覚言語モデルに基づく意思決定と運転世界モデルに基づく未来シナリオ生成を統合し、生成された想像されたシナリオを用いて計画を反復的に最適化する新たな自律運転フレームワーク「ImagiDrive」を提案し、nuScenes および NAVSIM データセットにおける広範な実験でその有効性を実証したものである。

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

この論文は、E コマース商品理解における既存の判別モデルの限界を克服し、ガイド付き MoE モジュールや背景ノイズ低減、特殊な負サンプリング戦略を導入した生成型マルチモーダル大規模言語モデル「MOON」と、その評価用大規模ベンチマーク「MBE」を提案し、多様な下游タスクで高い汎化性能を示すことを報告しています。

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

本論文は、医療画像におけるオープンエンドな推論における報酬崩壊の問題を解決し、臨床診断ワークフローに即した強固な推論システムを実現するために、ドメイン専門知識の注入と適応的セマンティック報酬を組み合わせた新しい強化学習フレームワーク「ARMed」を提案し、複数のベンチマークで高い精度と汎化性能を実証したものである。

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

この論文は、組織学と転写組学データの異質性、多スケール統合の欠如、および対データへの依存という課題を解決するため、サブ空間分解、多倍率整合、知識蒸留、トークン集約などの戦略を組み合わせた解離型マルチモーダル学習フレームワークを提案し、がんの診断・予後・生存予測において最先端の性能を達成したことを示しています。

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

本論文は、単一の画像、多視点観測、または単眼動画など多様な日常記録から、大規模ガウス再構成トランスフォーマー(LGRT)を用いて数秒で高品質な 3D ガウススプラッティングモデルを柔軟かつ段階的に再構成する、高速かつ統一された 3D アバター復元フレームワーク「FastAvatar」を提案するものである。

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

本論文は、fMRI 画像の領域ごとのテキスト生成とマルチモーダル特徴融合を統合し、脳機能画像の低信号対雑音比や被験者間変動といった課題を克服して脳障害診断の精度を向上させる「RTGMFF」という新しいフレームワークを提案し、ADHD-200 および ABIDE ベンチマークで既存手法を上回る性能を実証したものである。

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

既存の評価基準の限界を克服するため、構成と推論の両方の能力を包括的かつ複雑に評価する新しいベンチマーク「T2I-CoReBench」を提案し、その実験により現在のテキストから画像生成モデルは高密度な構成や暗黙の推論において依然として大きな課題を抱えていることを明らかにしました。

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs