BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

本論文は、ロボット操作タスクにおいてフル精度モデルと同等の性能を維持しつつ、モデルメモリを 11 倍、レイテンシを 4.4 倍削減する、すべてのパラメータが 1 ビット({-1,0,1})のネイティブな「BitVLA」という新しいビジョン - ランゲージ - アクションモデルを提案し、その実用性を示しています。

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD2^{2}GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

本論文は、自己教師あり学習により関節物体の幾何学と運動学を連続的に変形可能なガウススプラッティングで統合的にモデル化する「PD²GS」を提案し、その実世界評価用のデータセット「RS-Art」も公開することで、既存手法を上回る精度と連続制御の安定性を実現したことを述べています。

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

学習ベースの画像圧縮(NIC)の堅牢性評価の欠如を填补するため、本論文は、多様な攻撃と防御策、標準的なレート歪み指標、および下流タスクへの影響評価を含む包括的なオープンソースベンチマーク「NIC-RobustBench」を提案し、NIC 手法の敵対的攻撃に対する脆弱性と回復力に関する広範な実証研究を行っています。

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

本論文は、テキストと視覚情報の不一致が既存の視覚トークン削減手法の限界をもたらすことを指摘し、テキストに依存せず視覚情報のみでトークンを選択・統合するトレーニング不要なフレームワーク「VisionDrop」を提案することで、推論コストを大幅に削減しつつ高精度を維持することを可能にしました。

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

この論文は、大規模視覚言語モデルを活用して高レベルな概念表現を段階的に構築する「Segment Concept (SeC)」フレームワークと、複雑な意味理解を要する新たなベンチマーク「SeCVOS」を提案し、既存の最先端手法を大幅に上回る性能で複雑なビデオ物体セグメンテーションを実現したことを報告しています。

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

本論文は、スタンフォード大学のロボット試験施設と高速シミュレーション環境を組み合わせたハイブリッド・ツインフレームワークを提案し、宇宙機の接近・編隊飛行におけるガイダンス・航法・制御(GNC)システムの信頼性を、ソフトウェアおよびハードウェア・イン・ザ・ループの両面から検証・評価する手法を示しています。

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

本論文は、Panoptic Studio や Ego-Exo4D などのデータセットを用いた実験により、少数のスパースな視点からの動画から動的なシーンを再構築する手法「MonoFusion」を提案し、従来の密な多視点手法が苦手とする限定的な視点重なり下でも、各単眼再構築を整合させることで高品質な動的シーン再構築と新規視点レンダリングを実現することを示しています。

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

本論文は、多変量時系列データの複雑な相互依存関係を捉えるために階層的ハイパーグラフとトランスフォーマーを統合した「HGTS-Former」を提案し、核融合におけるエッジ局所モード(ELM)の認識を含む多様なタスクで最先端の性能を達成したことを報告しています。

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

この論文は、視覚状態の遷移を統合的にモデル化し、マクロレベルの計画とミクロレベルの実行という二段階の推論パラダイムを導入することで、計算コストを抑えながら視覚と言語にまたがる一貫性のある推論を実現する「Uni-CoT」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

本論文は、視覚言語モデルに基づく意思決定と運転世界モデルに基づく未来シナリオ生成を統合し、生成された想像されたシナリオを用いて計画を反復的に最適化する新たな自律運転フレームワーク「ImagiDrive」を提案し、nuScenes および NAVSIM データセットにおける広範な実験でその有効性を実証したものである。

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

この論文は、E コマース商品理解における既存の判別モデルの限界を克服し、ガイド付き MoE モジュールや背景ノイズ低減、特殊な負サンプリング戦略を導入した生成型マルチモーダル大規模言語モデル「MOON」と、その評価用大規模ベンチマーク「MBE」を提案し、多様な下游タスクで高い汎化性能を示すことを報告しています。

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI