RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

本論文は、ビジョン・言語・アクション(VLA)モデルの推論効率を維持しつつ 3 次元空間推論能力を向上させるため、ビジョン・トランスフォーマーのレジスタートークンを動作計画モジュールへ再活用する「RetoVLA」を提案し、実世界の実験で成功率を 17.1 ポイント向上させたことを示しています。

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

本論文は、大規模な 3D 再構築モデル VGGT の推論コストを削減するため、重み付きトークンによる重たい分布やマルチビューデータの不安定性という課題を解決し、4 ビット量子化で 3.7 倍のメモリ削減と 2.5 倍の高速化を実現する新しい量子化フレームワーク「QuantVGGT」を提案する。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

本論文は、GPS 非依存環境において、深層強化学習による胴体安定化と、視界制約下での有限時間収束を保証する制御戦略を組み合わせることで、複雑な地形(階段や急斜面)における UAV と四足歩行ロボットの自律ドッキングを実現するフレームワークを提案しています。

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

本論文は、検出と追跡クエリを単一のデコーダ層で処理する既存の DETR 系フレームワークの課題を克服するため、フレーム間での物体運動を明示的に予測して追跡クエリを事前に更新する「Motion-Aware Transformer(MATR)」を提案し、DanceTrack や SportsMOT などの主要ベンチマークで最先端の性能を達成したことを示しています。

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

本論文は、3D ガウススプラッティングに基づく高忠実度メッシュ再構成のために、外部モデルに依存せず反射面にも頑健な材料感知最適化フレームワーク「GS-2M」を提案し、多視点フォトメトリック変動に基づく粗さ監視戦略を用いて最先端の手法と同等の精度を達成することを示しています。

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

本論文は、外部力に対する可変なコンプライアンス動作と、その限界を超えた際の迅速な回復・安定化を、安全監視機能によって統合的に制御する強化学習フレームワーク「SAC-Loco」を提案し、四足歩行ロボットの安全性と柔軟性を両立させることを可能にします。

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

本論文は、ビジョン・ファウンデーションモデルを教師として活用し、セマンティックセグメンテーションと深度推定を同時に行う効率的なドメイン適応型マルチタスク学習フレームワーク「FAMDA」を提案し、合成から実世界への転移や昼夜間適応において最先端の性能と軽量性を両立させることを示しています。

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

本論文は、モデル量子化とアテンション疎化を統合し、マルチスケールな注目蒸留と第二次数疎アテンション再パラメトリゼーションを導入することで、HunyuanVideo-13B において既存の量子化手法を大幅に上回る画質を維持しつつ、ストレージを 3.68 倍、推論速度を 1.88 倍に改善する「QuantSparse」という動画生成トランスフォーマーの圧縮フレームワークを提案しています。

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

本論文は、テキスト、音楽、先行モーションなど多様な入力に基づき、リクトファインフローと RAG モジュールを活用して、二人間の協調的なインタラクティブおよびリアクティブな 3D 運動を高速かつ高精度に生成する統合フレームワーク「DualFlow」を提案し、その性能を多角的なベンチマークで実証したものである。

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

本論文は、LLM ベースのマルチエージェント計画における適応性と効率性のトレードオフを解決するため、サブゴール意図に明示的に紐付いた「アクションチェーン」を基本単位として採用し、既存手法の 30〜40% のトークン消費で同等のタスク成功率を達成する新しいフレームワーク「ELHPlan」を提案しています。

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

本論文では、血流力学のナビエ - ストークス方程式に基づいて脈動信号が二次動的システムに従うことを理論的に示し、これを基にゼロ演算量の軸交換モジュール、適応的空間フィルタ、ゲート付き TCN を組み合わせた軽量かつ高精度な物理駆動型 rPPG モデル「PHASE-Net」を提案し、頭部運動や照明変化に対するロバスト性と実用性を両立させています。

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

本論文は、眼科における視力障害疾患の診断支援とバイアス評価を目的として、12 の疾患と 5 つの画像モダリティにまたがる大規模なマルチモーダルデータセット「LMOD+」と、24 種類の最先端マルチモーダル大規模言語モデルの包括的ベンチマークを提案し、その性能限界と将来の可能性を明らかにしたものである。

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Demystifying Codensity Monads via Duality

この論文は、圏間の適切な双対性を用いて関手を稠密関手に関連付けるという統一的な圏論的アプローチを提案し、これにより論理や確率計算における重要なモノイドのコードシティー性に関する既存の複雑な証明を大幅に簡略化するとともに、フィルターモノイドや期待値モノイドなどに対する新規なコードシティー性表示を導出するものである。

Fabian Lenke, Nico Wittrock, Stefan Milius, Henning Urbat2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

この論文は、UWB とレーダー、IMU、車輪エンコーダなどの安価なセンサーを組み合わせ、非線形最適化およびポーズグラフ最適化を用いて、無人地上車と無人航空機間の相対位置を高精度に推定する新しいマルチロボットシステムを提案し、その有効性をシミュレーションと実世界データで実証するとともに、コードとデータを公開している。

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

この論文は、非ホロノミックロボットが動的な障害物に囲まれた環境で安全に移動できるよう、相対速度の角度だけでなく距離や速度の大きさも考慮して放物線状の安全領域を動的に調整する「動的放物線制御バリア関数(DPCBF)」を提案し、従来の衝突円錐法よりも制約が緩和され、高密度な環境でも制御問題の実行可能性と航行成功率を大幅に向上させることを実証しています。

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

本論文は、自己回帰型動画拡散モデルにおいて、生成された動画の任意のフレームを任意の物体に対してインタラクティブにドラッグ操作し、潜空間のドリフトや文脈干渉を抑制するトレーニング不要な手法「DragStream」を提案し、ストリーミング型のドラッグ指向動画操作タスク「REVEL」を実現するものである。

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

本論文は、大規模自己教師あり学習モデル「w2v-BERT 2.0」を話者検証タスクに応用し、LoRA による効率的な微調整と知識蒸留に基づく構造化プルーニングを組み合わせることで、SOTA 性能を維持しつつモデルサイズを 80% 削減することに成功したことを報告しています。

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

本論文は、拡散モデルを用いた軌道最適化において、非線形等式制約(動的実現可能性)を明示的に満たすため、状態系列を直接生成し、逆拡散プロセスに勾配なしの射影メカニズムを組み込んだ「PAD-TRO」という新規アプローチを提案し、高密度障害物環境でのクアッドコプタの航法タスクにおいて、既存の最先端手法と比較して動的実現可能性エラーをゼロに抑え、成功率を約 4 倍向上させることを実証しています。

Jushan Chen, Santiago Paternain2026-03-10💻 cs