cs 件の論文 | Gist.Science

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

本論文は、VLM と「ロボティック・イマジネーション」を統合し、不確実性を検知して能動的にカメラ視点を変更することで曖昧性を解消し、さらに拡散方策を用いた能動的追跡モジュールで移動物体の可視性を維持する、ロボット操作のための高精度な 6 次元物体姿勢推定・追跡システム「ActivePose」を提案しています。

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Bio-inspired tail oscillation enables robot fast crawling on deformable granular terrains

泥跳魚（マッドスキッパー）に着想を得たロボットの実験により、尾の振動が砂地などの変形性地盤において流体化効果を生み抵抗を低減し、移動速度を 67% 向上させることが示され、尾の形状と地盤強度に応じた制御戦略の設計指針が提示されました。

Shipeng Liu, Meghana Sagare, Shubham Patil, Feifei Qian2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

本論文は、従来の線形アテンションにおける低ランク制約と特徴の冗長性を解消し、高解像度画像処理において計算効率と表現力を両立させるために、入力適応型の選択的アダプティブゲーティング（SAGA）を提案するものである。

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

この論文は、アノテーションを必要とせず、テスト時のデータ拡張と予測バウンディングボックスの空間的一貫性を測定することで、実環境における物体検出モデルの信頼性を評価する新しい指標「累積合意スコア（CCS）」を提案し、その有効性と理論的根拠を実証しています。

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

本論文は、都市の街路樹インベントリを効率化するため、2 つの都市で収集された 2 万 1,007 件のアノテーション付き木々を含む大規模なマルチモーダルデータセット「WHU-STree」を提案し、その多様なタスクへの適用性と将来の課題を検証するものです。

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

この論文は、センサー遅延と計算コストに起因する制御ループの非同期性を解消するため、遅延を明示的に条件付けする時間符号化モジュールとカリキュラム学習を導入した非同期強化学習フレームワークを提案し、実機でのゼロショット転移により高頻度かつロバストな自律飛行を実現したことを示しています。

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

本論文は、凍結された事前学習済み幾何学モデルを特徴抽出器として統合する GeoAware-VLA を提案し、2D 画像からの 3D 幾何学推論の困難さを克服することで、未知のカメラ視点に対するゼロショット汎化性能を大幅に向上させつつ、分布内性能も維持または改善することを示しています。

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

本研究は、多様な物体の飛行軌跡を記録した大規模データセットを構築し、物体適応型エンコーダとインパクトポイント予測器を備えた OIPP を提案することで、複雑な空気力学条件下における四足歩行ロボットによる物体キャッチングの精度と成功率を向上させたことを示しています。

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

この論文は、音声印象（VI）制御のための初の公開コーパス「LibriTTS-VI」を構築し、参照音声による印象の漏洩を軽減する新規手法（2 utterance による学習と参照不要制御）を提案することで、数値的な音声印象制御の精度を大幅に向上させたことを報告しています。

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura2026-03-10💻 cs

Compose by Focus: Scene Graph-based Atomic Skills

この論文は、タスクに関連する物体と関係に焦点を当てたシーングラフ表現と拡散モデルに基づく模倣学習を統合し、視覚運動制御のロバスト性と長期的タスクの構成的汎化能力を大幅に向上させる新しいフレームワークを提案しています。

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

DroFiT: A Lightweight Band-fused Frequency Attention Toward Real-time UAV Speech Enhancement

本論文は、ドローンによる自己雑音の厳しい環境下で、軽量かつリアルタイム処理が可能な単一マイク音声增强ネットワーク「DroFiT」を提案し、周波数帯域融合アテンションと効率的なアーキテクチャにより、限られた計算資源を持つ UAV プラットフォーム上での実用化を実現したことを示しています。

Jeongmin Lee, Chanhong Jeon, Hyungjoo Seo, Taewook Kang2026-03-10💻 cs

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

本論文は、イベントカメラのバイナリ構造とフーリエ領域の高速相互相関を用いて処理遅延を 2.88ms に抑え、昼夜・室内外を問わず 3000 メートル以上で横逸脱誤差 15cm 未満のリアルタイム視覚教示・反復ナビゲーションを実現するシステムを提案するものである。

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

この論文は、既存の動画ベンチマークが音声情報を過小評価していることを実証し、音声エンコーダーを統合した新しいモデルが音声理解やクロスモーダルなタスクにおいて明確な性能向上をもたらすことを示しています。

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

本論文は、単一の画像から高忠実度な表面と SDF 場を数秒で効率的に再構築し、ロボットにおける表面追従タスクへの応用を可能にする軽量フレームワーク「FINS」を提案するものである。

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

本論文は、ビジョン・言語・アクション（VLA）モデルの推論効率を維持しつつ 3 次元空間推論能力を向上させるため、ビジョン・トランスフォーマーのレジスタートークンを動作計画モジュールへ再活用する「RetoVLA」を提案し、実世界の実験で成功率を 17.1 ポイント向上させたことを示しています。

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

本論文は、大規模な 3D 再構築モデル VGGT の推論コストを削減するため、重み付きトークンによる重たい分布やマルチビューデータの不安定性という課題を解決し、4 ビット量子化で 3.7 倍のメモリ削減と 2.5 倍の高速化を実現する新しい量子化フレームワーク「QuantVGGT」を提案する。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

本論文は、GPS 非依存環境において、深層強化学習による胴体安定化と、視界制約下での有限時間収束を保証する制御戦略を組み合わせることで、複雑な地形（階段や急斜面）における UAV と四足歩行ロボットの自律ドッキングを実現するフレームワークを提案しています。

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

本論文は、検出と追跡クエリを単一のデコーダ層で処理する既存の DETR 系フレームワークの課題を克服するため、フレーム間での物体運動を明示的に予測して追跡クエリを事前に更新する「Motion-Aware Transformer（MATR）」を提案し、DanceTrack や SportsMOT などの主要ベンチマークで最先端の性能を達成したことを示しています。

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

本論文は、3D ガウススプラッティングに基づく高忠実度メッシュ再構成のために、外部モデルに依存せず反射面にも頑健な材料感知最適化フレームワーク「GS-2M」を提案し、多視点フォトメトリック変動に基づく粗さ監視戦略を用いて最先端の手法と同等の精度を達成することを示しています。

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

本論文は、ベイズ的説得理論に基づき大規模言語モデルの戦略的説得能力を評価・訓練するための体系的な枠組みを提案し、最先端モデルが高度な戦略を駆使して高い説得効果を示すこと、さらに強化学習により小規模モデルでも同様の成果が得られることを実証しています。

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

← 前へ次へ →