Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

本論文は、少数のデモンストレーションから視覚言語モデルのガイダンスにより意味的対応関係に基づいて軌道を歪めるオープンループ方策を設計し、これを用いて実世界で自律的に多様な機能遊びを実行することで、人間の介入を最小限に抑えながら高品質な学習データを生み出し、最終的に人間によるデモンストレーションと同等の性能を持つクローズドループ模倣方策を構築する「Tether」という手法を提案しています。

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

本論文は、大規模モーションキャプチャデータを物理的に妥当な形でヒューマノイドへ変換するニューラルリターゲティング手法と、事前定義された動作参照に依存せず視覚入力や高レベルなタスク指示から自律的な全身操作を実現する統合マルチモーダル制御器を組み合わせた「ULTRA」フレームワークを提案し、シミュレーションおよび実機 Unitree G1 における検証で、従来の追跡ベースの手法を凌ぐ汎用性と頑健性を示したものである。

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

この論文は、力覚データ収集と模倣学習による初期方策の学習、および定量的指標と人間のフィードバックを組み合わせた報酬モデルを用いた選好ベースの微調整という 2 段階のフレームワークを提案し、50〜200 の試行のみで多種多様な果物・野菜の皮むきにおいて 90% 以上の成功率と優れたゼロショット汎化性能を実現したことを報告しています。

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

Utonia: Toward One Encoder for All Point Clouds

本論文は、リモートセンシングから屋内 LiDAR、CAD モデル、RGB 動画から抽出された点雲まで多様なドメインにまたがる単一の自己教師あり点変換器エンコーダ「Utonia」を提案し、これによりドメイン横断的な表現学習を実現するとともに、ロボティクスや視覚言語モデルにおける推論能力の向上など、広範な応用における潜在的可能性を示しています。

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

この論文は、従来の空間アテンション機構の限界を克服し、受容野の空間特徴に焦点を当てた新たな「受容野アテンション(RFA)」とそれを組み込んだ「RFAConv」を提案することで、計算コストをほぼ増やすことなく畳み込みニューラルネットワークの性能を大幅に向上させることを示しています。

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

従来の光学設計が画像の鮮明さやエンドツーエンド学習の不安定性に課題を抱える中、本論文は事前学習済みビジョンモデルを固定してレンズのみを最適化する「タスク駆動型レンズ設計」を提案し、安定した学習プロセスを通じて既存の光学レンズを上回る性能を持つ新しいレンズ設計を実現したことを示しています。

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

データが不足する状況におけるマルチインスタンス学習の課題を解決するため、インスタンス間のトポロジカル構造を保持する制約を導入した「トポロジーガイド型 MIL(TG-MIL)」を提案し、合成データから希少疾患分類までの幅広い評価で既存の最先端モデルを上回る性能向上を実現したことを報告しています。

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

既存の動画フレーム補間手法が抱える速度の曖昧さによるぼやけを解消するため、時間位置ではなく移動距離に基づく明示的な「距離インデックス」を導入し、参照ベースの反復推定や連続マップ推定と組み合わせることで、任意の時間補間における画質と精度を大幅に向上させる新たなアプローチを提案する。

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

この論文は、大規模マルチモーダルデータの複雑な因果構造を捉えるために新しい潜在部分因果モデルを提案し、その理論的同一性証明と実証実験を通じて、MultiModal Contrastive Learning(MMCL)や CLIP などの事前学習モデルが持つ表現の解離性や汎化能力のメカニズムを解明し、その実用性を拡張するものです。

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

本論文では、異なる実験条件や変異体への適用性を高めるために転移学習やデータ拡張などの手法を統合し、ゼブラフィッシュの心機能(特に nrap 変異体における心筋症モデル)を高精度かつ汎用的に定量化する「ZACAF」フレームワークの改良とその有効性を示しています。

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

本論文は、大規模言語モデルを用いたカテゴリ固有の詳細な異常記述と、マルチスケール・多形状の交差モダリティ相互作用による高精度な局所化を組み合わせた新しいゼロショット異常検出手法「FiLo」を提案し、MVTec や VisA データセットにおいて最先端の性能を達成したことを報告しています。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

この論文は、勾配降下法の「単純性バイアス」を軽減するために学習データ分布を調整する手法「USEFUL」を提案し、その理論的根拠を証明するとともに、CIFAR や ImageNet などの複数のデータセットにおいて最先端の汎化性能を実現したことを示しています。

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

本論文は、運転者の姿勢と相互作用する物体の情報を活用してトラン스포マーのトークン選択を最適化し、エッジデバイスでの効率的な実行を可能にしながら、運転中の注意散漫検出の精度と効率性を両立させた「PO-GUISE+」を提案し、複数のデータセットで最先端の結果を達成したことを報告しています。

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

本論文は、複数のカメラ画像、LiDAR 点群、セマンティックセグメンテーションマスク、およびテキスト記述を後期融合して包括的な場所記述子を生成する「MSSPlace」を提案し、Oxford RobotCar および NCLT データセットでの実験により、マルチモーダルなデータ統合が単一モダリティ手法を凌駕する最先端の場所認識性能を実現することを示しています。

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs