cs.CV 件の論文 | Gist.Science

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

本論文は、少数のデモンストレーションから視覚言語モデルのガイダンスにより意味的対応関係に基づいて軌道を歪めるオープンループ方策を設計し、これを用いて実世界で自律的に多様な機能遊びを実行することで、人間の介入を最小限に抑えながら高品質な学習データを生み出し、最終的に人間によるデモンストレーションと同等の性能を持つクローズドループ模倣方策を構築する「Tether」という手法を提案しています。

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

本論文は、大規模モーションキャプチャデータを物理的に妥当な形でヒューマノイドへ変換するニューラルリターゲティング手法と、事前定義された動作参照に依存せず視覚入力や高レベルなタスク指示から自律的な全身操作を実現する統合マルチモーダル制御器を組み合わせた「ULTRA」フレームワークを提案し、シミュレーションおよび実機 Unitree G1 における検証で、従来の追跡ベースの手法を凌ぐ汎用性と頑健性を示したものである。

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

この論文は、力覚データ収集と模倣学習による初期方策の学習、および定量的指標と人間のフィードバックを組み合わせた報酬モデルを用いた選好ベースの微調整という 2 段階のフレームワークを提案し、50〜200 の試行のみで多種多様な果物・野菜の皮むきにおいて 90% 以上の成功率と優れたゼロショット汎化性能を実現したことを報告しています。

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

MIBURI: Towards Expressive Interactive Gesture Synthesis

本論文は、LLM による音声テキスト埋め込みを条件とした 2 次元因果フレームワークと身体部位を考慮した手势コーデックを採用し、リアルタイムで自然かつ多様性のある全身ジェスチャーと表情を生成する初のオンライン手法「MIBURI」を提案するものである。

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Utonia: Toward One Encoder for All Point Clouds

本論文は、リモートセンシングから屋内 LiDAR、CAD モデル、RGB 動画から抽出された点雲まで多様なドメインにまたがる単一の自己教師あり点変換器エンコーダ「Utonia」を提案し、これによりドメイン横断的な表現学習を実現するとともに、ロボティクスや視覚言語モデルにおける推論能力の向上など、広範な応用における潜在的可能性を示しています。

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

この論文は、1 ステージ物体検出における極端なクラス不均衡問題を解決するため、分類タスクをランキングタスクに置き換え、平均精度損失（AP-loss）を最適化する新しいアルゴリズムを提案し、既存のネットワーク構造を変更せずに検出精度を大幅に向上させることを示しています。

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

この論文は、1 ステージ物体検出における極端なクラス不均衡問題を解決するため、分類タスクをランキングタスクに置き換え、平均精度損失（AP-loss）を最適化するための新規アルゴリズムを提案し、既存手法を上回る性能を達成したことを報告しています。

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

OmniTracker: Unifying Object Tracking by Tracking-with-Detection

本論文は、追跡と検出の両方の長所を統合した「追跡付き検出」のパラダイムを提案し、単一の共有アーキテクチャでインスタンス追跡からカテゴリ追跡まであらゆる視覚的物体追跡タスクを効率的かつ高精度に解決する統一モデル「OmniTracker」を開発したものである。

Junke Wang, Zuxuan Wu, Dongdong Chen + 4 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

この論文は、従来の空間アテンション機構の限界を克服し、受容野の空間特徴に焦点を当てた新たな「受容野アテンション（RFA）」とそれを組み込んだ「RFAConv」を提案することで、計算コストをほぼ増やすことなく畳み込みニューラルネットワークの性能を大幅に向上させることを示しています。

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

従来の光学設計が画像の鮮明さやエンドツーエンド学習の不安定性に課題を抱える中、本論文は事前学習済みビジョンモデルを固定してレンズのみを最適化する「タスク駆動型レンズ設計」を提案し、安定した学習プロセスを通じて既存の光学レンズを上回る性能を持つ新しいレンズ設計を実現したことを示しています。

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

データが不足する状況におけるマルチインスタンス学習の課題を解決するため、インスタンス間のトポロジカル構造を保持する制約を導入した「トポロジーガイド型 MIL（TG-MIL）」を提案し、合成データから希少疾患分類までの幅広い評価で既存の最先端モデルを上回る性能向上を実現したことを報告しています。

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

既存の動画フレーム補間手法が抱える速度の曖昧さによるぼやけを解消するため、時間位置ではなく移動距離に基づく明示的な「距離インデックス」を導入し、参照ベースの反復推定や連続マップ推定と組み合わせることで、任意の時間補間における画質と精度を大幅に向上させる新たなアプローチを提案する。

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

この論文は、大規模マルチモーダルデータの複雑な因果構造を捉えるために新しい潜在部分因果モデルを提案し、その理論的同一性証明と実証実験を通じて、MultiModal Contrastive Learning（MMCL）や CLIP などの事前学習モデルが持つ表現の解離性や汎化能力のメカニズムを解明し、その実用性を拡張するものです。

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

本論文では、異なる実験条件や変異体への適用性を高めるために転移学習やデータ拡張などの手法を統合し、ゼブラフィッシュの心機能（特に nrap 変異体における心筋症モデル）を高精度かつ汎用的に定量化する「ZACAF」フレームワークの改良とその有効性を示しています。

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

本論文は、大規模言語モデルを用いたカテゴリ固有の詳細な異常記述と、マルチスケール・多形状の交差モダリティ相互作用による高精度な局所化を組み合わせた新しいゼロショット異常検出手法「FiLo」を提案し、MVTec や VisA データセットにおいて最先端の性能を達成したことを報告しています。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

この論文は、勾配降下法の「単純性バイアス」を軽減するために学習データ分布を調整する手法「USEFUL」を提案し、その理論的根拠を証明するとともに、CIFAR や ImageNet などの複数のデータセットにおいて最先端の汎化性能を実現したことを示しています。

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

この論文は、LiDAR の幾何学的手がかりとカメラ画像の Bird's Eye View 特徴を組み合わせる二段階学習フレームワーク「OS-Det3D」を提案し、自律運転における既知・未知の 3D 物体の検出能力を向上させることを目指しています。

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

本論文は、運転者の姿勢と相互作用する物体の情報を活用してトラン스포マーのトークン選択を最適化し、エッジデバイスでの効率的な実行を可能にしながら、運転中の注意散漫検出の精度と効率性を両立させた「PO-GUISE+」を提案し、複数のデータセットで最先端の結果を達成したことを報告しています。

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

本論文は、複数のカメラ画像、LiDAR 点群、セマンティックセグメンテーションマスク、およびテキスト記述を後期融合して包括的な場所記述子を生成する「MSSPlace」を提案し、Oxford RobotCar および NCLT データセットでの実験により、マルチモーダルなデータ統合が単一モダリティ手法を凌駕する最先端の場所認識性能を実現することを示しています。

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

この論文は、視覚障害者の移動支援を目的として、焦点グループ研究で特定された 90 種類の重要物体のラベル付きデータセットを公開し、既存のコンピュータビジョンモデルがこれらの物体の検出において不十分であることを示した研究です。

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

← 前へ次へ →