Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

この論文は、人手に依存するサンゴの産卵計測の課題を解決し、大規模なサンゴ礁の修復を可能にするため、低コストなカメラと人間によるラベル付けを組み合わせた物体検出技術を用いて、サンゴの産卵と幼生を自動的に検出・分類・計数する「CSLICS」と呼ばれるシステムを提案し、その有効性を検証したものです。

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

この論文は、1925 年から 1950 年にかけてのフランスの歴史的都市拡大を分析するため、古地図の複雑な特徴を処理する双段階の深層学習パイプラインを開発し、初の全国規模のオープンアクセス都市フットプリントデータセットを生成したことを報告しています。

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

この論文は、障害物に満ちた環境における多ロボットシステムの接続維持と回復を可能にするため、高次制御バリア関数と制御リアプノフ関数を用いたリアルタイムのベジェ曲線ベースの MPC-CLF-CBF 運動計画アルゴリズムを提案し、シミュレーションおよび 8 機の Crazyflie による物理実験でその有効性を検証したものである。

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora AyanianWed, 11 Ma💻 cs

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

この論文は、外部の音楽理解モデルとの潜在感情表現の整合化と連続的な価・覚醒空間に基づく制御モジュールを導入することで、テキストプロンプトの限界を克服し、音楽生成モデルにおける連続的かつ微細な感情制御を実現する「LARA-Gen」というフレームワークを提案し、その有効性を示したものである。

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Asset-Centric Metric-Semantic Maps of Indoor Environments

この論文は、大規模言語モデル(LLM)による高度な推論と計画を可能にするため、物体レベルの詳細なメッシュとシーンレベルの文脈を両立させた新しいメトリック意味マップを提案し、既存手法よりも精度が高く、LLM やシミュレーション環境でのナビゲーションへの有効性を示しています。

Christopher D. Hsu, Pratik ChaudhariWed, 11 Ma💻 cs

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

この論文は、軌道最適化の構造と強化学習の適応性を階層的に統合した「NaviGait」を提案し、オフラインで生成された歩行ライブラリからの選択と最小限の変形を通じて、参照運動への忠実性と外乱に対するロバスト性を両立させつつ、強化学習の報酬設計を簡素化し訓練を高速化する新しい二足歩行制御フレームワークを提示しています。

Neil Janwani, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

Real-Time Neural Video Compression with Unified Intra and Inter Coding

既存のニューラル動画圧縮方式が抱える欠陥を克服するため、従来の動画符号化の概念を取り入れて単一モデルで適応的にイントラ・インター符号化を行う統合フレームワークと双方向二フレーム圧縮設計を提案し、DCVC-RT を上回る圧縮効率とリアルタイム性を両立させた研究です。

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

Polynomial-time Configuration Generator for Connected Unlabeled Multi-Agent Pathfinding

この論文は、スウォームロボティクスにおける連結性制約を満たすマルチエージェント経路計画問題(CUMAPF)に対し、スケーラビリティに課題がある整数線形計画法に代わり、連結性を維持しつつ目標へ近づくルールベースの完全アルゴリズム「PULL」を提案し、数百エージェント規模のインスタンスを高速に解決可能であることを示しています。

Takahiro Suzuki, Keisuke OkumuraWed, 11 Ma💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

この論文は、環境変化への対応において既存の計画を更新する従来のアプローチに代わり、高速な漸近最適性を持つ計画アルゴリズムを用いて独立した問題を連続的に解くことで、より効率的に高品質な経路を生成できることを示しています。

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. GammellWed, 11 Ma💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

本論文は、軽量な身体ランドマーク検出と適切な部分集合の選択、およびスプライン補間による欠損値の補完を組み合わせることで、LIBRAS の孤立した手話認識において、既存の最先端手法と同等以上の精度を維持しつつ処理時間を 5 倍以上短縮できることを実証しています。

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

Who Made This? Fake Detection and Source Attribution with Diffusion Features

この論文は、事前学習済み Stable Diffusion モデルの特徴量を活用し、トレーニング不要な k-NN による検出とコンパクトな分類器によるソース特定を可能にする軽量かつデータ効率の高いフレームワーク「FRIDA」を提案し、GenImage ベンチマークにおいて未見の生成モデルに対する検出とソース特定において最先端の性能を達成したことを報告しています。

Simone Bonechi, Paolo Andreini, Barbara Toniella CorradiniWed, 11 Ma💻 cs

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

本論文は、人間の実演における能動的な頭部運動と視覚探索を捉え、記憶拡張ポリシーを用いて半ヒューマノイドロボットに転送する「EgoMI」というフレームワークを提案し、手と目の協調学習によって人間とロボットの身体性のギャップを克服し、強固な模倣学習を実現することを示しています。

Justin Yu, Yide Shentu, Di Wu, Pieter Abbeel, Ken Goldberg, Philipp WuWed, 11 Ma💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

既存の単眼 3D 物体検出器が抱える属性間の幾何学的整合性の欠如を解消するため、予測された 3D 境界ボックスと正解との空間的整合性、および画像平面上での 3D ボックスの 2D 投影と検出枠との整合性を強制する「Spatial-Projection Alignment(SPAN)」手法を提案し、既存の検出器に容易に統合可能な形で性能を大幅に向上させることを実証した。

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming YangWed, 11 Ma💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

本論文は、大規模視覚言語モデル(LVLM)における既存の敵対的攻撃が抱える制御性の限界を、パッチ特徴の曖昧さではなく、より局所的で分離された意味情報を保持する「値特徴(Value Features)」を標的にすることで克服し、テキスト指示に基づく精密な意味操作を可能にする新しい手法「V-Attack」を提案するものである。

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

この論文は、ロボティクスにおける 3D 視覚表現学習の課題を解決するため、状態遷移のダイナミクスを生成拡散プロセスとしてモデル化し、動作や幾何学的再構成の教師信号なしに自己教師ありで学習するフレームワーク「AFRO」を提案し、シミュレーションおよび実世界タスクにおいて既存手法を上回る成功率とスケーラビリティを実証したものである。

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs