OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

本論文は、不安定な意思決定や長期的な進捗監視の課題を解決し、安全性と効率性を両立させるために、共有知覚型デュアルエージェント構造、ハイブリッドメモリ、セマンティック幾何学的検証器、および後退地平線計画器を組み合わせた完全オンボードのゼロショット航空ビジョン・言語ナビゲーションフレームワーク「OnFly」を提案し、シミュレーションおよび実世界飛行でその有効性を実証しています。

Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou2026-03-12💻 cs

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

この論文は、粗いマスクのみで任意のオブジェクトを参照画像に基づいて編集できる統合的なインペインティングフレームワーク「A2^2-Edit」を提案し、そのために大規模な多カテゴリデータセット「UniEdit-500K」を構築するとともに、カテゴリ間でのセマンティックな転移を強化する「Mixture of Transformer」モジュールと、マスク精度への依存度を低減する「Mask Annealing Training Strategy」を導入して、既存手法を凌駕する性能を実現したものです。

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

離散化による情報損失や連続表現の学習不安定性という課題を克服するため、チャネル次元圧縮とトランスフュージョン・アーキテクチャを採用し、高品質な生成と優れた制御性を両立する統合マルチモーダルモデル「UniCom」を提案する論文です。

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

歩行者ナビゲーションのアクセシビリティ向上を目的として、既存の視覚言語モデルが抱える物体の幻覚や深度推定の不確実性を解消し、単一アーキテクチャで言語推論とセグメンテーションを統合した新しいモデル「WalkGPT」と、大規模なベンチマークデータセット「PAVE」を提案する論文です。

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

Early-Stage Cancer Biomarker Detection via Intravascular Nanomachines: Modeling and Analysis

この論文は、非一様な血流や赤血球との相互作用など現実的な血管環境をシミュレーションに組み込むことで、血管内ナノマシンを用いたがんバイオマーカーの早期検出の可行性を評価し、その結果、毛細血管があらゆるナノマシンサイズにおいて最も高い検出確率を示すことを明らかにしたものである。

Abdollah Rezagholi, Sergi Abadal, Filip Lemic, Eduard Alarcon, Ethungshan Shitiri2026-03-12💻 cs

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

FutureVLA は、視覚情報と動作情報を構造的に分離しつつ物理的常識を統合する「Joint Visuomotor Predictive Architecture」を提案し、時連続性と視覚条件付き監督の脱結合を実現することで、既存のビジョン・言語・動作モデルの予測能力を向上させる。

Xiaoxu Xu, Hao Li, Jinhui Ye, Yilun Chen, Jia Zeng, Xinyi Chen, Linning Xu, Dahua Lin, Weixin Li, Jiangmiao Pang2026-03-12💻 cs

MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers

この論文は、メタ強化学習フレームワーク「MAVEN」を提案し、単一のポリシーが質量変化やローター推力損失といった多様な動的変化に対して、シミュレーションから実世界へのゼロショット転移を可能にする適応的な高速マニピュレーションを実現することを示しています。

Jin Zhou, Dongcheng Cao, Xian Wang, Shuo Li2026-03-12💻 cs

ASTER: Attitude-aware Suspended-payload Quadrotor Traversal via Efficient Reinforcement Learning

本論文は、非滑らかなハイブリッド力学や極端な報酬の希薄さという課題を克服し、ハイブリッド力学に基づく状態初期化戦略(HDSS)を導入することで、ケーブル吊り下げ型クアッドコプターによる自律的な逆転飛行を世界で初めて実現した強化学習フレームワーク「ASTER」を提案しています。

Dongcheng Cao, Jin Zhou, Shuo Li2026-03-12💻 cs

Sublinear-Time Reconfiguration of Programmable Matter with Joint Movements

本論文は、アモエボット構造の並列移動(ジョイントムーブメント)モデルにおいて、補助的な仮定なしに任意の構造をO(nlogn)O(\sqrt{n}\log n)ラウンドで線形構造へ再構成するサブリニア時間普遍再構成アルゴリズムを初めて提案し、このモデルが補助仮定なしに効率的な再構成を可能にすることを示した。

Manish Kumar, Othon Michail, Andreas Padalkin, Christian Scheideler2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

この論文は、絶滅危惧種である板鰓類(エラスモブランチ)の保全と生物多様性モニタリングを支援するため、地中海東部沿岸の 7 種を対象に、陸上環境で収集された高品質な画像と専門家による注釈を備えた「eLasmobranc Dataset」を公開し、微細な形態分類を可能にする新たなリソースを提供したことを報告しています。

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

本論文は、LLM の曖昧な指示による誤答を解消し、信頼性と検査可能性を高めるため、ユーザーの情報ニーズを関係スキーマとして再具体化(リリアイフィケーション)し、それを基に実行可能なプログラムを生成する AI エージェント「Pneuma-Seeker」を提案し、その有効性を示したものである。

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro Fernandez2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

本論文は、回転する単一光源とイベントカメラ、およびキャリブレーション不要の軽量ピクセルごとのニューラルネットワークを組み合わせることで、環境光や高光沢の影響を受けにくい高精度なイベントベースのフォトメトリックステレオ手法を提案し、既存手法より平均角度誤差を 7.12% 削減する成果を示しています。

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations

本論文は、LLM エージェントの間接プロンプトインジェクション攻撃を、外部観測を制御してツール呼び出しの因果的必要性を検証する「アトリガード」というランタイム防御手法により、高い検出精度と適応攻撃への耐性をもって防ぐことを提案しています。

Yu He, Haozhe Zhu, Yiming Li, Shuo Shao, Hongwei Yao, Zhihao Liu, Zhan Qin2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

この論文は、STEM 分野の視覚推論における MLLM の限界が推論能力ではなく知覚能力にあることを発見し、実行可能なコードを知覚の媒体として活用する「CodePercept」を提案し、100 万組の画像・説明文・コードのデータセットと、画像復元コード生成による厳密な評価ベンチマークを導入することでこの課題を解決しようとするものです。

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

本論文では、RAG パイプラインの各コンポーネントをモジュール化し、実世界のワークロードをシミュレートしながら、パフォーマンスと精度を包括的に評価できるエンドツーエンドのベンチマークフレームワーク「RAGPerf」の設計と実装を提案しています。

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian Huang2026-03-12💻 cs

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

本論文は、中小企業が直面する地域限定インフラ環境において、炭素排出量、コスト、遅延制約を同時に考慮し、洞察に基づく探索空間剪定技術を用いてマイクロサービスを動的に配置する「Aceso」を提案し、実環境での評価により既存の静的配置と比較して炭素排出量を37.4%、運用コストを3.6%削減しながらサービスレベル目標を維持できることを示しています。

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra Doudali2026-03-12💻 cs