Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

本論文は、大規模言語モデル(LLM)を用いた自動アルゴリズム設計において、推論過程を段階的に分解し多エージェントシステムとフィードバック機構を導入した「EvoStage」を提案し、チップ配置やベイズ最適化などの実務課題において人間や既存手法を上回る高性能なアルゴリズムを生成できることを実証しています。

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

この論文は、事前学習モデルの知識限界を克服し、人間と協働して継続的に学習・改善する自律型マルチエージェントシステムを実現するため、メタ認知ポリシーを学習し、即時の判断と長期的な能力向上を分離する「二重ループ方策最適化」を採用した HILA フレームワークを提案し、数学や問題解決のベンチマークで先行するマルチエージェントシステムを上回る性能を実証したものである。

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

本論文は、動的環境におけるマルチロボット探索の課題を解決するため、実行の信頼性(フィデリティ)推定をタスク割当と運動実行に統合し、自律的な適応と衝突回避を実現するハイブリッド学習・計画フレームワーク「VORL-EXPLORE」を提案するものである。

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

この論文は、GUI 深さ優先探索による環境機能の網羅的検証と、その結果を基にしたスキル構成による自己カリキュラム学習を導入することで、OSExpert-Eval ベンチマークにおいて性能を約 20% 向上させ、人間との効率性の格差を約 80% 縮小する専門的なコンピュータ使用エージェント「OSExpert」を提案しています。

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

この論文は、法律や金融などの専門分野における経済的に重要なシナリオを評価し、既存のベンチマークでは捉えきれない言語エージェントの実務能力を測定するために、専門家が作成した 400 件のタスクと厳格な評価基準を備えた新しいベンチマーク「\$OneMillion-Bench」を提案しています。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

この論文は、LLM ベースの視覚言語ナビゲーションにおいて、パンノラマ画像や目印でインデックス化されたマルチモーダル経験メモリとリフレクションに基づく更新戦略を導入し、長期・未知環境でのナビゲーション性能を大幅に向上させる「CMMR-VLN」フレームワークを提案するものである。

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

本論文は、モータトルク制限と空力抗力を考慮したリーマン計量に基づく「抗力感知空力操作性(DAAM)」という幾何学的枠組みを提案し、冗長マルチロータの制御配分において、抗力による飽和や低回転域での推力損失を厳密にペナルティ化する状態依存型の操作性体積を最適化することで、座標スケーリングに不変な冗長性解決戦略を確立するものである。

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

この論文は、既存の航空用視覚言語ナビゲーション手法が抱える空間推論の不足や言語的曖昧さを解消するため、追加学習なしで画像平面上で直接推論を行う「ViSA(視覚空間推論)強化フレームワーク」を提案し、CityNav ベンチマークにおいて最先端手法を大幅に上回る成功率を達成したことを報告しています。

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

本論文は、ユーザーの明示的な指示を待つのではなく連続的な画面入力から意図を先読みする「能動的」な GUI エージェントの実現に向けた課題を解決するため、複雑なユーザー行動を評価する新たなベンチマーク「PIRA-Bench」と、それを処理する基盤フレームワーク「PIRF」を提案しています。

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本論文は、音楽のビートに基づくガウス表現を導入し、Transformer の代わりに長系列処理に優れた Mamba を拡散モデルに組み込むことで、短尺から長尺まで音楽と同期した高品質なダンス生成を実現する「MambaDance」を提案しています。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

本論文は、拡散言語モデルの推論において、隣接するデノイジングステップ間の注意コンテキストの類似性を測定して「顕著なトークン」のみを特定し、それ以外のトークンの計算をキャッシュ再利用することで、精度を維持しながら最大 9.6 倍の処理速度向上を実現するトレーニング不要のフレームワーク「DyLLM」を提案しています。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

この論文は、時系列データと外生変数の時間的・チャネル間の相関をノイズに強く統合的にモデル化し、変分生成器、グラフ構造アライナー、グラフリファイナーの 3 段階のプロセスを通じて予測精度を向上させる「GCGNet」という新しい手法を提案し、12 の実世界データセットで最先端の手法を上回る性能を実証しています。

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

本論文は、部分的な遮蔽や欠損モダリティ、クラス不均衡といった実環境の課題に対処するため、安全なクロスアテンション機構とモダリティドロップアウトを備えた双枝トランスフォーマーアーキテクチャを採用し、Aff-Wild2 検証セットで 60.79% の精度と 0.5029 の F1 スコアを達成した、10 回 ABAW 表情認識チャレンジに対する強健なマルチモーダルフレームワークを提案しています。

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

本論文は、対照的なプロファイリングと要約を組み合わせた新たなパラダイム「CDRRM」を提案し、高品質な評価基準の自動生成を通じて、大規模言語モデルの報酬モデリングにおける解釈性、バイアス低減、およびデータ効率を飛躍的に向上させることを示しています。

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

この論文は、高次元の産業用時系列信号を自然言語の要約に変換する「Signal-to-Semantic」オペレーターと、多段のツリー構造診断法を導入することで、従来のブラックボックス化された故障診断の課題を克服し、説明可能なゼロショット故障診断を実現する S2S-FDD フレームワークを提案しています。

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

従来の密なアテンションに依存する 3D 再構築モデルが抱える計算コストの課題を解決するため、Structure-from-Motion の原理に着想を得て、最も情報量の多い画像トークンのみを選択的に処理する双枝アテンション機構を採用することで、1000 視点シーケンスにおいて 12.4 倍の推論速度向上を実現しつつ、幾何学的精度とのバランスを保った Speed3R を提案する論文です。

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs