cs.AI 件の論文 | Gist.Science

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

この論文は、GUI 深さ優先探索による環境機能の網羅的検証と、その結果を基にしたスキル構成による自己カリキュラム学習を導入することで、OSExpert-Eval ベンチマークにおいて性能を約 20% 向上させ、人間との効率性の格差を約 80% 縮小する専門的なコンピュータ使用エージェント「OSExpert」を提案しています。

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

Emergence is Overrated: AGI as an Archipelago of Experts

この論文は、人間の専門性が「圧縮と一般化」ではなく「膨大な専門的応答の蓄積」に依存しているという実証的証拠に基づき、真の人工汎用知能（AGI）を統一的な原理を持つものではなく、多数の専門モジュールからなる「専門家の群島」として再定義すべきであると論じています。

Daniel Kilov2026-03-10💬 cs.CL

$OneMillion-Bench: How Far are Language Agents from Human Experts?

この論文は、法律や金融などの専門分野における経済的に重要なシナリオを評価し、既存のベンチマークでは捉えきれない言語エージェントの実務能力を測定するために、専門家が作成した 400 件のタスクと厳格な評価基準を備えた新しいベンチマーク「$OneMillion-Bench」を提案しています。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

この論文は、LLM ベースの視覚言語ナビゲーションにおいて、パンノラマ画像や目印でインデックス化されたマルチモーダル経験メモリとリフレクションに基づく更新戦略を導入し、長期・未知環境でのナビゲーション性能を大幅に向上させる「CMMR-VLN」フレームワークを提案するものである。

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

本論文は、モータトルク制限と空力抗力を考慮したリーマン計量に基づく「抗力感知空力操作性（DAAM）」という幾何学的枠組みを提案し、冗長マルチロータの制御配分において、抗力による飽和や低回転域での推力損失を厳密にペナルティ化する状態依存型の操作性体積を最適化することで、座標スケーリングに不変な冗長性解決戦略を確立するものである。

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

この論文は、既存の航空用視覚言語ナビゲーション手法が抱える空間推論の不足や言語的曖昧さを解消するため、追加学習なしで画像平面上で直接推論を行う「ViSA（視覚空間推論）強化フレームワーク」を提案し、CityNav ベンチマークにおいて最先端手法を大幅に上回る成功率を達成したことを報告しています。

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

本論文は、ユーザーの明示的な指示を待つのではなく連続的な画面入力から意図を先読みする「能動的」な GUI エージェントの実現に向けた課題を解決するため、複雑なユーザー行動を評価する新たなベンチマーク「PIRA-Bench」と、それを処理する基盤フレームワーク「PIRF」を提案しています。

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

FedMomentum は、SVD を用いて LoRA 更新の主要な方向性を抽出・再構成する新しいフェデレーティング学習フレームワークを提案し、既存手法が抱える数学的誤りや構造的表現性の低下を解決することで、収束速度と最終精度の両方を向上させる。

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

この論文は、アライメント、プロセス、成果の間の単純な線形関係を否定し、タスク空間における軌跡進化と意図の表現という二つのレンズを用いて、人間・AI 間の協働構造を再概念化し、動的な統合視点から再考することを提案しています。

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本論文は、音楽のビートに基づくガウス表現を導入し、Transformer の代わりに長系列処理に優れた Mamba を拡散モデルに組み込むことで、短尺から長尺まで音楽と同期した高品質なダンス生成を実現する「MambaDance」を提案しています。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

本論文は、拡散言語モデルの推論において、隣接するデノイジングステップ間の注意コンテキストの類似性を測定して「顕著なトークン」のみを特定し、それ以外のトークンの計算をキャッシュ再利用することで、精度を維持しながら最大 9.6 倍の処理速度向上を実現するトレーニング不要のフレームワーク「DyLLM」を提案しています。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

この論文は、時系列データと外生変数の時間的・チャネル間の相関をノイズに強く統合的にモデル化し、変分生成器、グラフ構造アライナー、グラフリファイナーの 3 段階のプロセスを通じて予測精度を向上させる「GCGNet」という新しい手法を提案し、12 の実世界データセットで最先端の手法を上回る性能を実証しています。

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

本論文は、部分的な遮蔽や欠損モダリティ、クラス不均衡といった実環境の課題に対処するため、安全なクロスアテンション機構とモダリティドロップアウトを備えた双枝トランスフォーマーアーキテクチャを採用し、Aff-Wild2 検証セットで 60.79% の精度と 0.5029 の F1 スコアを達成した、10 回 ABAW 表情認識チャレンジに対する強健なマルチモーダルフレームワークを提案しています。

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

本論文は、対照的なプロファイリングと要約を組み合わせた新たなパラダイム「CDRRM」を提案し、高品質な評価基準の自動生成を通じて、大規模言語モデルの報酬モデリングにおける解釈性、バイアス低減、およびデータ効率を飛躍的に向上させることを示しています。

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

この論文は、高次元の産業用時系列信号を自然言語の要約に変換する「Signal-to-Semantic」オペレーターと、多段のツリー構造診断法を導入することで、従来のブラックボックス化された故障診断の課題を克服し、説明可能なゼロショット故障診断を実現する S2S-FDD フレームワークを提案しています。

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

従来の密なアテンションに依存する 3D 再構築モデルが抱える計算コストの課題を解決するため、Structure-from-Motion の原理に着想を得て、最も情報量の多い画像トークンのみを選択的に処理する双枝アテンション機構を採用することで、1000 視点シーケンスにおいて 12.4 倍の推論速度向上を実現しつつ、幾何学的精度とのバランスを保った Speed3R を提案する論文です。

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

本論文は、強化学習を用いて複数の専門エージェント間の協調を最適化し、複雑な指示にも柔軟に対応する次世代の画像編集フレームワーク「ImageEdit-R1」を提案し、既存の単一モデルや多エージェント手法を上回る性能を実証したものである。

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

この論文は、教師あり微調整（SFT）を不要とし、ロールアウト段階でのインコンテキスト例を段階的に削減することでツール使用を学習させる「インコンテキスト強化学習（ICRL）」を提案し、従来の手法に比べてデータ効率とスケーラビリティを向上させつつ最先端の性能を達成したことを示しています。

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本論文は、主語駆動型テキストから画像生成モデルの評価における既存の限界を克服し、階層的な主語分類、難易度とシナリオの細分化、人間評価との相関が高い新規指標（SICS）、および診断的洞察を提供する包括的なベンチマーク「DSH-Bench」を提案し、19 の主要モデルを評価することで将来の研究指針を確立したものである。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

この論文は、生物学的推論におけるプロセス報酬モデルの信頼性を高めるため、自己一致と近傍一致の二重合意に基づいてノイズの多い弱い教師信号を選別し、戦略的なデータキュレーションを通じて専門家の完全な注釈なしで堅牢なモデルを訓練する「DC-W2S」フレームワークを提案しています。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

← 前へ次へ →