OSExpert: Computer-Use Agents Learning Professional Skills via Exploration
この論文は、GUI 深さ優先探索による環境機能の網羅的検証と、その結果を基にしたスキル構成による自己カリキュラム学習を導入することで、OSExpert-Eval ベンチマークにおいて性能を約 20% 向上させ、人間との効率性の格差を約 80% 縮小する専門的なコンピュータ使用エージェント「OSExpert」を提案しています。
7179 件の論文
この論文は、GUI 深さ優先探索による環境機能の網羅的検証と、その結果を基にしたスキル構成による自己カリキュラム学習を導入することで、OSExpert-Eval ベンチマークにおいて性能を約 20% 向上させ、人間との効率性の格差を約 80% 縮小する専門的なコンピュータ使用エージェント「OSExpert」を提案しています。
この論文は、人間の専門性が「圧縮と一般化」ではなく「膨大な専門的応答の蓄積」に依存しているという実証的証拠に基づき、真の人工汎用知能(AGI)を統一的な原理を持つものではなく、多数の専門モジュールからなる「専門家の群島」として再定義すべきであると論じています。
この論文は、法律や金融などの専門分野における経済的に重要なシナリオを評価し、既存のベンチマークでは捉えきれない言語エージェントの実務能力を測定するために、専門家が作成した 400 件のタスクと厳格な評価基準を備えた新しいベンチマーク「$OneMillion-Bench」を提案しています。
この論文は、LLM ベースの視覚言語ナビゲーションにおいて、パンノラマ画像や目印でインデックス化されたマルチモーダル経験メモリとリフレクションに基づく更新戦略を導入し、長期・未知環境でのナビゲーション性能を大幅に向上させる「CMMR-VLN」フレームワークを提案するものである。
本論文は、モータトルク制限と空力抗力を考慮したリーマン計量に基づく「抗力感知空力操作性(DAAM)」という幾何学的枠組みを提案し、冗長マルチロータの制御配分において、抗力による飽和や低回転域での推力損失を厳密にペナルティ化する状態依存型の操作性体積を最適化することで、座標スケーリングに不変な冗長性解決戦略を確立するものである。
この論文は、既存の航空用視覚言語ナビゲーション手法が抱える空間推論の不足や言語的曖昧さを解消するため、追加学習なしで画像平面上で直接推論を行う「ViSA(視覚空間推論)強化フレームワーク」を提案し、CityNav ベンチマークにおいて最先端手法を大幅に上回る成功率を達成したことを報告しています。
本論文は、ユーザーの明示的な指示を待つのではなく連続的な画面入力から意図を先読みする「能動的」な GUI エージェントの実現に向けた課題を解決するため、複雑なユーザー行動を評価する新たなベンチマーク「PIRA-Bench」と、それを処理する基盤フレームワーク「PIRF」を提案しています。
FedMomentum は、SVD を用いて LoRA 更新の主要な方向性を抽出・再構成する新しいフェデレーティング学習フレームワークを提案し、既存手法が抱える数学的誤りや構造的表現性の低下を解決することで、収束速度と最終精度の両方を向上させる。
この論文は、アライメント、プロセス、成果の間の単純な線形関係を否定し、タスク空間における軌跡進化と意図の表現という二つのレンズを用いて、人間・AI 間の協働構造を再概念化し、動的な統合視点から再考することを提案しています。
本論文は、音楽のビートに基づくガウス表現を導入し、Transformer の代わりに長系列処理に優れた Mamba を拡散モデルに組み込むことで、短尺から長尺まで音楽と同期した高品質なダンス生成を実現する「MambaDance」を提案しています。
本論文は、拡散言語モデルの推論において、隣接するデノイジングステップ間の注意コンテキストの類似性を測定して「顕著なトークン」のみを特定し、それ以外のトークンの計算をキャッシュ再利用することで、精度を維持しながら最大 9.6 倍の処理速度向上を実現するトレーニング不要のフレームワーク「DyLLM」を提案しています。
この論文は、時系列データと外生変数の時間的・チャネル間の相関をノイズに強く統合的にモデル化し、変分生成器、グラフ構造アライナー、グラフリファイナーの 3 段階のプロセスを通じて予測精度を向上させる「GCGNet」という新しい手法を提案し、12 の実世界データセットで最先端の手法を上回る性能を実証しています。
本論文は、部分的な遮蔽や欠損モダリティ、クラス不均衡といった実環境の課題に対処するため、安全なクロスアテンション機構とモダリティドロップアウトを備えた双枝トランスフォーマーアーキテクチャを採用し、Aff-Wild2 検証セットで 60.79% の精度と 0.5029 の F1 スコアを達成した、10 回 ABAW 表情認識チャレンジに対する強健なマルチモーダルフレームワークを提案しています。
本論文は、対照的なプロファイリングと要約を組み合わせた新たなパラダイム「CDRRM」を提案し、高品質な評価基準の自動生成を通じて、大規模言語モデルの報酬モデリングにおける解釈性、バイアス低減、およびデータ効率を飛躍的に向上させることを示しています。
この論文は、高次元の産業用時系列信号を自然言語の要約に変換する「Signal-to-Semantic」オペレーターと、多段のツリー構造診断法を導入することで、従来のブラックボックス化された故障診断の課題を克服し、説明可能なゼロショット故障診断を実現する S2S-FDD フレームワークを提案しています。
従来の密なアテンションに依存する 3D 再構築モデルが抱える計算コストの課題を解決するため、Structure-from-Motion の原理に着想を得て、最も情報量の多い画像トークンのみを選択的に処理する双枝アテンション機構を採用することで、1000 視点シーケンスにおいて 12.4 倍の推論速度向上を実現しつつ、幾何学的精度とのバランスを保った Speed3R を提案する論文です。
本論文は、強化学習を用いて複数の専門エージェント間の協調を最適化し、複雑な指示にも柔軟に対応する次世代の画像編集フレームワーク「ImageEdit-R1」を提案し、既存の単一モデルや多エージェント手法を上回る性能を実証したものである。
この論文は、教師あり微調整(SFT)を不要とし、ロールアウト段階でのインコンテキスト例を段階的に削減することでツール使用を学習させる「インコンテキスト強化学習(ICRL)」を提案し、従来の手法に比べてデータ効率とスケーラビリティを向上させつつ最先端の性能を達成したことを示しています。
本論文は、主語駆動型テキストから画像生成モデルの評価における既存の限界を克服し、階層的な主語分類、難易度とシナリオの細分化、人間評価との相関が高い新規指標(SICS)、および診断的洞察を提供する包括的なベンチマーク「DSH-Bench」を提案し、19 の主要モデルを評価することで将来の研究指針を確立したものである。
この論文は、生物学的推論におけるプロセス報酬モデルの信頼性を高めるため、自己一致と近傍一致の二重合意に基づいてノイズの多い弱い教師信号を選別し、戦略的なデータキュレーションを通じて専門家の完全な注釈なしで堅牢なモデルを訓練する「DC-W2S」フレームワークを提案しています。