ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning
本論文は、強化学習を用いて複数の専門エージェント間の協調を最適化し、複雑な指示にも柔軟に対応する次世代の画像編集フレームワーク「ImageEdit-R1」を提案し、既存の単一モデルや多エージェント手法を上回る性能を実証したものである。
8811 件の論文
本論文は、強化学習を用いて複数の専門エージェント間の協調を最適化し、複雑な指示にも柔軟に対応する次世代の画像編集フレームワーク「ImageEdit-R1」を提案し、既存の単一モデルや多エージェント手法を上回る性能を実証したものである。
この論文は、教師あり微調整(SFT)を不要とし、ロールアウト段階でのインコンテキスト例を段階的に削減することでツール使用を学習させる「インコンテキスト強化学習(ICRL)」を提案し、従来の手法に比べてデータ効率とスケーラビリティを向上させつつ最先端の性能を達成したことを示しています。
本論文は、主語駆動型テキストから画像生成モデルの評価における既存の限界を克服し、階層的な主語分類、難易度とシナリオの細分化、人間評価との相関が高い新規指標(SICS)、および診断的洞察を提供する包括的なベンチマーク「DSH-Bench」を提案し、19 の主要モデルを評価することで将来の研究指針を確立したものである。
この論文は、生物学的推論におけるプロセス報酬モデルの信頼性を高めるため、自己一致と近傍一致の二重合意に基づいてノイズの多い弱い教師信号を選別し、戦略的なデータキュレーションを通じて専門家の完全な注釈なしで堅牢なモデルを訓練する「DC-W2S」フレームワークを提案しています。
本論文は、検索エンジンにインデックスされていない情報(非インデックス情報)の探索という新たな課題を定義し、初のベンチマーク「UIS-QA」と、効率的なマルチエージェントフレームワーク「UIS-Digger」を提案することで、現在の検索エージェントの限界を克服し、包括的な情報探索システムの発展に寄与するものです。
この論文は、大脳・橋・小脳という神経科学に着想を得た三層アーキテクチャを採用し、計算効率とモジュール性を向上させながら、LIBERO ベンチマークで 99.0% の高い成功率を達成する新しいビジョン・言語・アクションモデル「SaiVLA-0」を提案する概念とプロトコルの論文です。
本論文は、マスクされたオーディオ・ビジュアル整合性学習と動的条件付きフローを組み合わせることで、動画のセマンティクスとリズムの両方に高度に同期した高品質な音声を生成する「FoleyFlow」を提案し、既存手法を上回る性能を実証したものです。
この論文は、多様な人間の選好における不一致を考慮し、再学習なしで推論時にリスク制約付きデコーディングを用いて分布ロバストな意思決定を行う「DARC」という新しいアライメント手法を提案し、平均性能を維持しつつ不一致や尾部リスクを低減できることを示しています。
この論文は、LLM が外部知識を逐次的に検索・蓄積しながら論理推論を行う「段階的知識発掘」フレームワークを提案し、StrategyQA データセットにおいて約 10B パラメータ規模のモデルで競合を凌ぐ 78.17% の精度を達成し、オープンドメインの複雑な暗黙的質問応答における新たな SOTA を確立したことを報告しています。
本論文は、自動車のソフトウェアシステム検証において、1D-CNN と GRU を組み合わせたハイブリッド深層学習モデルと説明可能 AI 技術を統合し、故障の検出・特定・局所化を可能にするだけでなく、予測の根拠を解釈可能にすることで、リアルタイムの安全クリティカルな応用における信頼性とモデル適応性を向上させる手法を提案するものである。
この論文は、作業指示書やセンサーデータ、故障知識といった断片的な異種データを統合し、構造化された検証ループを通じて根拠に基づいた説明と助言を生成する「Condition Insight Agent」という意思決定支援フレームワークを提案し、その産業現場での実用性と信頼性を示しています。
この論文は、音声モデルの低ビット量子化において従来の手法では見落とされていた大きな活性化範囲の問題を、進化戦略に基づく二段階最適化手法「ESC」で解決し、INT8 量子化で完全な性能を維持しつつ、INT4 量子化でもほぼ損失のない性能達成を実現したことを示しています。
この論文は、CODI フレームワークを用いた連続的な思考連鎖(Continuous CoT)が、標準的な教師あり微調整よりも低リソース言語やゼロショット設定において多言語推論能力を大幅に向上させ、かつ推論経路を最大 50 倍圧縮する効率的な手法であることを示しています。
本論文は、常時稼働型のエンドツーエンドフルデュプレックス音声対話モデルの隠れ表現が話者識別情報を漏洩することを示し、ストリーミング匿名化手法(Anon-W2F および Anon-W2W)を提案することで、話者プライバシーを大幅に保護しつつ低遅延な応答を維持できることを実証しています。
本論文は、データの不均衡を解決するためにデータアップサンプリングとカリキュラム学習を組み合わせた戦略を採用し、34 の欧州言語(特にバルト・フィン・ウゴル・スラブ諸語)における言語的公平性と性能を大幅に向上させた、300 億パラメータのオープンウェイト大規模言語モデル「TildeOpen LLM」を提案するものである。
本論文は、長尾分布を持つマルチモーダルデータに対して、サンプルの局所分布に応じた動的な温度スケジューリングとマージンスケジューリングを導入し、情報対照損失と最大マージン手法を統合することで、画像・言語タスクにおいて最先端の性能を達成する「MM-TS」という手法を提案しています。
本論文は、従来の平均値推定に偏った回帰ベンチマークの限界を指摘し、確率回帰の性能評価に連続ランク確率スコア(CRPS)などの適切なスコアリング則を導入し、分布回帰に適した TabPFN などのファウンデーションモデルの微調整やプロンプト制御を提唱するものである。
本論文は、解像度や視点、視野が異なる熱画像と可視画像の異種センサーを統合する際の問題を解決するため、空間対応性を維持し信頼性に基づいて適応的に重み付けを行う新しい融合手法(RGIF と RGMAF)を提案し、MMFW-UAV データセットを用いた実験で無人航空機(UAV)の検出性能を大幅に向上させることを実証しています。
本論文は、非同期フェデレーテッドラーニングにおける勾配の古さ(staleness)の影響をより正確に捉えるため、従来のユークリッド距離に代わる多様な距離指標を統合し、その集約プロセスへの適用が異質なクライアントや非 IID データ環境下での収束性やモデル性能に与える影響を評価した研究である。
本論文は、企業の機密データをクラウド AI と共有することなく、文脈に応じた動的なデータ匿名化技術によりプライバシーを保護しつつ高品質なタスク処理を可能にする分散型アーキテクチャ「SplitAgent」を提案し、その有効性を実証しています。