Why Human Guidance Matters in Collaborative Vibe Coding
この論文は、737 人の参加者による 20 件の実験を通じて、AI による指示ではパフォーマンスが低下するが人間による指示が効果的であり、特に人間が指示を与え AI が評価を行うハイブリッド体制が最善であることを示しています。
7179 件の論文
この論文は、737 人の参加者による 20 件の実験を通じて、AI による指示ではパフォーマンスが低下するが人間による指示が効果的であり、特に人間が指示を与え AI が評価を行うハイブリッド体制が最善であることを示しています。
本論文は、強化学習を用いて大規模言語モデルの適応に向けた最適なデータレシピを自動生成する「DataChef」を提案し、人間が手動で設計したレシピと同等、あるいはそれ以上の性能を達成したことを示しています。
本論文は、従来のコンテナ方式に比べてディスク使用量を約 5%、環境準備時間を約 25% に削減しながらも同等の評価性能を達成する、軽量なコンテナフリーの強化学習環境「SWE-MiniSandbox」を提案し、大規模なソフトウェアエンジニアリングエージェントの訓練を可能にするものです。
この論文は、単一ターン評価の限界を克服し、会話全体のリスクを LLM を使わずに代理層で算出する「ピーク+蓄積」スコアリング手法を提案し、多ターン攻撃検出において高い精度を実現したことを報告するものです。
本論文は、機械学習における「グランドトゥルース」の概念が人間の不一致を単なるノイズとして誤って扱っている「コンセンサスの罠」を批判的に分析し、多様な人間の経験を反映するプラリスティックなアノテーション基盤の構築を提唱するものである。
この論文は、需要の断続性や変動性、予測期間に伴う性能低下といった複雑なビジネス環境において、予測モデルの安定した選択を可能にする「AHSIV」と呼ばれる適応型フレームワークを提案し、その有効性を複数の実データセットで実証したものです。
本論文は、OpenReview の査読質問から構築した報酬モデル「IntelliReward」と強化学習手法を用いて、証拠に基づき深い洞察を持つ高品質な研究質問を生成するモデル「IntelliAsk」を開発し、その汎用的な推論・執筆能力の向上を実証したものである。
本論文は、推論に伴う再構成コストに依存せず、局所的な意味的変化のみで計算量が制限される決定論的セマンティック状態基盤「Compute ICE-AGE」の実装と、大規模ノード数における不変な計算効率を実証した結果を報告しています。
この論文は、分散学習における LoRA の集約誤差と分解ドリフトを解消し、通信オーバーヘッドを最大 2041 倍削減しながら精度を向上させるため、単一の低ランク行列のグラム行列を集約し、プロクラステス法で整合性を保つ「FLoRG」という新しい連合学習フレームワークを提案しています。
本論文は、音声 LLM が ASR と LLM のカスケード構成と本質的に同等の挙動を示すことを示し、多くの実用ケースでは高コストなカスケードに過ぎず、特に雑音条件下では性能が劣ることを実証しています。
この論文は、探索を強化し、メモリ利用時と非利用時の両方で堅牢な性能を発揮するハイブリッド強化学習フレームワーク「EMPO²」を提案し、ScienceWorld や WebShop などのタスクで既存手法を大幅に上回る成果と、パラメータ更新なしでの新規タスク適応能力を実証しています。
この論文は、マルチモーダル LLM のモダリティ崩壊を情報理論的な「ミスマッチ復号」として定式化し、デコーダのスコアリング規則と学習目的がアクセス可能な情報量を決定し、エンコーダの調整や投影層よりも決定的なボトルネックであることを示しています。
この論文は、モバイルエージェントのハイブリッド能力推論における課題を解決するため、4 つの専門家を備えた「CoME」という新しいアーキテクチャと、段階的な学習戦略および情報利得に基づく DPO を提案し、既存手法を上回る性能を達成したことを示しています。
本論文は、AI コードエージェントがコードベースの探索中に一貫したアーキテクチャ理解を維持できるかを評価する新たなベンチマーク「Theory of Code Space (ToCS)」を提案し、能動的探索の有効性や構造化された信念マップの保持がモデルによって異なること、そしてより大規模なモデルでも信念の崩壊が発生し得ることを明らかにしています。
Tensor Ring 分解を連続的な関数分解へと拡張し、周波数領域分析に基づいて潜在テンソルと固定基底の構造的重み付けによる再パラメータ化を導入することで、高周波成分のモデル化能力と学習の安定性を向上させ、画像修復や点群復元など多様な多次元データ復元タスクにおいて既存手法を上回る性能を実現する手法が提案されています。
この論文は、AI エージェントの開発が米国の労働市場全体を代表するものではなくプログラミング中心に偏っていることを実証し、社会的に重要かつ技術的に困難な作業をより適切に捉えるベンチマーク設計のための 3 つの原則(網羅性、現実性、詳細な評価)を提案しています。
本論文は、希少なトレーニングデータによる予測の脆弱性と、信頼性の低いモダリティによる性能低下という課題を解決するため、階層的なマルチエキスパート検索と Dempster-Shafer 証拠理論に基づく信頼性認識融合戦略を組み合わせた「MERA」という新しいフレームワークを提案し、タンパク質の活性部位特定において最先端の性能を達成したことを報告しています。
本論文は、AI エージェントが共有アーティファクト上のユーザーの同時行動を解釈し適応する「CLEO」システムを提案し、デザイナーとの共創的協働において、作業の委任、指示、同時作業のいずれを選択すべきかを決定するモデルと設計指針を導出したものである。
この論文は、実際の部屋インパルス応答を用いてクリーン音声と残響音声を対で生成した新しいベンチマーク「Whisper-RIR-Mega」を提案し、5 つの Whisper モデルにおける残響が ASR の性能に及ぼす影響を評価したものです。
この論文は、タンパク質の幾何学的な剛性を考慮した自己教師あり学習フレームワーク「RigidSSL」を提案し、分子動力学シミュレーションや構造データベースを活用した事前学習により、タンパク質設計の設計可能性や多様性、およびコンフォメーション集合の物理的現実性を大幅に向上させることを示しています。