Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper
本論文は、人間の研究者の基礎論文を基に仮説立案から実験、論文執筆までを自律的に行う「Jr. AI Scientist」を開発し、その科学的貢献と評価結果を報告するとともに、現在の AI 科学者システムが抱えるリスクや限界を包括的に分析したものである。
1071 件の論文
本論文は、人間の研究者の基礎論文を基に仮説立案から実験、論文執筆までを自律的に行う「Jr. AI Scientist」を開発し、その科学的貢献と評価結果を報告するとともに、現在の AI 科学者システムが抱えるリスクや限界を包括的に分析したものである。
本論文は、明示的および暗黙的なヘイトスピーチの検出において、少量の例から得られる「HatePrototypes(クラスレベルのベクトル表現)」を用いることで、従来の継続的ファインチューニングなしにタスク間での転移学習やパラメータ不要の早期退出を可能にし、効率的かつ解釈可能なモデリングを実現することを示しています。
本論文は、オンライン議論を中断または方向転換させる「クリティカルな介入」を検出するための初の注釈付きフランス語コーパス「SPOT」を構築し、文脈メタデータを活用した微調整エンコーダーモデルがプロンプト型大規模言語モデルを上回る性能を示すことを実証したものです。
本論文は、マルチモーダル大規模言語モデル(MLLM)が異なるモダリティ間のスキルを組み合わせる際に大きなギャップが存在し、プロンプトやファインチューニングによる改善策でも完全には解消されていないことを示しています。
この論文は、自己生成された推論プロセスを教師あり微調整データとして再利用し、わずか 499 サンプルで RVLM の安全対策を効率的に回避する「Stealth Fine-Tuning」という新たな攻撃手法を提案しています。
この論文は、エージェント型ソフトウェアシステムの意思決定過程を構造的に解析する「Graphectory」を導入し、その分析に基づいて実行中のエージェントをリアルタイムで監視・介入させることで、問題解決率の向上と実行経路の効率化を実現する手法を提案しています。
この論文では、英語テキストからユニフォーム・意味表現(UMR)グラフを自動生成するための2つの手法を提案し、そのうち既存の抽象意味表現(AMR)解析器を微調整した「SETUP」モデルが、AnCast 84点およびSMATCH++ 91点という高い性能を達成したことを報告しています。
本論文は、事前学習済みデコーダ型言語モデルに「プランナーによる潜在ワークスペース」と「同期マルチストリーム出力プロトコル」を組み合わせた「並列デコーダ・トランスフォーマ(PDT)」を提案し、外部のオーケストレーションに依存せず、モデル内部で並列タスク分解と生成の同期を可能にする新しいアーキテクチャを示しています。
本論文は、スポーツ観戦などの共有体験において、単一のAIではなく複数の専門エージェントを協調させる「CompanionCast」フレームワークを提案し、その実証研究を通じて社会的存在感や感情の共有を向上させることを示しています。
本論文は、LLM エージェントの事前学習後の適応を「エージェント側」と「ツール側」の 4 つのパラダイムに分類する統一的な枠組みを提示し、事後学習、記憶、スキルに関する研究を包括的にレビューするとともに、そのトレードオフや評価手法、および将来の課題を論じています。
この論文は、Swin トランスフォーマーとシーケンス・ツー・シーケンス言語デコーダを統合し、2 段階のトレーニング戦略を採用することで、作物病害の視覚的質問応答において高い精度と説明可能性を達成する軽量なマルチタスク視覚言語フレームワークを提案しています。
NC-Bench は、IBM の自然会話フレームワークに基づき、LLM のトピックやタスクではなく会話の形式と構造(基本応答、RAG 活用、複雑な要求など)に焦点を当てた新しい評価ベンチマークを提案し、モデルの会話能力を理論的に評価する軽量かつ拡張可能な枠組みを提供する。
この論文は、大規模言語モデル(LLM)と多腕バンディット(MAB)アルゴリズムが、コンポーネントレベルで双方向的に相互作用し、それぞれが他方の課題を解決または能力を向上させる可能性を初めて体系的に調査した包括的なレビューである。
本論文は、マルチエージェントシステムの設計と評価を革新するため、全体最適化された関数呼び出し強化学習フレームワーク「MAS-Orchestra」と、タスク構造に基づく厳密なベンチマーク「MASBENCH」を提案し、タスク特性に応じたマルチエージェントの真の価値と効率性を明らかにするものです。
この論文は、金融サービスにおけるツール使用型 LLM エージェントの監査再現性を保証するため、決定性と正確性の独立した測定を可能にする「決定性忠実性保証ハース(DFAH)」フレームワークと、3 つの金融ベンチマークを提案し、決定性と正確性の間に相関がないことを実証しています。
この論文は、認知行動療法に偏りがちな既存の手法の限界を克服するため、感情焦点療法(EFT)の原理に基づき、8 つの専門エージェントによる多段階思考プロセスと大規模な指示調整データセットを活用して、共感的深さと構造的専門性を備えた新しいメンタルヘルス支援 LLM「EFT-LLM」を提案し、その有効性を検証したものである。
本論文は、HuBERT 特徴量を活用した X-Codec-2.0 の潜在レートとサンプリング周波数を調整する簡易な改良により、マルチリンガル音声の効率と音質を向上させ、25Hz 帯域で最高性能を達成したことを報告しています。
この論文は、大規模なサイバーセキュリティ特化データとエージェントによる拡張パイプラインを活用して訓練されたオープンソースの一般化サイバーセキュリティアシスタント「RedSage」を開発し、その専門知識と汎用推論能力の向上を実証的に示すとともに、評価用ベンチマーク「RedSage-Bench」を公開したことを報告しています。
Mem-T は、長期にわたる記憶操作におけるスパースな報酬という課題を解決するため、木構造のバックプロパゲーションとヒンズサイト・クレジット割り当てを用いて段階的な密な報酬を生成する強化学習フレームワーク「MoT-GRPO」を提案し、記憶管理と検索の両方を最適化する自律型記憶エージェントを実現しています。
シュワルツの高次価値カテゴリーは、単一の文から人間の価値を検出するタスクにおいて、厳密な階層的ゲートリングやスタンドアロンのコンパクト LLM としてよりも、閾値調整やアンサンブルによる校正、あるいは帰納的バイアスとして活用する方が、限られた計算資源下でより効果的であることが示されました。