Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse
この論文は、大規模言語モデルを用いた自律型 AI 分析者が人間と同様に多様な分析結果を生み出すことを実証し、AI による科学的研究における結果のばらつきを可視化し、透明性を高めるための新たな規範(多宇宙報告とプロンプトの開示)の必要性を提唱しています。
2384 件の論文
この論文は、大規模言語モデルを用いた自律型 AI 分析者が人間と同様に多様な分析結果を生み出すことを実証し、AI による科学的研究における結果のばらつきを可視化し、透明性を高めるための新たな規範(多宇宙報告とプロンプトの開示)の必要性を提唱しています。
この論文は、擬似異常のみで学習し、マルチモーダル大規模言語モデル(MLLM)と逆注意に基づくトークン圧縮を統合したゼロショット動画異常検出フレームワーク「LAVIDA」を提案し、複数のベンチマークデータセットにおいて最先端の性能を達成することを示しています。
この論文は、低線量 CT 画像のノイズ除去において、従来の深層学習モデルよりもはるかに軽量かつエネルギー効率に優れながら、解剖学的な詳細を保持しつつ画質を向上させる新しいマルチスケールパッチ学習フレームワーク「PatchDenoiser」を提案し、その有効性を示したものです。
本論文は、RAG システムにおけるハブネス汚染を検出・防御するためのオープンソースセキュリティスキャナ「Hubscan」を提案し、その多 Detector 型アーキテクチャが敵対的攻撃に対して高い検出性能を示すことを実証しています。
本論文は、参照画像セグメンテーションの学習において、テキストと視覚の整合性が低い領域を適応的にマスクして除外する「整合性認識マスク学習(AML)」を提案し、アーキテクチャの変更や推論時のオーバーヘッドなしに、すべてのデータセットで最先端の性能と高い頑健性を実現したことを示しています。
この論文は、反復的な証明の洗練、ライブラリ検索、コンテキスト管理といった主要機能を備えた最小限の自律エージェントを提案し、その単純なアーキテクチャが最先端の手法と競合する性能を示すとともに、サンプル効率とコスト効率の面で単発生成よりも優れていることを実証しています。
この論文は、サイバーセキュリティにおける正当な防御タスクであっても、攻撃的な内容と類似した用語が含まれると、安全調整された大規模言語モデルが過剰に拒絶する「防衛的拒絶バイアス」が存在し、特にシステム強化やマルウェア解析などの重要な作業において深刻な影響を及ぼしていることを実証的に示しています。
本論文は、臨床的な説明責任を高めるため、画像の特定領域を専門モデルで抽出し、それを証拠として活用して推論を行う「CARE」という、臨床ワークフローを模倣したマルチモーダル医療推論のためのエージェンティックフレームワークを提案し、既存の最先端モデルを上回る精度と信頼性を達成したことを示しています。
この論文は、ドローンなどの自律システムの倫理的評価における課題を解決するため、ドメイン固有の客観的評価と利害関係者の主観的価値判断を階層ガウス過程でモデル化し、効率的なテスト候補を生成するベイズ実験設計フレームワーク「SEED-SET」を提案し、その有効性を検証したものである。
この論文は、テキストから動画を生成する際に広告ブランドを自然に埋め込むという新たな課題に対し、オフラインでブランド知識ベースを構築し、オンラインで複数のエージェントが協調してプロンプトを反復的に洗練させる「BrandFusion」というマルチエージェントフレームワークを提案し、その有効性を示すものです。
本論文は、コード分析タスクにおけるマルチタスク学習とパラメータ効率型微調整(PEFT)を統合した初の包括的評価を行い、単一の共有 PEFT モジュールがフル微調整に匹敵する性能を発揮しつつ、ストレージや計算コストを大幅に削減できることを示し、さらにタスクの組み合わせやモデル構造が成功に与える影響を明らかにした。
本論文は、既存のアンラーニング手法が抱える汎用能力の低下や知識の不完全な削除といった課題を解決するため、推論能力を活用して特定の知識を正確に除去しつつ他の能力を維持する「Targeted Reasoning Unlearning(TRU)」という新たなアプローチを提案し、その有効性を示したものです。
本論文は、アラビア語向けに ModernBERT アーキテクチャを適応させ、トランストークン化による初期化と最大 8,192 トークンの長文脈モデリングの導入が、言語モデル性能の劇的な向上と多様な下流タスクへの強力な転移を可能にすることを示しています。
本論文は、エッジ環境における MoE モデルの推論を効率化するため、スペキュレイティブデコーディングをメモリ管理の指標として活用し、専門家の需要予測や非同期実行エンジンなどを統合した新しいフレームワーク「MoE-SpAc」を提案し、既存手法を大幅に上回る性能向上を実現したことを示しています。
この論文は、大規模言語モデル(LLM)が人間の認知バイアスである「ダニング=クルーガー効果」と類似したパターンを示し、特に性能の低いモデルが過剰な自信を持つ傾向があることを、主要な 4 種類のモデルを用いた大規模な実証研究で明らかにしたものである。
本論文は、医療教科書に基づく質問応答において大規模言語モデルが事実と異なる回答(ハルシネーション)を生成する頻度を定量化し、その発生率が低いほど臨床医による有用性評価が高くなる傾向があることを示しています。
この論文は、強化学習で探索された高パフォーマンスな変換軌跡をライブラリ化し、多様性を考慮してコンテキストを動的に最適化する連鎖思考フレームワークを提案することで、大規模言語モデルを用いた特徴変換の精度と安定性を向上させる手法を提示しています。
この論文は、活性化パッチングを用いて因果的に重要なアテンションヘッドを特定し、回路レベルの分析を自然言語の説明に橋渡しするパイプラインを提案し、GPT-2 Small における間接的対象識別タスクにおいて、LLM 生成の説明がテンプレートベースの手法を上回る品質を持つことを実証するとともに、モデルの自信と説明の忠実性の間に相関がないことを明らかにしています。
この論文は、大規模言語モデルの幻覚に関連する行動をユーザー視点で迅速かつ解釈可能に評価するための軽量な測定ツール「システム幻覚尺度(SHS)」を提案し、210 名の参加者による実証評価を通じてその妥当性と実用性を立証したものである。
この論文は、LLM(LLaMA-3.1-8B-Instruct)を用いた契約書セグメンテーションと、微調整された Legal-Roberta-Large を用いた条項分類という 2 段階のアーキテクチャを提案し、NDA 文書の自動分析において高い精度を達成したことを示しています。