Circuit Insights: Towards Interpretability Beyond Activations
この論文は、既存の活性化ベースの分析を超えて、学習済み重みから特徴を直接解釈する「WeightLens」と、コンポーネント間の相互作用による回路レベルの動態を捉える「CircuitLens」という 2 つの補完的な手法を提案し、スケーラブルで堅牢な機械的解釈性を実現することを目的としています。
1739 件の論文
この論文は、既存の活性化ベースの分析を超えて、学習済み重みから特徴を直接解釈する「WeightLens」と、コンポーネント間の相互作用による回路レベルの動態を捉える「CircuitLens」という 2 つの補完的な手法を提案し、スケーラブルで堅牢な機械的解釈性を実現することを目的としています。
この論文は、限られた種子質問を素因に分解・再構成することで合成データを生成し、強化学習を通じてチャートやウェブページなどの人工画像ドメインにおける多モーダル大規模言語モデルの推論能力を飛躍的に向上させる「COGS」というデータ効率型フレームワークを提案しています。
大規模な正解ラベル付けを必要とせず、自己一貫性による安価な指導と少量の正解注釈を組み合わせる二段階フレームワーク「EliCal」を提案し、大規模ベンチマーク「HonestyBench」を用いた実験で、極めて少ない注釈コストで LLM の普遍的な誠実性アライメントを達成できることを示しました。
この論文は、RAG における回答と引用の失敗を区別し、CITECONTROL ベンチマークで引用失敗の要因を分析するとともに、生成・注意・検索を統合した CITENTION フレームワークを提案することで引用精度を効率的に向上させる手法を提示しています。
本論文は、淘宝の視覚検索システムにおける「クリックなし」リクエストから潜在的なユーザー意図を大規模言語モデルを用いてオフラインで分析・推論し、オンラインで最適化戦略を適応的に実行する新フレームワーク「REVISION」を提案し、クリック率の低下を顕著に改善したことを示しています。
本論文は、テキスト・音声・映像の全モダリティに人間による注釈が施された初のドイツ語多モーダル皮肉検出データセット「MuSaG」を提案し、既存モデルがテキストに依存する一方、人間は会話において音声を重視する傾向があることを示すことで、現実的なシナリオに適したモデル開発の必要性を浮き彫りにしています。
本論文は、多様なエージェントデータ形式を統一する軽量な「エージェントデータプロトコル(ADP)」を提案し、13 のデータセットを統合して大規模ファインチューニングを行うことで、ドメイン固有の調整なしに標準ベンチマークで最先端またはそれに準ずる性能を達成したことを示しています。
本論文は、フランスの医学部生が使用する本物の試験問題から作成された「CareMedEval」という新規データセットを提案し、大規模言語モデルが科学論文に基づく批判的評価や推論において、特に研究の限界や統計分析に関する質問で依然として高い難易度に直面していることを明らかにしています。
この論文は、がん患者のインタビューとオンラインフォーラムのデータから大規模言語モデル(LLM)と人間の介入を用いてオランダ語のメタファーを抽出し、医療コミュニケーションの改善や個別化されたケアの設計に貢献する「HealthQuote.NL」というコーパスを構築したことを報告しています。
この論文は、ContArgA コーパスを用いたゼロショット実験を通じて、論説の説得力予測においてカテゴリー感情モデルよりも評価理論(appraisal theories)の方が優れていることを初めて体系的に実証したものである。
本論文は、低リソース言語であるバスク語向けに独自に作成した画像・テキストデータセットを用いて大規模言語モデルを訓練し、バスク語のマルチモーダルデータが少量(約 20%)で十分であり、かつバスク語に特化した指示型 LLM をバックボーンとして必須としないことを示すことで、他の低リソース言語におけるマルチモーダル大規模言語モデルの開発への道を開いたことを報告しています。
本論文は、大規模言語モデルの計算コストと幻覚の問題を解決しつつ、従来のヒューリスティック手法を上回る精度でウェブページから主要コンテンツを抽出するための軽量フレームワーク「Dripper」を提案し、その性能を新ベンチマーク「WebMainBench」で検証するとともに、抽出された高品質データを用いて事前学習されたモデルの優位性を示しています。
この論文は、対照的説明を用いて機械翻訳モデルが性別を決定する際にどの入力トークンがトリガーとなるかを分析し、モデルの注目パターンと人間の性別認識の類似性を示すことで、バイアス軽減に向けた新たな洞察を提供する研究です。
この論文は、従来の AI が早期に曖昧さを解消する限界を克服し、文脈依存のアイデンティティと曖昧さの保持を可能にする「非解決推論(NRR)」という新たな計算フレームワークを提案し、その有効性を示すものです。
本論文は、4 つの主要な大規模言語モデル(LLM)を対象に、政治、イデオロギー、同盟、言語、ジェンダーの各次元におけるバイアスを体系的に分析し、中立性に調整されているにもかかわらず多様なバイアスや親和性が存在することを明らかにした。
この論文は、因果推論をテストベッドとして用いた実証研究を通じて、RLVR(検証可能報酬による強化学習)が特定のモデル規模と初期推論能力を持つ場合に、教師あり微調整(SFT)よりも因果推論タスクにおける汎化性能を向上させることを示しています。
本論文では、大規模マルチテナント検索システムにおける「ダークデータ」の活用と高コストなモデル更新の課題を解決するため、LLM を活用した完全自動化パイプラインで構築されたベンチマーク「DevRev-Search」を提案し、ドキュメントインデックスを固定したままクエリエンコーダーのみを微調整する「Index-Preserving Adaptation」戦略により、スケーラブルかつ実用的な検索適応を実現することを示しています。
この論文は、知識グラフの経路から導出された報酬信号を用いた強化学習と教師あり微調整を組み合わせることで、専門分野における複雑な多段推論能力を大幅に向上させ、大規模な先行モデルや最先端システムを上回る性能を発揮する新しい学習パラダイムを提案しています。
本論文は、大規模言語モデルが曖昧な入力に対して早期に解釈を固定してしまう問題を解決するため、複数の解釈を共存させる非収束状態空間へのテキスト変換フレームワーク「NRR-Phi」を提案し、その有効性を検証したものである。
本論文は、Chain-of-Thought による推論と拒絶を考慮した報酬に基づく強化学習を組み合わせることで、LLM に時間的推論における「答えを控える」能力を習得させ、GPT-4o を上回る性能と不確実性の検出能力を達成したことを示す初の実証研究である。