Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition
本論文は、文脈内学習によるタスク一般化のメカニズムを「オフ・バイ・ワン加算」タスクを通じて解釈可能性の観点から解明し、標準的な加算から「+1」という関数を抽象的に誘導する「関数誘導」と呼ばれるメカニズムが、複数の注意ヘッドの並列動作によって実現され、多様なタスクで再利用可能であることを示しています。
1733 件の論文
本論文は、文脈内学習によるタスク一般化のメカニズムを「オフ・バイ・ワン加算」タスクを通じて解釈可能性の観点から解明し、標準的な加算から「+1」という関数を抽象的に誘導する「関数誘導」と呼ばれるメカニズムが、複数の注意ヘッドの並列動作によって実現され、多様なタスクで再利用可能であることを示しています。
本論文は、英語に偏っていた既存研究を補完し、9 言語を対象にテキスト脱毒タスクの評価指標を包括的に検証し、人間の評価との相関が高い新しい評価手法と実践的なガイドラインを提案するものである。
この論文は、テキストのみのデータセットを多モーダル形式に変換する「Text2VLM」という新しいパイプラインを提案し、視覚入力によるプロンプトインジェクション攻撃に対するビジュアル言語モデルの脆弱性を評価し、より堅牢な安全メカニズムの構築に貢献するものです。
本論文は、静的なデータセットや単純な Web 操作に留まらず、多様なウェブサイトからの情報収集から分析・洞察までのエンドツーエンドのデータサイエンスタスクを評価する初のベンチマーク「WebDS」を提案し、現状の LLM エージェントと人間との間に大きな性能差があることを明らかにしています。
この論文は、言語理論に基づいた専門エージェントによる多面的な分析と最終判断の分離というデカップル構造を採用し、幻覚に強く高精度な皮肉検出を実現する新しいマルチエージェントフレームワーク「SEVADE」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。
本論文は、LLM が曖昧化された事実質問に対する堅牢性を評価するための新規フレームワーク「ObfusQA」とその手法「ObfusQAte」を提案し、LLM が複雑な言語的変形に対して幻覚や失敗を起こしやすい傾向を実証している。
この論文は、306 の言語で構成され、LLM による質問生成と再構成、および人間による評価を経て作成された大規模な読解力ベンチマーク「MultiWikiQA」を提案し、その品質とモデル間の性能差を報告するものです。
本論文は、文書画像から非情報領域を事前にフィルタリングし、テキスト領域の空間的整合性を高める軽量トークンプルーニング手法を提案することで、文書理解における視覚言語モデルの計算コストを大幅に削減しつつ精度を維持することを示しています。
この論文は、GUI 上のトグル制御における既存マルチモーダルエージェントの信頼性不足を解決するため、現在の状態を認識し指示から望ましい状態を推論して行動する「StaR」という手法を提案し、トグル指示の精度を 30% 以上向上させるだけでなく、一般的なタスク遂行能力も向上させることを実証しています。
この論文は、論説の説得力が論説そのものだけでなく受信者の主観的評価に依存するという洞察に基づき、心理学の認知評価モデルを応用した「文脈化された論説評価フレームワーク」を提案し、役割演技に基づく新規アノテーション手法で収集した 4000 件のデータから、説得力がポジティブな感情と正の相関を持ち、特にアノテーターの論説への親和性が重要であることを実証しています。
この論文は、現実世界の非協力的なユーザー行動(利用不可能なサービスの要求や脱線、焦り、不完全な発話など)をシミュレートする新しいアーキテクチャを提案し、既存のツールエージェントがこれらの状況下で性能が著しく低下することを示すことで、実環境でのエージェントの堅牢性向上の必要性を浮き彫りにしています。
本論文は、深層研究エージェントのパーソナライズ能力を評価するための初のベンチマーク「PDR-Bench」と、その性能を多角的に測定する評価フレームワーク「PQR」を提案し、パーソナライズされた AI 研究助手の発展に向けた基盤を確立したものである。
本論文は、大規模言語モデルの信頼性不足を克服し、非構造化テキストから事実性と妥当性を兼ね備えた高品質な知識グラフを効率的かつスケーラブルに抽出する、80M パラメータの軽量ニューロシンボリックモデル「GraphMERT」を提案し、糖尿病分野の PubMed 論文を用いた実験で既存の 32B パラメータモデルを大幅に上回る精度を達成したことを報告するものです。
本論文は、大規模言語モデルの推論を表現空間における幾何学的な「流れ」としてモデル化する新たな枠組みを提案し、次トークン予測のみの学習でも論理的な不変性が高次幾何学として内面化されることを実証することで、「確率的オウム」説に挑戦し、モデルやアーキテクチャに依存しない普遍的な表現法則の存在を示唆するものである。
この論文は、既存の活性化ベースの分析を超えて、学習済み重みから特徴を直接解釈する「WeightLens」と、コンポーネント間の相互作用による回路レベルの動態を捉える「CircuitLens」という 2 つの補完的な手法を提案し、スケーラブルで堅牢な機械的解釈性を実現することを目的としています。
この論文は、限られた種子質問を素因に分解・再構成することで合成データを生成し、強化学習を通じてチャートやウェブページなどの人工画像ドメインにおける多モーダル大規模言語モデルの推論能力を飛躍的に向上させる「COGS」というデータ効率型フレームワークを提案しています。
大規模な正解ラベル付けを必要とせず、自己一貫性による安価な指導と少量の正解注釈を組み合わせる二段階フレームワーク「EliCal」を提案し、大規模ベンチマーク「HonestyBench」を用いた実験で、極めて少ない注釈コストで LLM の普遍的な誠実性アライメントを達成できることを示しました。
この論文は、RAG における回答と引用の失敗を区別し、CITECONTROL ベンチマークで引用失敗の要因を分析するとともに、生成・注意・検索を統合した CITENTION フレームワークを提案することで引用精度を効率的に向上させる手法を提示しています。
本論文は、淘宝の視覚検索システムにおける「クリックなし」リクエストから潜在的なユーザー意図を大規模言語モデルを用いてオフラインで分析・推論し、オンラインで最適化戦略を適応的に実行する新フレームワーク「REVISION」を提案し、クリック率の低下を顕著に改善したことを示しています。
本論文は、テキスト・音声・映像の全モダリティに人間による注釈が施された初のドイツ語多モーダル皮肉検出データセット「MuSaG」を提案し、既存モデルがテキストに依存する一方、人間は会話において音声を重視する傾向があることを示すことで、現実的なシナリオに適したモデル開発の必要性を浮き彫りにしています。