From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation
この論文は、定性的コンテンツ分析の原則を取り入れたナラティブグラフ注釈フレームワークを提案し、6×3 因子実験を通じて注釈の表現形式と距離指標がアノテータ間合意に与える影響を分析することで、経済ナラティブの構造化評価における品質向上と人間ラベル変動への対応策を示しています。
1849 件の論文
この論文は、定性的コンテンツ分析の原則を取り入れたナラティブグラフ注釈フレームワークを提案し、6×3 因子実験を通じて注釈の表現形式と距離指標がアノテータ間合意に与える影響を分析することで、経済ナラティブの構造化評価における品質向上と人間ラベル変動への対応策を示しています。
本論文は、LLM による生成文章の検出ツールの現状と責任ある活用について概説し、GRE 作文課題を用いた実証分析を通じて、特定の LLM で訓練された検出器が他モデルの生成文への一般化性能を評価し、実用的な検出器の開発・再訓練に関する指針を提示しています。
この論文は、LLM 時代における TeX の限界を指摘し、より効率的なデータ構造と高速レンダリング、低エントロピーな形式(.tmu)を特徴とする WYSIWYG 構造化エディタ「Mogan STEM」を提案し、そのコンパイル性能の優位性と LLM 微調整への適性を実証するとともに、.tmu 形式を用いた大規模 LLM 訓練の実験を呼びかけています。
この論文は、生成エージェントと評価エージェントが「提案・評価・修正」のプロセスを通じて協調し、強化学習を用いて合成データの品質とゼロショット文書レベルイベント引数抽出の性能を同時に向上させる新しいマルチエージェント協調フレームワークを提案しています。
本論文は、コード実行環境を活用したマルチエージェントフレームワーク「Code2Math」を提案し、既存の数学問題を自律的に探索・進化させることで、構造的に異なりかつより高度な難易度の新たな解ける問題を生み出すことを実証している。
本論文は、長期対話における事実の断絶や状態更新の競合といった課題を解決し、LoCoMo 評価でマルチホップ推論の精度を大幅に向上させるとともに、推論時間を約 78% 削減する構造化メモリシステム「AriadneMem」を提案するものである。
本論文は、言語モデルの報酬モデルに存在する多様なバイアスを体系的に分析し、それらの低複雑なバイアスを最小限のラベル付きデータで軽減する「メカニスト的報酬整形」という新しい手法を提案するものである。
本論文は、医療分野における推論の精度向上とハルシネーションの抑制を目的として、候補回答間の「矛盾」を検知し、外部証拠の取得と内部推論履歴の最適化を反復的に行うマルチラウンド・エージェンティック RAG フレームワーク「MA-RAG」を提案し、7 つの医療 Q&A ベンチマークで平均 6.8 ポイントの精度向上を実現したことを報告しています。
本論文は、メモリ精製、原子クエリ学習、密な報酬という 3 つのコンポーネントを導入し、「思考・検索・記憶」の戦略を通じて検索エージェントのオンライン行動を自己進化させる「SE-Search」を提案し、単一 hops および多段 hops 質問応答タスクにおいて既存の強力なベースラインを大幅に上回る性能を達成したことを報告しています。
この論文は、農業アドバイスにおける大規模言語モデルの課題を解決するため、専門家がキュレーションした事実データを用いた微調整と安全配慮のある応答生成レイヤーを組み合わせたハイブリッドアーキテクチャを提案し、その有効性を実証したものです。
この論文は、大規模言語モデルが人間の意思決定に統合される際、人間の目標選択を代理するものとして信頼できるか検証した結果、モデルは人間とは異なり多様な探索を行わず単一の解に依存する傾向があり、人間の目標選択を模倣する能力は限定的であることを示しています。
本論文は、認知科学の知見に基づきエピソード的記憶を抽象的な知識グラフとして構造化し、任意の LLM エージェントにタスク固有の設計変更なしに接続可能な汎用的なメモリモジュール「PlugMem」を提案し、複数のベンチマークで既存の手法を上回る性能と高い情報密度を実現したことを報告しています。
この論文は、テスト時にモデル自身を「学生」と「教師」の役割で交互に機能させ、失敗した推論経路を分析して弱点に特化した変種問題を生成する「TTSR」という自己反省型フレームワークを提案し、大規模言語モデルの推論能力を継続的に向上させる手法を提示しています。
TATRA は、ラベル付きデータやタスク固有の最適化を一切必要とせず、ユーザーの指示に基づいてその場での例を生成・集約することで、各インスタンスに特化した効果的なプロンプトを構築し、既存の最適化手法を上回る性能を実現するトレーニングフリーのアプローチです。
この論文は、10 種類の商用大規模言語モデル(LLM)を対象とした大規模な監査を通じて、学術的引用の捏造(ハルシネーション)発生率がモデルや分野、プロンプト構成によって 11.4%〜56.8% と大きく変動し、複数モデルの合意やプロンプト内反復によるフィルタリング、および外部データベースを参照しない軽量分類器を用いた検出が有効であることを示しています。
この論文は、労働省弁護士による手作業の基準データ(LaborBench)を用いて法的 RAG ツールを評価し、STARA が大幅な精度向上(83%)を達成した一方で西法や Lexis の商用 AI は標準 RAG よりも劣る結果を示し、さらに基準データ自体に欠落があったことを発見して、正確な多管轄法域調査を実現するための設計指針を提示している。
この論文は、大規模言語モデルの埋め込みに対する意味的キャッシュの最適オフライン方策が NP 困難であることを証明し、多様なデータセットでの評価を通じて、既存の頻度ベースの方策を上回る精度を達成する新しいオンライン方策を提案しています。
この論文は、州交通機関の知識管理と workforce 訓練の課題を解決するため、専門エージェントによる多段階処理と図表の視覚言語モデル変換を組み合わせた検索拡張生成(RAG)フレームワークを提案するものである。
既存のユーザーシミュレーターが表面的な言語パターンの模倣に留まるのに対し、本論文は強化学習を用いてユーザーの信念や感情といった潜在的な状態を地対正解と整合させることで、より現実的なユーザーをシミュレートする新たなフレームワーク「HumanLM」を提案し、大規模ベンチマーク「Humanual」および実証実験において他手法を大幅に上回る性能を実証した。
この論文は、構造化生成における構文エラーを回避しつつ意味的な整合性を維持するため、無制約ドラフト生成と条件付き制約デコーディングを組み合わせるトレーニング不要の手法「DCCD」を提案し、小規模モデルでも大規模モデルに匹敵する高い構造化精度を実現することを示しています。