FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation
本論文は、センシティブなトピックに対する大規模言語モデルの回答を、コンテンツ・論理・適切さの 3 分野に細分化した評価体系「FINEST」を導入し、スコアと根拠に基づくフィードバックによって安全性と有用性を同時に向上させる手法を提案し、その有効性を検証したものである。
1861 件の論文
本論文は、センシティブなトピックに対する大規模言語モデルの回答を、コンテンツ・論理・適切さの 3 分野に細分化した評価体系「FINEST」を導入し、スコアと根拠に基づくフィードバックによって安全性と有用性を同時に向上させる手法を提案し、その有効性を検証したものである。
本論文は、検証可能な報酬を用いた強化学習がコンパクトな言語モデルに物理的推論を習得させるか検討した結果、厳密な物理報酬さえも単なる解答パターンの暗記を誘発し、構造化された推論の足場がない限り頑健な科学的推論には至らないことを示しています。
本論文は、TTS や NLP 向けに、依存関係なしのルールベース方式で、数値、日付、通貨、略語、外来語など多様な非標準テキストをベトナム語の発音形式に変換するオープンソースライブラリ「VietNormalizer」を提案し、その設計と既存手法との比較、および低資源言語への汎用性について論じています。
この論文は、大規模言語モデルの社会的competenceを評価する偽信念テストにおいて、モデルの規模や学習手法が性能に与える影響を分析し、特に「思考」という語彙がモデルの推論パターンに因果的な影響を与える「クロスオーバー効果」の存在と、その発生メカニズムをベイズ回帰やベクトル操作を用いて解明したものである。
本論文は、LLM 生成コードのモデルレベル帰属を可能にするために、意味情報とモデル固有のスタイル情報を分離する「Disentangled Code Attribution Network (DCAN)」を提案し、4 つの主要 LLM と 4 つのプログラミング言語を対象とした大規模ベンチマークデータセットを構築してその有効性を検証したものである。
本論文は、11 種類の主要な大規模言語モデル(LLM)を対象に 1,152 件のシナリオを用いた評価を通じて、これらのモデルが経済的・社会的・文化的権利の制限を政治的・市民的権利よりも容認する傾向にあること、言語(特に中国語やヒンディー語)による偏り、プロンプト操作への脆弱性、および回答形式による結果の差異など、人権原則の制限を容認する際の体系的なバイアスと課題を明らかにしています。
この論文は、多言語および視覚的に豊かな文書における RAG ベンチマークの性能向上が、主に高度な検索モデルによるものではなく、文書表現(文字起こしや前処理)の改善によるものであることを示し、検索能力と文字起こし能力を分離して評価する必要性を提唱しています。
本論文は、長期タスクにおける LLM エージェントのコンテキスト制約を克服するため、外部記憶とインデックスを活用して証拠を破棄せずに圧縮し、強化学習(MemexRL)を用いて要約・保存・検索のタイミングを最適化する「Memex」システムを提案し、より少ないコンテキストで高いタスク成功率を実現することを示しています。
この論文は、大規模言語モデルから生成された文書群を分析し、イベントの抽出と集約、そして因果発見アルゴリズムを適用することで、モデルが想定しうる因果仮説の集合を可視化するパイプラインを提案するものである。
この論文は、大規模言語モデルのカスタマイズにおいてテキストプロンプトの限界を指摘し、よりスケーラブルで安定した制御を可能にするため、ベクトルプロンプト入力を公開インターフェースとして提供すべきだと主張しています。
本研究は、大規模言語モデルがユーザーのダークトライアッド特性(マキャベリズム、ナルシシズム、サイコパシー)を含むプロンプトに対して、主に是正的な反応を示しつつも特定の状況で強化的な出力を行うことを明らかにし、より安全な対話システムの設計への示唆を与えています。
この論文は、生成と検証を統合し、候補間のペアワイズ比較に基づく不確実性guided ランキングと強化学習を用いることで、複雑な推論タスクにおけるテスト時スケーリングの効率と精度を大幅に向上させる新フレームワーク「V1」を提案するものです。
この論文は、LLM の隠れ状態から地理的・時間的構造が線形に復元可能であるという事実が、モデルが「世界モデル」を内在化している証拠ではなく、単なる単語の共起統計に潜む構造的な情報に由来するものであることを、静的な単語埋め込みを用いた実験を通じて示している。
AILS-NTUA は、グラフベースの検索、反射的プロンプト進化を介して最適化された LLM 駆動の帰納的推論、および事後の一貫性強制を組み合わせる 3 段階システムを提案し、SemEval-2026 タスク 12(帰納的事象推論)で 0.95 の精度を達成して 1 位を獲得し、さらに 14 種類のモデル間での誤差分析を通じて因果推論における 3 つの系統的な失敗パターンを特定しました。
本論文は、LLM ベースの CAD 生成におけるエンティティ選択の困難さと離散化によるトポロジー誤差を解決するため、B-Rep 幾何情報とポインタに基づく選択メカニズムを統合し、複雑な形状の生成と高精度な編集を可能にする新たなフレームワーク「Pointer-CAD」を提案するものである。
この論文は、マルチモーダル Web エージェントがスクリーンショットとアクセシビリティツリーの両方を含む視覚的攻撃に対して脆弱であることを発見し、教師モデルからの模倣学習、ゼロ・アックノリッジメント戦略を用いた教師あり微調整、および GRPO による敵対的強化学習の 3 段階パイプラインからなる「Dual-Modality Multi-Stage Adversarial Safety Training(DMAST)」を提案することで、タスク効率を倍増させつつ既存の防御手法を凌駕する堅牢性を達成したことを述べています。
本論文は、大規模な非構造化知識とツールの協調を必要とする複雑な金融サポートワークフローを評価する新たなベンチマーク「-Knowledge」を導入し、最先端モデルでさえも正確な情報検索と複雑なポリシー推論において大幅な課題を抱えていることを示しています。
本論文は、階層的な中間報酬を用いた強化学習アプローチ「TaxonRL」を提案し、視覚的に類似した生物種の識別において人間の性能を上回る精度と解釈可能な推論過程を実現したことを報告しています。
この論文は、機械翻訳技術の普及が言語の壁を低下させる一方で、その影響が均等ではなく、アイデアの流通や経済成長に新たな課題をもたらす可能性を論じている。
この論文は、ヘーゲルの弁証法に触発され、モデルが単一の出力ではなく自己修正メカニズムを備えた「思考の流れ」を生成することで、予測の精度向上と人間による評価の改善を実現する手法「Thought Flow Nets」を提案し、その有効性を示しています。