Categorical Emotions or Appraisals - Which Emotion Model Explains Argument Convincingness Better?
この論文は、ContArgA コーパスを用いたゼロショット実験を通じて、論説の説得力予測においてカテゴリー感情モデルよりも評価理論(appraisal theories)の方が優れていることを初めて体系的に実証したものである。
1769 件の論文
この論文は、ContArgA コーパスを用いたゼロショット実験を通じて、論説の説得力予測においてカテゴリー感情モデルよりも評価理論(appraisal theories)の方が優れていることを初めて体系的に実証したものである。
本論文は、低リソース言語であるバスク語向けに独自に作成した画像・テキストデータセットを用いて大規模言語モデルを訓練し、バスク語のマルチモーダルデータが少量(約 20%)で十分であり、かつバスク語に特化した指示型 LLM をバックボーンとして必須としないことを示すことで、他の低リソース言語におけるマルチモーダル大規模言語モデルの開発への道を開いたことを報告しています。
本論文は、大規模言語モデルの計算コストと幻覚の問題を解決しつつ、従来のヒューリスティック手法を上回る精度でウェブページから主要コンテンツを抽出するための軽量フレームワーク「Dripper」を提案し、その性能を新ベンチマーク「WebMainBench」で検証するとともに、抽出された高品質データを用いて事前学習されたモデルの優位性を示しています。
この論文は、対照的説明を用いて機械翻訳モデルが性別を決定する際にどの入力トークンがトリガーとなるかを分析し、モデルの注目パターンと人間の性別認識の類似性を示すことで、バイアス軽減に向けた新たな洞察を提供する研究です。
この論文は、従来の AI が早期に曖昧さを解消する限界を克服し、文脈依存のアイデンティティと曖昧さの保持を可能にする「非解決推論(NRR)」という新たな計算フレームワークを提案し、その有効性を示すものです。
本論文は、4 つの主要な大規模言語モデル(LLM)を対象に、政治、イデオロギー、同盟、言語、ジェンダーの各次元におけるバイアスを体系的に分析し、中立性に調整されているにもかかわらず多様なバイアスや親和性が存在することを明らかにした。
この論文は、因果推論をテストベッドとして用いた実証研究を通じて、RLVR(検証可能報酬による強化学習)が特定のモデル規模と初期推論能力を持つ場合に、教師あり微調整(SFT)よりも因果推論タスクにおける汎化性能を向上させることを示しています。
本論文では、大規模マルチテナント検索システムにおける「ダークデータ」の活用と高コストなモデル更新の課題を解決するため、LLM を活用した完全自動化パイプラインで構築されたベンチマーク「DevRev-Search」を提案し、ドキュメントインデックスを固定したままクエリエンコーダーのみを微調整する「Index-Preserving Adaptation」戦略により、スケーラブルかつ実用的な検索適応を実現することを示しています。
この論文は、知識グラフの経路から導出された報酬信号を用いた強化学習と教師あり微調整を組み合わせることで、専門分野における複雑な多段推論能力を大幅に向上させ、大規模な先行モデルや最先端システムを上回る性能を発揮する新しい学習パラダイムを提案しています。
本論文は、大規模言語モデルが曖昧な入力に対して早期に解釈を固定してしまう問題を解決するため、複数の解釈を共存させる非収束状態空間へのテキスト変換フレームワーク「NRR-Phi」を提案し、その有効性を検証したものである。
本論文は、Chain-of-Thought による推論と拒絶を考慮した報酬に基づく強化学習を組み合わせることで、LLM に時間的推論における「答えを控える」能力を習得させ、GPT-4o を上回る性能と不確実性の検出能力を達成したことを示す初の実証研究である。
この論文は、強化学習における報酬をスカラー重みではなくカテゴリラベルとして扱う「REAL」という新しいフレームワークを提案し、勾配の誤割り当てや支配問題を解消することで、数学的推論タスクにおいて既存の GRPO や DAPO などの手法を安定して上回る性能を実現することを示しています。
本論文は、マスクド拡散言語モデルの推論において、確率的に収束したトークン位置の計算を動的にスキップして注意機構のキャッシュを維持する「SureLock」を提案し、LLaDA-8B において生成品質を維持しつつ計算コストを 30〜50% 削減する手法を示しています。
本論文は、数学やコーディングで優れた推論能力を示す大規模推論モデルが、心の理論(ToM)タスクにおいては必ずしも非推論モデルを上回らず、むしろ思考の過剰や選択肢への依存といった課題に直面していることを実証し、社会推論には既存の推論手法を超えた独自の能力開発が必要であると結論付けています。
この論文は、ドイツのマイツ方言「メエンツェルリッシュ」の保存を目的として同方言初の NLP データセットを構築し、大規模言語モデル(LLM)による方言の定義生成や単語生成の能力を評価した結果、既存の LLM は極めて低い精度しか示さなかったため、ドイツの方言研究へのさらなる資源と取り組みが緊急に必要であることを明らかにしています。
この論文は、意見語の注釈を含む新しいチェコ語の分野別感情分析データセットを提案し、大規模言語モデルを用いた多言語・翻訳整合アプローチによるベンチマーク評価と低資源言語への適用可能性を検証するものです。
低リソース医療環境向けに、5 つのオープンソース小規模言語モデルの臨床質問応答におけるプロンプト感度と回答の一貫性を評価した本研究は、一貫性が高くても正解率が低い「確実に誤る」危険性を指摘し、Llama 3.2 が精度と信頼性のバランスにおいて最も優れていることを示しました。
本論文は、現実的な仮定(オフライン前計算の可否や不要な入力に対する拒否メカニズムの有無)を満たすゼロショット関係抽出モデルの堅牢性を検討し、既存手法の限界を指摘するとともに、単一パス処理と拒否メカニズムを組み合わせた戦略を提案し、その中で AlignRE が最も優れていることを示しています。
本論文は、タスク指向対話システムにおける大規模言語モデルの学習データ抽出攻撃の限界を分析し、新しい攻撃手法を提案することで、対話状態ラベルの高精度な抽出と学習データの記憶メカニズムの解明を達成したことを示しています。
この論文は、定性的コンテンツ分析の原則を取り入れたナラティブグラフ注釈フレームワークを提案し、6×3 因子実験を通じて注釈の表現形式と距離指標がアノテータ間合意に与える影響を分析することで、経済ナラティブの構造化評価における品質向上と人間ラベル変動への対応策を示しています。