One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis
本論文は、コード分析タスクにおけるマルチタスク学習とパラメータ効率型微調整(PEFT)を統合した初の包括的評価を行い、単一の共有 PEFT モジュールがフル微調整に匹敵する性能を発揮しつつ、ストレージや計算コストを大幅に削減できることを示し、さらにタスクの組み合わせやモデル構造が成功に与える影響を明らかにした。
3917 件の論文
本論文は、コード分析タスクにおけるマルチタスク学習とパラメータ効率型微調整(PEFT)を統合した初の包括的評価を行い、単一の共有 PEFT モジュールがフル微調整に匹敵する性能を発揮しつつ、ストレージや計算コストを大幅に削減できることを示し、さらにタスクの組み合わせやモデル構造が成功に与える影響を明らかにした。
本論文は、既存のアンラーニング手法が抱える汎用能力の低下や知識の不完全な削除といった課題を解決するため、推論能力を活用して特定の知識を正確に除去しつつ他の能力を維持する「Targeted Reasoning Unlearning(TRU)」という新たなアプローチを提案し、その有効性を示したものです。
本論文は、アラビア語向けに ModernBERT アーキテクチャを適応させ、トランストークン化による初期化と最大 8,192 トークンの長文脈モデリングの導入が、言語モデル性能の劇的な向上と多様な下流タスクへの強力な転移を可能にすることを示しています。
本論文は、エッジ環境における MoE モデルの推論を効率化するため、スペキュレイティブデコーディングをメモリ管理の指標として活用し、専門家の需要予測や非同期実行エンジンなどを統合した新しいフレームワーク「MoE-SpAc」を提案し、既存手法を大幅に上回る性能向上を実現したことを示しています。
この論文は、大規模言語モデル(LLM)が人間の認知バイアスである「ダニング=クルーガー効果」と類似したパターンを示し、特に性能の低いモデルが過剰な自信を持つ傾向があることを、主要な 4 種類のモデルを用いた大規模な実証研究で明らかにしたものである。
本論文は、医療教科書に基づく質問応答において大規模言語モデルが事実と異なる回答(ハルシネーション)を生成する頻度を定量化し、その発生率が低いほど臨床医による有用性評価が高くなる傾向があることを示しています。
この論文は、強化学習で探索された高パフォーマンスな変換軌跡をライブラリ化し、多様性を考慮してコンテキストを動的に最適化する連鎖思考フレームワークを提案することで、大規模言語モデルを用いた特徴変換の精度と安定性を向上させる手法を提示しています。
この論文は、活性化パッチングを用いて因果的に重要なアテンションヘッドを特定し、回路レベルの分析を自然言語の説明に橋渡しするパイプラインを提案し、GPT-2 Small における間接的対象識別タスクにおいて、LLM 生成の説明がテンプレートベースの手法を上回る品質を持つことを実証するとともに、モデルの自信と説明の忠実性の間に相関がないことを明らかにしています。
この論文は、大規模言語モデルの幻覚に関連する行動をユーザー視点で迅速かつ解釈可能に評価するための軽量な測定ツール「システム幻覚尺度(SHS)」を提案し、210 名の参加者による実証評価を通じてその妥当性と実用性を立証したものである。
この論文は、LLM(LLaMA-3.1-8B-Instruct)を用いた契約書セグメンテーションと、微調整された Legal-Roberta-Large を用いた条項分類という 2 段階のアーキテクチャを提案し、NDA 文書の自動分析において高い精度を達成したことを示しています。
この論文は、家禽産業におけるステークホルダーの感情分析を目的として、ドメイン適応型双ストリームトランスフォーマーと辞書強化アプローチを統合した「PoultryLeX-Net」を提案し、既存モデルを凌ぐ高精度な分類性能を実証したものである。
この論文は、機関固有の文脈に適応した大規模言語モデル対話システム「TAMUSA-Chat」のアーキテクチャ、学習手法、評価、および責任ある展開に関する包括的な研究フレームワークを提示し、学術機関における透明性とガバナンスを遵守した AI 導入の道筋を示しています。
この論文は、社会的文脈や権力関係に基づいた曖昧な発話の推論能力を評価するための、5 つの語用論的サブタイプと 3 つの権力構成を含む 300 件の人間検証済みシナリオからなる「文脈的感情的推論(CEI)ベンチマーク」を提案し、そのアノテーション手法と品質管理パイプラインを詳述しています。
本論文は、大規模言語モデルが形容詞と名詞の組み合わせを内部的に表現できる一方で、それが必ずしもタスク遂行能力に反映されないという乖離を明らかにし、モデルの能力を包括的に理解するために対照的評価の重要性を強調しています。
この論文は、行動面接の評価と改善において、反復的な連鎖思考プロンプトよりも人間によるフィードバック(ヒューマン・イン・ザ・ループ)の方が、自信と真正性の向上、反復回数の削減、および初期の弱い回答に対する高い成功率において統計的に有意に優れていることを示しています。
本論文は、トルコ語の継承語教育におけるデータプライバシーと信頼性の課題を踏まえ、14 のオフライン LLM を「トルコ語異常スイート(TAS)」で評価した結果、パラメータ規模だけでなく推論指向の 8B〜14B モデルがコストと安全性の面で学習者にとって最もバランスが取れていることを明らかにしています。
この論文は、GPT モデルの進化に伴いユーザーが「共感性の低下」を訴える現象が統計的に否定され、実際には危機検知能力の向上と助言の安全性低下というトレードオフが生じており、ユーザーの「共感性喪失」の感覚は、危機に敏感になったモデルが過剰に反応するようになったことへの誤解であることを明らかにした研究です。
本論文は、機械翻訳の自動評価フレームワークを用いて、ニュースや文学など多様な中国語テキストの英語翻訳における GPT-4o や DeepSeek などの大規模言語モデルの性能を分析し、ニュース分野では高い精度を示すものの、文化的ニュアンスや古典的引用の保持といった文学的翻訳においては依然として課題が残ることを明らかにしたものです。
本論文は、無人航空機の安全評価や規制遵守を支援するため、権威ある規制文書に基づく検索と引用を強制し、生成モデルの幻覚や根拠不足を抑制する信頼性の高い意思決定支援アシスタントの設計・検証と、その航空監視業務への統合に関する技術的・運用的指針を提示するものである。
この論文は、ウィキペディアとウィキデータの構造、および社会科学の専門知識を活用してラテンアメリカの多様な文化を反映した26,000 以上の多肢選択形式の質問応答データセット「LatamQA」を構築し、大規模言語モデルがラテンアメリカ諸国間や言語間で知識格差やイベリア半島のスペイン文化への偏りを持つことを実証したものである。