Explainable LLM Unlearning Through Reasoning
本論文は、既存のアンラーニング手法が抱える汎用能力の低下や知識の不完全な削除といった課題を解決するため、推論能力を活用して特定の知識を正確に除去しつつ他の能力を維持する「Targeted Reasoning Unlearning(TRU)」という新たなアプローチを提案し、その有効性を示したものです。
4581 件の論文
本論文は、既存のアンラーニング手法が抱える汎用能力の低下や知識の不完全な削除といった課題を解決するため、推論能力を活用して特定の知識を正確に除去しつつ他の能力を維持する「Targeted Reasoning Unlearning(TRU)」という新たなアプローチを提案し、その有効性を示したものです。
本論文は、エッジ環境における MoE モデルの推論を効率化するため、スペキュレイティブデコーディングをメモリ管理の指標として活用し、専門家の需要予測や非同期実行エンジンなどを統合した新しいフレームワーク「MoE-SpAc」を提案し、既存手法を大幅に上回る性能向上を実現したことを示しています。
この論文は、強化学習で探索された高パフォーマンスな変換軌跡をライブラリ化し、多様性を考慮してコンテキストを動的に最適化する連鎖思考フレームワークを提案することで、大規模言語モデルを用いた特徴変換の精度と安定性を向上させる手法を提示しています。
この論文は、機関固有の文脈に適応した大規模言語モデル対話システム「TAMUSA-Chat」のアーキテクチャ、学習手法、評価、および責任ある展開に関する包括的な研究フレームワークを提示し、学術機関における透明性とガバナンスを遵守した AI 導入の道筋を示しています。
本論文は、トルコ語の継承語教育におけるデータプライバシーと信頼性の課題を踏まえ、14 のオフライン LLM を「トルコ語異常スイート(TAS)」で評価した結果、パラメータ規模だけでなく推論指向の 8B〜14B モデルがコストと安全性の面で学習者にとって最もバランスが取れていることを明らかにしています。
この論文は、大規模言語モデルが次語予測のみの訓練から生じる文脈理解、インコンテキスト学習、思考連鎖といった現象の理論的メカニズムを解明し、これらがそれぞれトランジション確率の推定、曖昧性の低減、およびタスク分解の活性化を通じて機能することを示すことで、高度なプロンプトエンジニアリング手法の統計的優位性を理論的に裏付けています。
この論文は、ウィキペディアとウィキデータの構造、および社会科学の専門知識を活用してラテンアメリカの多様な文化を反映した26,000 以上の多肢選択形式の質問応答データセット「LatamQA」を構築し、大規模言語モデルがラテンアメリカ諸国間や言語間で知識格差やイベリア半島のスペイン文化への偏りを持つことを実証したものである。
本論文は、自然言語で指定された制約に基づいてスプレッドシートを生成する大規模言語モデル(LLM)の性能を評価するためのプラットフォーム「SpreadsheetArena」を提案し、盲検ペア評価を通じて生成物のスタイルや構造、機能への好みが用途によって大きく異なり、専門家のベストプラクティスとの整合性にも課題があることを明らかにしています。
この論文は、LLM の欺瞞検出における「嘘探知機」アプローチが、事実と異なる発言(嘘)を含まない欺瞞(誤解を招く真実の発言など)を検出できないという重大な盲点を明らかにし、従来の真偽判定プロトコルでは不十分であることを示唆しています。
GATech チームは、AbjadGenEval 共有タスクにおいて、複雑なプーリング手法よりも単純な平均プーリングの方が限られたデータで安定して良好な結果(F1 0.75)を示し、さらに人間による文章が機械生成された文章よりも有意に長いというデータ特性を明らかにしました。
この論文は、82 クラスの阿拉伯語医療テキスト分類タスクにおいて、因果的デコーダー(大規模言語モデル)よりも、ハイブリッドプーリングやマルチサンプルドロップアウトを備えた微調整済みの双方向エンコーダー(AraBERTv2)の方が、正確な意味境界の捕捉と分類精度において優れていることを実証しています。
この論文は、標準的な GRPO が抱える「全サンプルを交換可能と仮定する」限界を克服し、各ユーザーの選好グループに固有の報酬履歴に基づいて利得を正規化することで、多様な個人選好への迅速かつ高精度なアライメントを実現する「Personalized GRPO(P-GRPO)」という新たなフレームワークを提案し、その有効性を示したものです。
本論文は、AI モデルと AI システムの境界の曖昧さが規制上の義務分担に課題を生んでいる現状を踏まえ、学術文献や規制文書の大規模レビューに基づき、両者の概念を明確に定義し、規制実装における責任の所在を解決するための枠組みを提案するものである。
LWM-Temporal は、物理的に妥当な近傍に相互作用を制限することで計算複雑度を大幅に削減しつつ、モビリティに起因する進化を捉える汎用的な無線チャネル埋め込みを学習する、新しい大規模無線モデル(LWM)ファミリーのメンバーです。
本論文は、長期実行エージェントの文脈制限下で重要な情報を保持しつつ不要な情報を効率的に忘却するための階層型メモリ管理手法「HTM-EAR」を提案し、重要性に基づくエビクションとハイブリッドルーティングを組み合わせることで、飽和状態においてもオラクルに近い検索精度を維持できることを実証しています。
本論文は、スマートホームの IoT 環境において、ラベル不要の自己教師あり学習と軽量トランスフォーマーを活用し、複数の故障や居住者が混在する状況下でも高精度かつエッジデバイス上で動作可能なセンサー故障検出・特定手法「Tureis」を提案するものである。
本論文は、NetSecGame 環境において IP アドレスの再割り当てという単純な変化が自律攻撃エージェントの一般化能力に与える影響を評価し、メタ学習エージェントは部分的な適応を示すものの、推論コストや透明性の欠如などの課題はあるものの、事前学習済み LLM ベースのエージェントが保持されたテスト条件下で最も高い成功率を達成したことを明らかにしています。
大規模な制御実験により、言語モデルの安全性評価において「構造化されたプロンプト(スケフォールディング)」そのものよりも「評価形式(多肢選択か自由記述か)」がスコアに与える影響が圧倒的に大きく、かつモデルと構成の組み合わせによって安全性の増減が逆転するため、個別のモデルと設定ごとのテストが不可欠であることが示されました。
IoT 環境におけるヒト活動認識の継続的学習において、事前学習済みモデルの凍結とチャネル単位のゲート制御による特徴選択アプローチを採用することで、パラメータの 2% 未満のみを学習しながら忘却を大幅に抑制し、安定性と可塑性を両立する効率的なフレームワークを提案しています。
本論文は、Sharpness-Aware Minimization (SAM) の従来手法における理論的解釈の欠如と近似精度の問題を解決し、最大値の方向を明示的に推定する新たな手法「XSAM」を提案し、その有効性を示すものである。