Explainable LLM Unlearning Through Reasoning

本論文は、既存のアンラーニング手法が抱える汎用能力の低下や知識の不完全な削除といった課題を解決するため、推論能力を活用して特定の知識を正確に除去しつつ他の能力を維持する「Targeted Reasoning Unlearning(TRU)」という新たなアプローチを提案し、その有効性を示したものです。

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

本論文は、エッジ環境における MoE モデルの推論を効率化するため、スペキュレイティブデコーディングをメモリ管理の指標として活用し、専門家の需要予測や非同期実行エンジンなどを統合した新しいフレームワーク「MoE-SpAc」を提案し、既存手法を大幅に上回る性能向上を実現したことを示しています。

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

この論文は、強化学習で探索された高パフォーマンスな変換軌跡をライブラリ化し、多様性を考慮してコンテキストを動的に最適化する連鎖思考フレームワークを提案することで、大規模言語モデルを用いた特徴変換の精度と安定性を向上させる手法を提示しています。

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

この論文は、機関固有の文脈に適応した大規模言語モデル対話システム「TAMUSA-Chat」のアーキテクチャ、学習手法、評価、および責任ある展開に関する包括的な研究フレームワークを提示し、学術機関における透明性とガバナンスを遵守した AI 導入の道筋を示しています。

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

本論文は、トルコ語の継承語教育におけるデータプライバシーと信頼性の課題を踏まえ、14 のオフライン LLM を「トルコ語異常スイート(TAS)」で評価した結果、パラメータ規模だけでなく推論指向の 8B〜14B モデルがコストと安全性の面で学習者にとって最もバランスが取れていることを明らかにしています。

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

この論文は、大規模言語モデルが次語予測のみの訓練から生じる文脈理解、インコンテキスト学習、思考連鎖といった現象の理論的メカニズムを解明し、これらがそれぞれトランジション確率の推定、曖昧性の低減、およびタスク分解の活性化を通じて機能することを示すことで、高度なプロンプトエンジニアリング手法の統計的優位性を理論的に裏付けています。

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

この論文は、ウィキペディアとウィキデータの構造、および社会科学の専門知識を活用してラテンアメリカの多様な文化を反映した26,000 以上の多肢選択形式の質問応答データセット「LatamQA」を構築し、大規模言語モデルがラテンアメリカ諸国間や言語間で知識格差やイベリア半島のスペイン文化への偏りを持つことを実証したものである。

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

本論文は、自然言語で指定された制約に基づいてスプレッドシートを生成する大規模言語モデル(LLM)の性能を評価するためのプラットフォーム「SpreadsheetArena」を提案し、盲検ペア評価を通じて生成物のスタイルや構造、機能への好みが用途によって大きく異なり、専門家のベストプラクティスとの整合性にも課題があることを明らかにしています。

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification

GATech チームは、AbjadGenEval 共有タスクにおいて、複雑なプーリング手法よりも単純な平均プーリングの方が限られたデータで安定して良好な結果(F1 0.75)を示し、さらに人間による文章が機械生成された文章よりも有意に長いというデータ特性を明らかにしました。

Ahmed Khaled Khamis2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

この論文は、82 クラスの阿拉伯語医療テキスト分類タスクにおいて、因果的デコーダー(大規模言語モデル)よりも、ハイブリッドプーリングやマルチサンプルドロップアウトを備えた微調整済みの双方向エンコーダー(AraBERTv2)の方が、正確な意味境界の捕捉と分類精度において優れていることを実証しています。

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

この論文は、標準的な GRPO が抱える「全サンプルを交換可能と仮定する」限界を克服し、各ユーザーの選好グループに固有の報酬履歴に基づいて利得を正規化することで、多様な個人選好への迅速かつ高精度なアライメントを実現する「Personalized GRPO(P-GRPO)」という新たなフレームワークを提案し、その有効性を示したものです。

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

本論文は、AI モデルと AI システムの境界の曖昧さが規制上の義務分担に課題を生んでいる現状を踏まえ、学術文献や規制文書の大規模レビューに基づき、両者の概念を明確に定義し、規制実装における責任の所在を解決するための枠組みを提案するものである。

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

本論文は、長期実行エージェントの文脈制限下で重要な情報を保持しつつ不要な情報を効率的に忘却するための階層型メモリ管理手法「HTM-EAR」を提案し、重要性に基づくエビクションとハイブリッドルーティングを組み合わせることで、飽和状態においてもオラクルに近い検索精度を維持できることを実証しています。

Shubham Kumar Singh2026-03-12🤖 cs.AI

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

本論文は、NetSecGame 環境において IP アドレスの再割り当てという単純な変化が自律攻撃エージェントの一般化能力に与える影響を評価し、メタ学習エージェントは部分的な適応を示すものの、推論コストや透明性の欠如などの課題はあるものの、事前学習済み LLM ベースのエージェントが保持されたテスト条件下で最も高い成功率を達成したことを明らかにしています。

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia2026-03-12💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

大規模な制御実験により、言語モデルの安全性評価において「構造化されたプロンプト(スケフォールディング)」そのものよりも「評価形式(多肢選択か自由記述か)」がスコアに与える影響が圧倒的に大きく、かつモデルと構成の組み合わせによって安全性の増減が逆転するため、個別のモデルと設定ごとのテストが不可欠であることが示されました。

David Gringras2026-03-12🤖 cs.AI

Gated Adaptation for Continual Learning in Human Activity Recognition

IoT 環境におけるヒト活動認識の継続的学習において、事前学習済みモデルの凍結とチャネル単位のゲート制御による特徴選択アプローチを採用することで、パラメータの 2% 未満のみを学習しながら忘却を大幅に抑制し、安定性と可塑性を両立する効率的なフレームワークを提案しています。

Reza Rahimi Azghan, Gautham Krishna Gudur, Mohit Malu, Edison Thomaz, Giulia Pedrielli, Pavan Turaga, Hassan Ghasemzadeh2026-03-12🤖 cs.LG