cs.AI 件の論文 | Gist.Science

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

本論文は、コード分析タスクにおけるマルチタスク学習とパラメータ効率型微調整（PEFT）を統合した初の包括的評価を行い、単一の共有 PEFT モジュールがフル微調整に匹敵する性能を発揮しつつ、ストレージや計算コストを大幅に削減できることを示し、さらにタスクの組み合わせやモデル構造が成功に与える影響を明らかにした。

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

本論文は、既存のアンラーニング手法が抱える汎用能力の低下や知識の不完全な削除といった課題を解決するため、推論能力を活用して特定の知識を正確に除去しつつ他の能力を維持する「Targeted Reasoning Unlearning（TRU）」という新たなアプローチを提案し、その有効性を示したものです。

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

本論文は、アラビア語向けに ModernBERT アーキテクチャを適応させ、トランストークン化による初期化と最大 8,192 トークンの長文脈モデリングの導入が、言語モデル性能の劇的な向上と多様な下流タスクへの強力な転移を可能にすることを示しています。

Omar Elshehy, Omer Nacar, Abdelbasset Djamai, Muhammed Ragab, Khloud Al Jallad, Mona Abdelazim2026-03-12💬 cs.CL

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

本論文は、エッジ環境における MoE モデルの推論を効率化するため、スペキュレイティブデコーディングをメモリ管理の指標として活用し、専門家の需要予測や非同期実行エンジンなどを統合した新しいフレームワーク「MoE-SpAc」を提案し、既存手法を大幅に上回る性能向上を実現したことを示しています。

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

この論文は、大規模言語モデル（LLM）が人間の認知バイアスである「ダニング＝クルーガー効果」と類似したパターンを示し、特に性能の低いモデルが過剰な自信を持つ傾向があることを、主要な 4 種類のモデルを用いた大規模な実証研究で明らかにしたものである。

Sudipta Ghosh, Mrityunjoy Panday2026-03-12💬 cs.CL

Quantifying Hallucinations in Language Language Models on Medical Textbooks

本論文は、医療教科書に基づく質問応答において大規模言語モデルが事実と異なる回答（ハルシネーション）を生成する頻度を定量化し、その発生率が低いほど臨床医による有用性評価が高くなる傾向があることを示しています。

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

この論文は、強化学習で探索された高パフォーマンスな変換軌跡をライブラリ化し、多様性を考慮してコンテキストを動的に最適化する連鎖思考フレームワークを提案することで、大規模言語モデルを用いた特徴変換の精度と安定性を向上させる手法を提示しています。

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

この論文は、活性化パッチングを用いて因果的に重要なアテンションヘッドを特定し、回路レベルの分析を自然言語の説明に橋渡しするパイプラインを提案し、GPT-2 Small における間接的対象識別タスクにおいて、LLM 生成の説明がテンプレートベースの手法を上回る品質を持つことを実証するとともに、モデルの自信と説明の忠実性の間に相関がないことを明らかにしています。

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

この論文は、大規模言語モデルの幻覚に関連する行動をユーザー視点で迅速かつ解釈可能に評価するための軽量な測定ツール「システム幻覚尺度（SHS）」を提案し、210 名の参加者による実証評価を通じてその妥当性と実用性を立証したものである。

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

この論文は、LLM（LLaMA-3.1-8B-Instruct）を用いた契約書セグメンテーションと、微調整された Legal-Roberta-Large を用いた条項分類という 2 段階のアーキテクチャを提案し、NDA 文書の自動分析において高い精度を達成したことを示しています。

Ana Begnini, Matheus Vicente, Leonardo Souza2026-03-12💬 cs.CL

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

この論文は、家禽産業におけるステークホルダーの感情分析を目的として、ドメイン適応型双ストリームトランスフォーマーと辞書強化アプローチを統合した「PoultryLeX-Net」を提案し、既存モデルを凌ぐ高精度な分類性能を実証したものである。

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

この論文は、機関固有の文脈に適応した大規模言語モデル対話システム「TAMUSA-Chat」のアーキテクチャ、学習手法、評価、および責任ある展開に関する包括的な研究フレームワークを提示し、学術機関における透明性とガバナンスを遵守した AI 導入の道筋を示しています。

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

この論文は、社会的文脈や権力関係に基づいた曖昧な発話の推論能力を評価するための、5 つの語用論的サブタイプと 3 つの権力構成を含む 300 件の人間検証済みシナリオからなる「文脈的感情的推論（CEI）ベンチマーク」を提案し、そのアノテーション手法と品質管理パイプラインを詳述しています。

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

← 前へ次へ →

cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Explainable LLM Unlearning Through Reasoning

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America