Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

この論文は、大規模言語モデルの推論プロセスにおける冗長性を削減し、GRPO の限界を克服するために、長さやエントロピーに基づいてグループ応答を細かく重み付けする強化学習アルゴリズム「FGO」を提案し、性能を維持したまま推論コストを効果的に圧縮できることを示しています。

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

この論文は、ジェネリックな物体追跡の汎用性と堅牢性を向上させるため、JEPA アーキテクチャを拡張して追跡モデル自体の予測を行う「GOT-JEPA」フレームワークと、オクルージョン(遮蔽)の細かなパターンを捉えて追跡精度を高める「OccuSolver」を提案し、複数のベンチマークでその有効性を示したものです。

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

医療画像の空間的構造が弱い領域において、位置エンコーディングや [CLS] トークンを除去しパッチの置換不変性を導入した軽量モデル「ZACH-ViT」が、データ不足の条件下でも従来の Vision Transformer よりも優れた性能を発揮し、データ構造に適合したアーキテクチャ設計の有効性を示しました。

Athanasios Angelakis2026-03-12⚡ eess

Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

統計物理学の観点から新たな難問ベンチマークを提案し、公平な比較を通じて古典的アルゴリズムがグラフニューラルネットワークよりも依然として優れていることを示しました。

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

この論文は、大規模言語モデルを用いた自律型 AI 分析者が人間と同様に多様な分析結果を生み出すことを実証し、AI による科学的研究における結果のばらつきを可視化し、透明性を高めるための新たな規範(多宇宙報告とプロンプトの開示)の必要性を提唱しています。

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

Active Value Querying to Minimize Additive Error in Subadditive Set Function Learning

本論文は、組合せオークションや機械学習の解釈可能性などにおいて重要なサブアディティブ集合関数の学習において、既知の事前分布に基づき追加の値問い合わせ(オフラインおよびオンライン)を戦略的に選択することで、欠損値による最小・最大補完間の加法誤差を最小化する手法を提案し、その理論的性質と実効性を検証したものである。

Martin Černý, David Sychrovský, Filip Úradník, Jakub Černý2026-03-12🤖 cs.LG

How Large Language Models Get Stuck: Early structure with persistent errors

この論文は、大規模言語モデルが学習初期にバイグラム統計に基づく誤ったバイアスを形成し、それが学習を通じて解消されずに定着することで、文法判断タスクで持続的なエラーを引き起こす「早期構造と持続的誤り」という現象を、BabyLM 上の OPT モデルを用いた BLiMP ベンチマーク評価と質的・量的分析を通じて明らかにし、これを説明する「バイグラム仮説」を提唱している。

Alokesh Manna, William Snyder, Whitney Tabor2026-03-12💬 cs.CL

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

本論文は、臨床的な説明責任を高めるため、画像の特定領域を専門モデルで抽出し、それを証拠として活用して推論を行う「CARE」という、臨床ワークフローを模倣したマルチモーダル医療推論のためのエージェンティックフレームワークを提案し、既存の最先端モデルを上回る精度と信頼性を達成したことを示しています。

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

本論文は、拡散モデルにおける Classifier-Free Guidance (CFG) を制御理論の観点から再解釈し、従来の線形制御に起因する不安定性やオーバーシュートを解消するため、スライディングモード制御を適用した「SMC-CFG」を提案し、多様なモデルにおいて高いセマンティック整合性とロバスト性を達成することを示しています。

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

本論文は、コード分析タスクにおけるマルチタスク学習とパラメータ効率型微調整(PEFT)を統合した初の包括的評価を行い、単一の共有 PEFT モジュールがフル微調整に匹敵する性能を発揮しつつ、ストレージや計算コストを大幅に削減できることを示し、さらにタスクの組み合わせやモデル構造が成功に与える影響を明らかにした。

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

本論文は、既存のアンラーニング手法が抱える汎用能力の低下や知識の不完全な削除といった課題を解決するため、推論能力を活用して特定の知識を正確に除去しつつ他の能力を維持する「Targeted Reasoning Unlearning(TRU)」という新たなアプローチを提案し、その有効性を示したものです。

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

本論文は、エッジ環境における MoE モデルの推論を効率化するため、スペキュレイティブデコーディングをメモリ管理の指標として活用し、専門家の需要予測や非同期実行エンジンなどを統合した新しいフレームワーク「MoE-SpAc」を提案し、既存手法を大幅に上回る性能向上を実現したことを示しています。

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

この論文は、強化学習で探索された高パフォーマンスな変換軌跡をライブラリ化し、多様性を考慮してコンテキストを動的に最適化する連鎖思考フレームワークを提案することで、大規模言語モデルを用いた特徴変換の精度と安定性を向上させる手法を提示しています。

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

この論文は、機関固有の文脈に適応した大規模言語モデル対話システム「TAMUSA-Chat」のアーキテクチャ、学習手法、評価、および責任ある展開に関する包括的な研究フレームワークを提示し、学術機関における透明性とガバナンスを遵守した AI 導入の道筋を示しています。

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

本論文は、トルコ語の継承語教育におけるデータプライバシーと信頼性の課題を踏まえ、14 のオフライン LLM を「トルコ語異常スイート(TAS)」で評価した結果、パラメータ規模だけでなく推論指向の 8B〜14B モデルがコストと安全性の面で学習者にとって最もバランスが取れていることを明らかにしています。

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

この論文は、大規模言語モデルが次語予測のみの訓練から生じる文脈理解、インコンテキスト学習、思考連鎖といった現象の理論的メカニズムを解明し、これらがそれぞれトランジション確率の推定、曖昧性の低減、およびタスク分解の活性化を通じて機能することを示すことで、高度なプロンプトエンジニアリング手法の統計的優位性を理論的に裏付けています。

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

この論文は、ウィキペディアとウィキデータの構造、および社会科学の専門知識を活用してラテンアメリカの多様な文化を反映した26,000 以上の多肢選択形式の質問応答データセット「LatamQA」を構築し、大規模言語モデルがラテンアメリカ諸国間や言語間で知識格差やイベリア半島のスペイン文化への偏りを持つことを実証したものである。

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

本論文は、自然言語で指定された制約に基づいてスプレッドシートを生成する大規模言語モデル(LLM)の性能を評価するためのプラットフォーム「SpreadsheetArena」を提案し、盲検ペア評価を通じて生成物のスタイルや構造、機能への好みが用途によって大きく異なり、専門家のベストプラクティスとの整合性にも課題があることを明らかにしています。

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL