cs.AI 件の論文 | Gist.Science

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

本論文は、モデル重みの変更なしに産業用 LLM のハルシネーションを低減し出力の安定性を高めるための 5 つのプロンプトエンジニアリング戦略を提案・評価し、その中で「強化データレジストリ」が全試行で有効であったことと、改良版「分解モデル非依存プロンプティング」が大幅な改善を示したことを報告しています。

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach Gordon2026-03-12🤖 cs.AI

Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

本論文は、Sharpness-Aware Minimization (SAM) の従来手法における理論的解釈の欠如と近似精度の問題を解決し、最大値の方向を明示的に推定する新たな手法「XSAM」を提案し、その有効性を示すものである。

Jianlong Chen, Zhiming Zhou2026-03-12🤖 cs.LG

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

本論文は、組み合わせ融合分析（CFA）の手法を統合し、PyTorch、TensorFlow、Scikit-learn のワークフローに対応する新しい Python ツール「InFusionLayer」を提案し、コンピュータビジョンデータセットにおけるその有効性を検証したものである。

Eric Roginek, Jingyan Xu, D. Frank. Hsu2026-03-12🤖 cs.LG

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

本論文は、暗号化トラフィック分類においてバイト列への平坦化がもたらす意味論的ミスマッチを解決するため、プロトコル定義のフィールド意味をアーキテクチャの事前知識として活用し、予測可能性に基づくフィルタリングや双軸アテンションを備えた表形式のマスクオートエンコーダ「FlowSem-MAE」を提案し、限られたラベル付きデータでも最先端の性能を達成することを示しています。

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

Training Language Models via Neural Cellular Automata

この論文は、ニューラルセルラオートマトン（NCA）を用いて生成した合成データを事前学習に活用することで、自然言語データのみでの学習よりも効率的に言語モデルの性能を向上させ、推論タスクにおける汎化能力も高めることを示しています。

Dan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal2026-03-12🤖 cs.LG

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

本論文は、従来の静的なソフトウェア部品表（SBOM）を、自律的なマルチエージェント・アーキテクチャとランタイム実行証拠に基づいて動的な脆弱性評価を可能にする「エージェント型 AI 部品表（AIBOM）」へと進化させ、再現性と環境ドリフトへの対応を飛躍的に向上させる新たなフレームワークを提案するものである。

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan Atefi2026-03-12🤖 cs.AI

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

インドの認識論（ニヤーヤ）に基づき、ツールの実行領収書と HMAC 署名を用いてリアルタイムに AI エージェントの幻覚を検出する軽量フレームワーク「NabaOS」を提案し、暗号証明に比べて極めて低いレイテンシで高い検出精度を実現したことを示しています。

Abhinaba Basu2026-03-12🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

この論文は、LLM ベースのマルチエージェントシステムのメモリ要件をコンピュータアーキテクチャの観点から再定義し、共有・分散メモリのパラダイムや階層構造を提案するとともに、特にエージェント間でのメモリ整合性という課題の解決が信頼性のあるスケーラブルなシステム構築の鍵であると論じています。

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen Zhao2026-03-12🤖 cs.AI

The Epistemic Support-Point Filter: Jaynesian Maximum Entropy Meets Popperian Falsification

この論文は、無知を素早く受け入れ確実性を遅く主張するという認識論的コミットメントを数学的に定式化し、エビデンスのみに基づくフィルタリングにおいて最悪ケースの認識的無知を最小化する「エプステミック・サポート・ポイント・フィルタ（ESPF）」が、ジェインズ流最大エントロピー原理とポパー流反証主義を統合した唯一の最適フィルタであることを証明し、そのガウス極限においてカルマンフィルタが回復されることを示しています。

Moriba Kemessia Jah2026-03-12🔢 math

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

本論文は、Muon 学習アルゴリズムの重みスペクトルが過度に正規化される問題を Heavy-Tailed Self-Regularization 理論に基づいて解決し、LLM の事前学習や画像分類において最先端の性能を達成する「HTMuon」という新しい最適化手法を提案するものである。

Tianyu Pang, Yujie Fang, Zihang Liu, Shenyang Deng, Lei Hsiung, Shuhua Yu, Yaoqing Yang2026-03-12🤖 cs.LG

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

この論文は、単一のプロンプト評価ではなく持続的な対話におけるガードレールの劣化を連続的に測定し、攻撃モデルの安全性拒否を排除した自動レッドチームングフレームワーク「ADVERSA」を提案し、最先端の LLM における安全性の崩壊ダイナミクスと判定者の信頼性を包括的に評価したものです。

Harry Owiredu-Ashley2026-03-12🤖 cs.AI

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

本論文は、時系列基盤モデル Chronos-T5-Large にスパースオートエンコーダを適用した初の研究であり、中間エンコーダ層に存在する「変化検知」機能が予測精度に最も因果的に重要であることを、392 回にわたる単一特徴量アブレーション実験を通じて実証しています。

Anurag Mishra2026-03-12🤖 cs.LG

Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

この論文は、Vul4J ベンチマークを用いた大規模言語モデル（LLM）によるセキュリティパッチ生成の分析を通じて、構文は正しいがセキュリティ修復の意図を誤解するケースが多く、機能維持とセキュリティ修復の間に大きな乖離があることを明らかにし、厳格な検証の必要性を説いています。

Amir Al-Maamari2026-03-12🤖 cs.AI

Marginals Before Conditionals

この論文は、ニューラルネットワークが条件付き学習を行う際、まず条件付きエントロピーに相当する損失のプラトー（定常状態）を経由し、その後、データセットサイズや学習率などの要因によって制御される急激な転移を経て完全な条件付けを獲得するという、学習ダイナミクスにおける「周辺分布の先行」と「条件付き分布の遅延」という非対称性を明らかにしたものである。

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

TASER: Task-Aware Spectral Energy Refine for Backdoor Suppression in UAV Swarms Decentralized Federated Learning

本論文は、UAV スワームの分散フェデレーティング学習において、従来の異常検出に依存せず勾配の周波数特性を利用した「TASER」という新しい防御フレームワークを提案し、巧妙なバックドア攻撃を効果的に抑制しながら主タスクの精度を維持することを示しています。

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

この論文は、既存の安全対策をバイパスし、追加の微調整なしで有害なコンテンツを生成させることを可能にする軽量な活性化空間敵対的攻撃手法「Amnesia」を提案し、オープンウェイト大規模言語モデルにおけるセキュリティ対策の強化の緊急性を浮き彫りにしています。

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Digging Deeper: Learning Multi-Level Concept Hierarchies

この論文は、粗いアノテーションのみから多階層の概念ヒエラルキーを自動発見する「Multi-Level Concept Splitting (MLCS)」と、発見された階層を表現し多段階の介入を可能にする「Deep-HiCEMs」を提案し、解釈性とタスク性能の両立を実現するものです。

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

この論文は、LLM の暗黙的なヒューリスティックに代わって知識駆動型の専門スキルと双層メモリ機構を採用したマルチエージェントフレームワーク「KernelSkill」を提案し、GPU カーネル最適化において既存手法を上回る高い成功率と高速化を実現したことを報告しています。

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

この論文は、拡散大規模言語モデル（dLLM）の中間表現が反復ごとにわずかにしか変化しないという洞察に基づき、トークンの重要度を推定して早期にスキップするトレーニング不要の高速化フレームワーク「ES-dLLM」を提案し、生成品質を維持しながら最大 16.8 倍の高速化を実現したことを示しています。

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

この論文は、思考モードを持つ大規模言語モデルが複数のタスクを同時に処理する際の脆弱性を利用し、複数のタストリームを絡ませる「マルチストリーム摂動攻撃」を提案することで、既存の安全対策を回避し、思考プロセスの崩壊や出力の反復を引き起こすことを示しています。

Fan Yang2026-03-12🤖 cs.AI

← 前へ次へ →