Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

本論文は、外部ツールに依存せず大規模言語モデル(LLM)が持つ本質的なノイズ耐性を向上させるため、対照学習に基づく逆直接選好最適化(CoIPO)手法を提案し、新たに構築したベンチマーク「NoisyPromptBench」を用いた実験で最先端の手法を上回る性能を達成したことを示しています。

Xin Yang, Letian Li, Abudukelimu Wuerkaixi + 5 more2026-03-05🤖 cs.AI

Quantum-Inspired Self-Attention in a Large Language Model

この論文は、従来の自己注意機構よりも文字誤り率や単語誤り率、交差エントロピー損失で大幅に優れた性能を示す「量子インスパイアード自己注意(QISA)」メカニズムを提案し、GPT-1 のフルオートレグレッシブ言語モデルパイプラインに初めて統合したことを報告しています。

Nikita Kuznetsov, Niyaz Ismagilov, Ernesto Campos2026-03-05⚛️ quant-ph

From We to Me: Theory Informed Narrative Shift with Abductive Reasoning

この論文は、社会科学的理論と帰納推論に基づいたニューロ記号アプローチを提案し、LLM による「集合的から個人的(またはその逆)への物語の転換」において、ゼロショット手法を大幅に上回る性能で原意を保持しつつ効果的なナラティブシフトを実現することを示しています。

Jaikrishna Manojkumar Patil, Divyagna Bavikadi, Kaustuv Mukherji + 5 more2026-03-05🤖 cs.AI

Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

本論文は、既存の静的なベンチマークが抱えるデータ汚染や陳腐化の問題を解決するため、12 の生物医学サブドメインを網羅し月次で更新される動的かつ自動化された評価枠組み「DBench-Bio」を提案し、AI の真の新知見発見能力を厳密に評価する手法を確立したものである。

Chaoqun Yang, Xinyu Lin, Shulin Li + 4 more2026-03-05🤖 cs.AI

Controllable and explainable personality sliders for LLMs at inference time

この論文は、推論時にモデルパラメータを更新せずに大規模言語モデルの性格を連続的かつ多面的に制御し、複数の特性間の干渉を回避する「逐次適応型ステアリング(SAS)」というモジュール化されたフレームワークを提案し、ビッグファイブ性格特性の制御において従来の手法を上回る精度と一貫性を達成することを示しています。

Florian Hoppe, David Khachaturov, Robert Mullins + 1 more2026-03-05🤖 cs.AI

AutoHarness: improving LLM agents by automatically synthesizing a code harness

本論文は、環境からのフィードバックを用いた反復的なコード改良により、LLM アージェントが環境で禁止された行動(例えばチェスでの違法な手)を取らないように自動でコードハーネスを生成する手法「AutoHarness」を提案し、これにより小規模モデルがより大規模なモデルを上回る性能を発揮し、かつ意思決定時に LLM を不要とするコードポリシーの生成も可能であることを示しています。

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu + 3 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

この論文は、LLM が「確信があるか」といった自己挑発的なプロンプトに対してどのように反応するかを評価する「確実性ロバストネスベンチマーク」を提案し、従来の精度評価では捉えられない対話的安定性と適応性のバランスが、モデルの信頼性や実用化において重要な評価指標であることを明らかにしています。

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

本論文は、大規模言語モデルが数学的推論タスクにおいて中間推論ステップに注入された 5 種類の攪乱(計算誤り、単位変換、迎合、ステップ欠落、追加ステップ)に対してどのように脆弱であるかを評価し、モデルの規模拡大が一部の攪乱に対する耐性を高める一方で単位変換などの課題には限定的な効果しかないことを実証的に明らかにした。

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding

本論文は、事前学習済みモデルの改修や追加学習を一切行わず、LM ヘッドへのモンテカルロドロップアウトを適用してドラフトトークンの受容を確率的に判断する「DropMatch」という新しい手法を提案し、推論速度を最大 1.33 倍に向上させつつタスク性能を維持することを示しています。

Jeongtae Lee, Minjung Jo, Hyunjoon Jeong + 5 more2026-03-05💬 cs.CL