Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective
本論文は、LLM が生成トークンの条件付けによって行動を柔軟に切り替えられる「変幻自在性」を発見し、これを強化学習で定着させるフレームワーク「ToCoRL」を提案することで、推論モデルの能力を維持しつつ事実問答などへの適応を可能にしたことを示しています。
7103 件の論文
本論文は、LLM が生成トークンの条件付けによって行動を柔軟に切り替えられる「変幻自在性」を発見し、これを強化学習で定着させるフレームワーク「ToCoRL」を提案することで、推論モデルの能力を維持しつつ事実問答などへの適応を可能にしたことを示しています。
本論文は、オフライン多エージェント強化学習における非線形価値分解の不安定さを解消し、スケーリング不変な価値正規化(SVN)を導入することで、安定した学習と実用的なレシピを実現する手法を提案しています。
この論文は、学習データの特徴空間の多様体構造を尊重して仮想外れ値を合成する「幾何学的制約付き外れ値合成(GCOS)」という正則化フレームワークを提案し、既知の分布内データと共有する意味領域における外れ値検出の性能を向上させ、さらに統計的に有効な誤り保証を持つ不確実性スコアへの拡張も可能にするものである。
本論文は、バイレベル最適化とハイブリッド・アクター・クリティック・アーキテクチャを統合し、共有表現を学習することでサンプル効率とタスク間適応性を向上させた新たなメタ強化学習フレームワークを提案し、実世界のビルエネルギー管理システムデータを用いた実験で、従来の手法を上回る高速適応と性能向上を実証したものである。
本論文は、Transformer モデルの内部挙動を再学習なしで体系的に分析・検証し、表現の冗長性による安定性と構造的な脆弱性の両面を明らかにする新しいフレームワーク「SYNAPSE」を提案しています。
本論文は、デスクトップ UI、多様な API、ローカルおよびクラウドモデル、持続的メモリ、タスクスケジューリング、MCP 互換性などを統合したユニファイド・オーケストレーションコアを中核とし、計画と実行を分離する 3 フェーズパイプラインや適応的なモデル管理、高度なツールルーティングを備えた汎用 AI アシスタントプラットフォーム「IronEngine」のアーキテクチャ、設計、性能、および他システムとの比較分析を提示するものである。
この論文は、カテゴリー逐次学習における忘却と学習のバランスを最適化し、モデルの拡張と圧縮を動的に制御する「GRACE」戦略を提案することで、最先端の性能を維持しつつメモリ使用量を最大 73% 削減する手法を提案しています。
この研究は、リアルタイムの安全監視下で実施された前向き臨床feasibility 研究において、LLM ベースの対話型 AI「AMIE」が、患者の満足度向上や医師の準備性への貢献、そして診断精度において医療従事者と同等の安全性と質を有し、実際のプライマリケア現場での導入可能性を実証したことを示しています。
LycheeCluster は、境界認識によるチャンキングと三角形不等式に基づく階層的 KV インデックスを導入することで、長文脈推論における KV キャッシュ管理を線形探索から対数時間への剪定プロセスへと変換し、モデル性能の低下を最小限に抑えつつ最大 3.6 倍の推論高速化を実現する手法です。
この論文は、強化学習エージェントが世界モデルに基づく自己監視を行う際、観測の漸進的なドリフトに対して検知閾値が普遍的存在し、その検知能力がノイズフロア、検出器、環境ダイナミクスという 3 者の相互作用によって決定されることを実証的に明らかにし、特に脆弱な環境ではエージェントが検知前に崩壊する「無自覚な破綻」モードが存在することを示しています。
本論文は、カメラと LiDAR の特性を補完し、エントロピー削減に基づく適応的なセンサー選択戦略を採用することで、沿岸固定プラットフォームからの単一船舶追跡において、精度と継続性を両立するロバストなマルチモーダル粒子フィルタ追跡手法を提案し、キプロスでの実海域実験でその有効性を検証したものである。
本論文は、自己教師あり潜在表現のクロスモーダル類似性とモダリティ固有のデータ汚損を組み合わせたデータ駆動型事前分布を採用する「MedCertAIn」を提案し、MIMIC-IV および MIMIC-CXR データセットを用いた実験により、このフレームワークが臨床リスク予測の性能と不確実性の定量化を大幅に向上させることを示しています。
この論文は、推論プロセスを「条件付き情報ボトルネック(CIB)」の枠組みで再定義し、意味的コストに基づく強化学習目的関数を導入することで、思考連鎖(CoT)の冗長性を削減しつつ論理と精度を維持する新しい手法を提案しています。
複雑な幾何学形状における流体流れの求解において、標準的な PINN が抱える収束の難しさを解決するため、階層的な制御体積上の積分保存則に基づく多スケール弱形式アプローチ「MUSA-PINN」を提案し、TPMS 幾何学における相対誤差を最大 93% 削減しつつ質量保存を維持する手法を開発した。
この論文は、物理法則を遵守するラグランジュ神経回路網(LNN)をモデルベース強化学習の Dyna フレームワークに統合し、状態推定に基づく最適化手法を用いることで、従来のブラックボックス手法よりも高速かつ正確な動的モデル学習を実現することを提案しています。
本論文は、エネルギー保存則を維持するラグランジュニューラルネットワークと、複雑な確率的な相互作用を捉える条件付きフローマッチングを統合した「STRIDE」という動的学習フレームワークを提案し、不確実な環境下でのロボット制御における長期予測精度と接触力予測の大幅な改善を実現したことを示しています。
本論文は、生成モデル内部の音声・映像クロスアテンション機構が持つ微細な整合性情報を DDIM 逆変換を通じて抽出する「X-AVDT」という堅牢なディープフェイク検出器と、多様な生成手法を網羅する新たなデータセット「MMDF」を提案し、既存手法を大幅に上回る汎化性能を実証したものである。
本論文は、スナップショットデータから局所的な演算子構造(歪対称性や勾配保存など)を保持しつつ、異種演算子の加法合成により複雑な非多項式非線形性を捉える、構造保存型の構成可能ニューラルネットワークを用いた非侵入型低次元モデル化手法「NN-OpInf」を提案し、従来の多項式ベースの手法や既存のニューラルネットワーク手法と比較して、精度・安定性・頑健性の向上を実証しています。
この論文は、最適化アルゴリズムの比較において事前の最適値や正規化を不要とし、時間軸上のパレート最適性をベイズ推論を用いた適応的サンプリング(PolarBear)によって効率的に特定する新しいフレームワークを提案しています。
本論文は、信頼性の高い不確実性表現を必要とする安全クリティカルな環境において、従来のアンサンブル手法に比べて計算コストが大幅に低く、TabPFN や CLIP などの大規模モデルにも適用可能な「デキャリブレーション」と呼ばれる効率的な手法を提案し、これにより_credal_集合(確率分布の凸集合)を用いた予測を可能にしたものである。