cs.LG 件の論文 | Gist.Science

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

本論文は、自動運転における生成ワールドモデルと VLA システムの進展を統合する潜在空間フレームワークを提案し、その分類体系、内部メカニズム、評価基準、および将来の課題を包括的に論じています。

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

本論文は、状態依存の無効アクションをマスクせずに学習する際、訪問済み状態での勾配共有により未訪問状態での有効アクションが指数関数的に抑制されるという新たな失敗モードを理論的に証明し、その解決策としてフェイザビリティ分類を用いた実装の有効性を示しています。

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. SycaraWed, 11 Ma🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

この論文は、シリコン含有グラファイト負極を備えた電気自動車バッテリーの電圧ヒステリシス要因を、不確実性を考慮しつつ計算効率よく確率的に予測するためのデータ駆動型アプローチとデータ調和フレームワークを提案し、状態充電量（SoC）推定の精度向上と高度なバッテリー技術の普及を支援するものである。

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. CremerWed, 11 Ma🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

この論文は、検証可能な報酬を用いた強化学習（RLVR）において生じる精度最大化と較正誤差最小化の間の根本的な勾配競合を理論的に示し、推論と較正の目的を体系的に分離する新たなフレームワーク「DCPO」を提案することで、GRPO と同等の精度を維持しつつ過剰な自信（オーバーコンフィデンス）を大幅に軽減し、LLM の信頼性を向上させることを実証しています。

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le SunWed, 11 Ma🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

この論文は、クラスインクリメンタル学習における特徴の衝突を因果的観点から解決するため、内タスクおよび間タスクの因果的完全性と分離性を定量化する拡張 PNS（CPNS）に基づく正則化手法を提案し、双方向のカウンターファクトル生成器を用いて特徴の衝突を効果的に抑制することを示しています。

Zhen Zhang, Jielei Chu, Tianrui LiWed, 11 Ma🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap は、LLM が作成した評価基準（ルブリック）に基づいて報酬信号を生成する強化学習フレームワークを導入し、高密度画像キャプション生成において既存の教師あり蒸留や RL 手法、さらには人間専門家やプロプライエタリモデルを上回る性能と効率を実現しました。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

本論文は、機能的に不完全でも構造的なパターンが機能意図を反映する LLM 生成 RTL を活用して合成ネットリストの表現学習を行う新たなフレームワークを提案し、実世界の回路設計におけるデータ不足というボトルネックを解消することを示しています。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

本論文は、Transformer の自己注意機構に地質学的な相関情報を組み込む「地質情報付与型アテンション・トランスフォーマー（GIAT）」を提案し、井戸ログからの岩相識別において既存モデルを上回る高精度と解釈可能性を実現したことを報告しています。

Jie Li, Qishun Yang, Nuo LiWed, 11 Ma🤖 cs.AI

Better Bounds for the Distributed Experts Problem

この論文は、分散エキスパート問題において、通信量を最小化しつつ regret を改善する新しいプロトコルを提案し、既存の研究を上回る性能を示しています。

David P. Woodruff, Samson ZhouWed, 11 Ma🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

本論文は、確率的な交通流ダイナミクスに基づいて分布制約を導出する新しい物理情報生成モデルを提案し、交通状態の推定や渋滞リスク評価を確率的に行うための枠組みを提供するものである。

Wuping XinWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

この論文は、計画能力に優れた離散拡散言語モデルと流暢なテキスト生成が得意な自己回帰モデルを潜在空間で連携させる「Latent-DARM」を提案し、多様な推論タスクにおいて既存のテキストベースのインターフェースを凌駕する精度向上と、最先端の推論モデルに匹敵する性能を極めて少ないトークン数で実現することを示しています。

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

音楽ソース分離における再現性の課題を明らかにするため、公開コードが不足しているBand-Split RNNモデルの複製を試みた結果、元のモデルを上回る性能を持つ最適化モデルを開発し、コードと事前学習済みモデルを公開して研究の透明性と持続可能性の向上を提唱しています。

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

$P^2$ GNN は、プロトタイプを「全ノードがアクセス可能なグローバル文脈の提供者」と「ノイズ除去のためのクラスタリング対象」という 2 つの役割で活用するプラグアンドプレイ手法であり、既存のメッセージパス型 GNN の性能を向上させ、18 のデータセットで最先端の結果を達成する。

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng DongWed, 11 Ma🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

この論文は、LLM の論理的推論能力の向上が、推論、帰納、仮説形成を通じて AI の状況認識（自己認識や戦略的欺瞞など）を機械的に促進する「RAISE」フレームワークを提示し、現在の安全対策の限界を指摘するとともに、論理推論研究コミュニティに対し、この危険な軌道に対する具体的な安全策と責任を問うている。

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

MIT RF チャレンジのデータセットを用いた研究において、有限スカラー量子化（FSQ）とトランスフォーマーを組み合わせたデータ駆動型の信号分離器を開発し、従来の平均二乗誤差（MSE）よりも優れたクロスエントロピー損失で学習することで、QPSK 信号と 5G 干渉の分離において誤り率を 122 倍削減するなどの高い性能とゼロショット汎化能力を実証しました。

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. WornellWed, 11 Ma🤖 cs.LG

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

この論文は、LLM の推論における感情の潜在的要因を解明し、感情バランスの取れた QA データセット「AURA-QA」を提案するとともに、感情条件付きの表現ドリフトを抑制する正則化フレームワークを導入することで、分布変化下およびドメイン内での読解タスクの性能向上を実現したことを示しています。

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

本論文は、画像などの初期データが一切不要なゼロデータ環境で視覚言語モデル（VLM）の推論能力を自己進化させる初の強化学習フレームワーク「MM-Zero」を提案し、提案者・コーダー・ソルバーという 3 つの役割を単一モデルから GRPO により訓練することで、従来の 2 役割モデルの枠組みを超えた拡張可能な自己改善を実現したものである。

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

本論文は、大規模なマルコフゲームにおいて、ナッシュ均衡の欠点を克服し、推定報酬に対するリプシッツ連続性と分布ロバスト性を備えた「リスク感受性量化応答均衡（RQRE）」を線形関数近似を用いて効率的に計算するアルゴリズム「RQRE-OVI」を提案し、その収束性と頑健性の理論的保証および実験的有効性を示したものである。

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

この論文は、推論を最適制御問題として定式化し、シンプレクティック形式に基づくハードウェア効率の高い LQR ソルバーを実装した「テストタイム制御（TTC）層」を提案することで、事前学習済み大規模言語モデルに推論能力をアーキテクチャとして組み込み、数学的推論タスクにおいて顕著な性能向上を実現したことを報告しています。

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René VidalWed, 11 Ma🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

この論文は、詳細平衡条件に基づく時間反転対称性を統計的制約として利用し、目標分布の勾配や連続緩和を必要とせずに、連続・離散・混合変数を含む多様な状態空間における平衡サンプリングを可能にする統一的な生成サンプリング枠組みを提案するものである。

Lei Li, Zhen Wang, Lishuo ZhangWed, 11 Ma🤖 cs.LG

← 前へ次へ →

cs.LG