A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

この論文は、視覚と固有受容感覚に基づいて可変性線形物体(DLO)の物理パラメータの事後分布を推定し、これをドメインランダム化に活用することで、シミュレーションで学習した制御ポリシーを微調整なしで実世界にゼロショット展開可能にする統合フレームワークを提案しています。

Georgios Kamaras, Subramanian RamamoorthyWed, 11 Ma🤖 cs.LG

HyConEx: Hypernetwork classifier with counterfactual explanations for tabular data

この論文では、表形式データ向けに設計されたハイパーネットワークベースの分類モデル「HyConEx」を提案し、予測結果と並行して決定根拠を説明する対照的説明(counterfactual explanations)を生成する、予測と説明を統合した画期的な深層学習モデルを紹介しています。

Patryk Marszałek, Kamil Ksi\k{a}\.zek, Oleksii Furman, Ulvi Movsum-zada, Przemysław Spurek, Marek SmiejaWed, 11 Ma🤖 cs.AI

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

この論文は、機械学習のバイナリ分類評価における決定論的視点の重要性を説き、適切なスコアリング則(ブライアースコアなど)の活用を提唱するとともに、実務との乖離を埋めるための理論的枠組み、クリップド・ブライアースコアの導出、および実用的な Python パッケージ「briertools」の提供を通じて、臨床的有用性を含む評価手法の改善を提案しています。

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. WilsonWed, 11 Ma🤖 cs.AI

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

本論文は、CLIP エンコーダのクロスモーダル埋め込みの球面線形補間(SLERP)を用いた「概念ドリフト」メカニズムと、事前学習済み言語モデルの適応型 LayerNorm 微調整を組み合わせた新しい効率的なフレームワーク「CDGLT」を提案し、マルチモーダル比喩の識別において既存の生成手法よりも計算コストを大幅に削減しながら最先端の性能を達成することを示しています。

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia LiWed, 11 Ma🤖 cs.LG

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

本論文は、GRPO における「すべてが不正解なグループ」からの学習欠如を解消するため、ステップごとの評価モデルを用いて回答の多様性を確保し、誤った推論からも学習可能にする「Stepwise Guided Policy Optimization(SGPO)」を提案し、その有効性を理論的および実証的に検証したものです。

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

The Gaussian-Multinoulli Restricted Boltzmann Machine: A Potts Model Extension of the GRBM

この論文は、連続的な潜在変数モデルの限界を克服し、離散的で構造化された表現を可能にするため、隠れユニットを q 状態のカテゴリカル(ポッツ)単位に拡張した「ガウス - マルチノイリ制限付きボルツマン機械(GM-RBM)」を提案し、その理論的導出と実用的な学習手法を詳述するとともに、記憶容量やパラメータ数を同等に設定した比較実験を通じて、アナロジー想起や構造化記憶タスクにおいて従来のガウス - ベルヌーイ RBM と同等以上性能を発揮することを実証しています。

Nikhil Kapasi, Mohamed Elfouly, William Whitehead, Luke TheogarajanWed, 11 Ma🤖 cs.LG

JULI: Jailbreak Large Language Models by Self-Introspection

本論文は、モデルの重みや生成プロセスへのアクセスを必要とせず、API 経由で利用可能なブラックボックス環境下でも、予測されたトークンの対数確率(トップ 5)のみを操作する軽量プラグイン「BiasNet」を用いて大規模言語モデルの安全性を突破する手法「JULI」を提案し、既存の最先端手法を上回る効果を実証しています。

Jesson Wang, Zhanhao Hu, David WagnerWed, 11 Ma🤖 cs.LG

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

本論文は、従来の手法に比べて高速かつ低リソースで、200 万回以上の編集を可能にする「UltraEdit」という新しいモデル編集手法と、それを評価するための大規模ベンチマーク「UltraEditBench」を提案し、大規模言語モデルの安全でスケーラブルな生涯学習の実現に向けた重要な一歩を踏み出したことを示しています。

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

本論文は、エッジデバイス上での大規模言語モデル(LLM)の評価手法を体系化し、約 3.5 ビット/重み(BPW)を閾値として高ビット精度の小型モデルよりも重く量子化された大規模モデルの方が優位であることを示し、リソース制約環境における最適化ガイドラインを提示しています。

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong XuWed, 11 Ma🤖 cs.LG

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

この論文は、スケーラビリティ、検証可能性、難易度の制御という既存の強化学習タスクの課題を解決するため、充足可能性問題(SAT)に基づき段階的な難易度制御とルールベースの検証を実現する強化学習フレームワーク「SATURN」を提案し、これにより大規模言語モデルの推論能力を大幅に向上させることを示しています。

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong DongWed, 11 Ma🤖 cs.AI

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

本論文は、合成データではなく実世界の構造と大規模スケールに焦点を当てた新しいベンチマーク「FrontierCO」を提案し、16 の機械学習ソルバーを古典的ソルバーと比較評価することで、大規模かつ構造的に複雑な問題において機械学習手法と古典的手法の間に依然として大きな性能差が存在することを明らかにしています。

Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming YangWed, 11 Ma🤖 cs.LG

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

本論文は、ラベル付きデータが限られる状況でも安定したカバレッジ保証を実現するため、ラベル付き・ラベルなしデータの両方を用いた半教師ありコンフォーマル予測手法「SemiCP」を提案し、その理論的収束性と実験による有効性を示すものである。

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin WeiWed, 11 Ma🤖 cs.LG

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

この論文は、大規模言語モデル(LLM)の事前学習で得られた知識を活用し、メタ学習と signSGD を組み合わせて多様なドメインにまたがる時系列データの品質を効率的かつ高精度に評価する新しいフレームワーク「TSRating」を提案し、その有効性を検証したものです。

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong NgWed, 11 Ma🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本論文は、協力型マルチエージェント強化学習におけるクレジット割り当て問題に対し、協力ゲーム理論の「コア」に基づく利得配分手法 CORA を提案し、エージェント間の連合貢献を適切に評価することで協調的な最適行動を促進し、既存手法を上回る性能を実現することを示しています。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI