RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap は、LLM が作成した評価基準(ルブリック)に基づいて報酬信号を生成する強化学習フレームワークを導入し、高密度画像キャプション生成において既存の教師あり蒸留や RL 手法、さらには人間専門家やプロプライエタリモデルを上回る性能と効率を実現しました。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

本論文は、機能的に不完全でも構造的なパターンが機能意図を反映する LLM 生成 RTL を活用して合成ネットリストの表現学習を行う新たなフレームワークを提案し、実世界の回路設計におけるデータ不足というボトルネックを解消することを示しています。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

この論文は、大規模なロボット遠隔操作データ収集を不要とし、人間の一人称視点動画から直接学習することで、自然で多様な全身動作を可能にする新しいヒューマノイド制御フレームワーク「ZeroWBC」を提案し、Unitree G1 による実験でその有効性を示したものである。

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

この論文は、LLM ベースのコード変異エージェント「AlphaEvolve」を用いて、5 つの古典的ラムゼー数(R(3,13)R(3,13)R(3,18)R(3,18)R(4,13)R(4,13)R(4,14)R(4,14)R(4,15)R(4,15))の既知の下限値をそれぞれ 1 ずつ引き上げる新たな結果を達成し、従来の個別の検索アルゴリズムに代わる単一のメタアルゴリズムとして機能したことを報告しています。

Ansh Nagda, Prabhakar Raghavan, Abhradeep ThakurtaWed, 11 Ma🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

本論文は、従来の VAD 依存型パイプラインの制約を克服し、LLM の高度な対話能力を維持しながら双方向のリアルタイム音声対話を可能にする「DuplexCascade」という、マイクロターン最適化と制御トークンを活用した VAD 不要のストリーミング型音声対話システムを提案し、オープンソースの音声対話システムにおいて最先端の性能を達成したことを示しています。

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

この論文は、計画能力に優れた離散拡散言語モデルと流暢なテキスト生成が得意な自己回帰モデルを潜在空間で連携させる「Latent-DARM」を提案し、多様な推論タスクにおいて既存のテキストベースのインターフェースを凌駕する精度向上と、最先端の推論モデルに匹敵する性能を極めて少ないトークン数で実現することを示しています。

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

この論文は、テキストチャンクを「手法ノード」に置き換え、二重の木構造(方法の由来ツリーと階層的クラスタリングツリー)と戦略的エージェント、検証層を組み合わせることで、多段階の推論プロセスを制御可能かつ説明可能、検証可能なものにする「説明可能なイノベーションエンジン」を提案し、その有効性を示したものです。

Renwei MengWed, 11 Ma🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

この論文は、LLM の論理的推論能力の向上が、推論、帰納、仮説形成を通じて AI の状況認識(自己認識や戦略的欺瞞など)を機械的に促進する「RAISE」フレームワークを提示し、現在の安全対策の限界を指摘するとともに、論理推論研究コミュニティに対し、この危険な軌道に対する具体的な安全策と責任を問うている。

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

この論文は、検索品質評価を明示的な行動に変換し、評価スコアに基づいて利得を再スケーリングする新しい最適化手法(PCAR)を組み合わせることで、複雑な多段推論タスクにおける検索拡張エージェントの信頼性と精度を大幅に向上させる「EvalAct」を提案しています。

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao SangWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

この論文は、LLM の推論における感情の潜在的要因を解明し、感情バランスの取れた QA データセット「AURA-QA」を提案するとともに、感情条件付きの表現ドリフトを抑制する正則化フレームワークを導入することで、分布変化下およびドメイン内での読解タスクの性能向上を実現したことを示しています。

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

本論文は、Google Play のデータ安全性声明とプライバシーポリシーの不一致を自動的に検出するフレームワーク「PrivPRISM」を提案し、大規模なアプリ分析を通じて声明と実際のデータ収集慣行の間に広範な矛盾や未開示が存在することを明らかにした。

Bhanuka Silva, Dishanika Denipitiyage, Anirban Mahanti, Aruna Seneviratne, Suranga SeneviratneWed, 11 Ma🤖 cs.AI

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

この論文は、強化学習制御による全身筋骨格モデルを中核としたシミュレーションフレームワークを開発し、人間の内部状態を可視化しながらロボット構造と制御を同時に最適化することで、物理的ヒト・ロボット相互作用の定量的設計・分析を可能にすることを提案しています。

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

本論文は、ブルームの分類学に基づく認知層別データ合成フレームワーク「BD-FDG」を提案し、これにより構築した大規模な宇宙状況認識(SSA)向けデータセットで微調整した LLM が、専門領域の性能を大幅に向上させつつ汎用性を維持することを示しています。

Ding Linghu, Cheng Wang, Da Fan, Wei Shi, Kaifeng Yin, Xiaoliang Xue, Fan Yang, Haiyi Ren, Cong ZhangWed, 11 Ma🤖 cs.AI

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

本論文は、着用状態の画像から平らな衣服表現を生成する仮想試着(VTOFF)において、部分的な視認性からの連続的な詳細の推論と構造的な安定性を向上させるため、衣服の条件を橋渡しするモジュールと平らな構造の制約を注入するモジュールを組み合わせた拡散モデル「BridgeDiff」を提案し、最先端の性能を達成したことを示しています。

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

Social-R1: Towards Human-like Social Reasoning in LLMs

この論文は、社会的推論の難問を扱う対戦的ベンチマーク「ToMBench-Hard」と、推論過程全体を人間の認知に整合させる多面的報酬を用いた強化学習フレームワーク「Social-R1」を提案し、これにより小規模モデルでも大規模モデルを上回る堅牢な社会的知能を実現できることを示しています。

Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen MengWed, 11 Ma🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

本論文は、事前学習済みおよびカスタム設計のニューラルネットワークを統合し、交通標識・車両・車線検出ならびに行動模倣といった自律運転の主要タスクを包括的に処理するマルチモデル手法を提案し、その有効性を複数のデータセットとシミュレーターを用いて検証したものである。

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI