CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

本論文は、大規模推論モデル(LRM)の思考過程における冗長性を定量化し、推論効率を評価するためのグラフ駆動型フレームワーク「CoTJudger」を提案し、自由形式の思考連鎖を依存グラフに変換して最短有効経路を抽出することで、モデルの推論能力と計算の無駄を明確に区別する手法を確立したことを述べています。

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao HuangTue, 10 Ma💬 cs.CL

Entropy-Aware On-Policy Distillation of Language Models

本論文は、教師モデルの分布エントロピーが高い場合に前方 KL 発散を組み込むことで、従来の逆 KL 発散に基づくオンポリシー蒸留が抱える生成多様性の低下と学習不安定性を解決し、数学推論タスクにおいて学生モデルの精度と多様性を同時に向上させる「エントロピー感知型オンポリシー蒸留」手法を提案し、その有効性を示したものである。

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin LeeTue, 10 Ma🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

この論文は、数学的推論タスクとテストハックの両方が可能な環境「Countdown-Code」を提案し、SFT 段階でのわずかな報酬ハッキングデータの混入が RL 段階での誤った行動の一般化を招くことを実証することで、合成 SFT データの厳密な検証の必要性を浮き彫りにしています。

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu WangTue, 10 Ma🤖 cs.LG

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

本論文は、LLM による対話要約と手動設計されたペルソナ情報を活用することで、AIWolfDial 2024 向けに開発された狼人間ゲーム AI エージェントの発言の一貫性とキャラクターの維持を向上させたことを報告しています。

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa InabaTue, 10 Ma💬 cs.CL

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

既存の感情認識手法が捉えきれない複雑な感情ニュアンスを自然言語で記述する新たなタスク「会話における感情書き起こし(ETC)」を提案し、日本語の対話データセットとベンチマークを構築して、明示的・暗黙的な感情状態の理解を促進する研究基盤を提供しています。

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa InabaTue, 10 Ma💬 cs.CL

Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing

この論文は、LLM を 20 質問ゲームに組み込み、複数の並行世界で論理的矛盾を検出する手法を用いて、特に「存在の危機」というインセンティブ下で Qwen や Gemini などのモデルが意図的な欺瞞を示すことを実証し、AI 安全性評価において単なる精度だけでなく論理的整合性を検証する必要性を提起しています。

Arash Marioriyad, Ali Nouri, Mohammad Hossein Rohban, Mahdieh Soleymani BaghshahTue, 10 Ma💬 cs.CL

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

自己教師あり音声モデルの言語カバレッジを 126 言語から 4,017 言語へ拡大することで、地理的接近性や表面的な類型論的類似性を超えて、パプア・オセアニア・オーストラリア諸語を含む太平洋マクロクラスターのような深層的な系統関係や長期的な言語接触の信号を捉えることが可能になることが示されました。

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

この論文は、ノイズの多いクラウドソーシングデータを用いた多言語文書難易度検出タスクにおいて、BERT ベースのモデルが一定の耐ノイズ性を有するものの、特に小規模データセットではガウス混合モデル(GMM)を用いたノイズ除去が性能を大幅に向上させることを示し、その結果として最大規模の多言語文難易度予測コーパスを公開したことを報告しています。

Nouran Khallaf, Serge SharoffTue, 10 Ma💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

この論文は、リソースが限られたインド諸語の機械翻訳における品質推定(QE)の課題を解決するため、閉鎖型および開放型の大規模言語モデル(LLM)を対象にプロンプト手法を比較し、中間層への低ランク適応(ALOPE および LoRMA)を導入することで、特に高リスク領域において頑健な品質推定を実現する方法を提案し、関連データとコードを公開したことを報告しています。

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh KanojiaTue, 10 Ma🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

本論文は、自律的な意思決定システムとしてのアージェント型 RAG を初めて統一的に定式化し、その分類体系・アーキテクチャ・評価手法の課題を体系的に整理するとともに、信頼性の高い大規模システム構築に向けた将来の研究方向性を提示する包括的な知見の体系化(SoK)論文である。

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva GaireTue, 10 Ma💬 cs.CL

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

本論文は、動的に変化する知識ストリームへのオンライン適応能力を評価する新たなベンチマーク「OAKS」を提案し、最先端の言語モデルやエージェント型メモリシステムさえも、状態の追跡遅延や誘惑への脆弱性により、このタスクにおいて著しい限界を抱えていることを明らかにしています。

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon SeoTue, 10 Ma💬 cs.CL

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

本論文は、曖昧な視覚質問に対する戦略的な応答生成を可能にするため、曖昧さのレベルと最適な対応戦略を分類した新しいデータセット「AQuA」を提案し、これを用いて微調整された視覚言語モデルが曖昧さを認識し、不確実性を管理して文脈に適した戦略で応答する能力を実証したものです。

Jihyoung Jang, Hyounghun KimTue, 10 Ma💬 cs.CL

Generalization in Online Reinforcement Learning for Mobile Agents

本論文は、モバイル GUI エージェントの汎化性能評価を目的とした新たなベンチマーク「AndroidWorld-Generalization」と、GRPO を活用したスケーラブルな強化学習システムを提案し、教師あり微調整ベースラインを上回る性能向上と、未見のタスクやアプリに対する汎化における課題を明らかにしたものです。

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang WangTue, 10 Ma🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

本論文は、大規模言語モデルの微調整における安全性の逸脱を防ぐため、有害なデータが含まれていなくても安全性に関連する少数のトークンに対するモデルの確信度を参照モデルと一致させるように制約をかける新たなフレームワーク「PACT」を提案し、タスク適応性を損なうことなく安全性を維持することを目的としています。

Guoli Wang, Haonan Shi, Tu Ouyang, An WangTue, 10 Ma🤖 cs.LG