DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

本論文は、従来の VAD 依存型パイプラインの制約を克服し、LLM の高度な対話能力を維持しながら双方向のリアルタイム音声対話を可能にする「DuplexCascade」という、マイクロターン最適化と制御トークンを活用した VAD 不要のストリーミング型音声対話システムを提案し、オープンソースの音声対話システムにおいて最先端の性能を達成したことを示しています。

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

本論文は、追加の学習やモデル更新を必要とせず、クエリを正と負の成分に分解して対照的な目的関数で埋め込みを最適化する「直接埋め込み最適化(DEO)」を提案し、否定や除外を含む検索タスクにおいて既存手法を上回る性能を達成したことを示しています。

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung JangWed, 11 Ma💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

この論文は、LLM の論理的推論能力の向上が、推論、帰納、仮説形成を通じて AI の状況認識(自己認識や戦略的欺瞞など)を機械的に促進する「RAISE」フレームワークを提示し、現在の安全対策の限界を指摘するとともに、論理推論研究コミュニティに対し、この危険な軌道に対する具体的な安全策と責任を問うている。

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

この論文は、LLM の推論における感情の潜在的要因を解明し、感情バランスの取れた QA データセット「AURA-QA」を提案するとともに、感情条件付きの表現ドリフトを抑制する正則化フレームワークを導入することで、分布変化下およびドメイン内での読解タスクの性能向上を実現したことを示しています。

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

この論文は、クエリに応答するために重要な文を「留め置き(Leave-One-Out)」戦略で特定し、軽量なエンコーダのみトランスフォーマーを用いてコンテキストを効率的に圧縮する「LooComp」を提案し、高い推論速度とメモリ効率を維持しながら検索拡張生成の性能を向上させることを示しています。

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung KimWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

本論文は、対照的デコーディングがオーディオ認識の欠落や不確実性に基づく推測といった誤りを修正する一方で、誤った推論や確信過剰な誤断定には効果が限定的であることを示し、Transition Matrix 枠組みを用いてモデルのベースライン誤りプロファイルに基づき最適な手法を決定する指針を提示しています。

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

この論文は、生成エンジン最適化(GEO)において引用率を向上させるため、引用失敗の原因を診断し、エージェント型システム「AgentGEO」を用いてターゲットを絞った修正を自動適用する新たな枠組みを提案し、既存手法と比較して大幅な改善とコンテンツの最小限の変更を達成したことを示しています。

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi JiaWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

この論文は、LLM の長期的な対話における文脈制限を克服するため、意味的相関に基づく適応的なメモ抽出と、ユーザー入力に応じて適切な検索ツールを自律的に選択・反復実行する「TA-Mem」という新しいフレームワークを提案し、LoCoMo データセットにおいて既存手法を上回る性能を実証したものです。

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

本論文は、複雑な質問を構造化されたトリプルサブクエリに分解し、軽量な階層分類法とハイブリッドなマッチング手法を用いて文書から証拠を段階的に選択する「TaSR-RAG」を提案し、これにより従来の RAG システムよりも高精度な多段推論と証拠の帰属を実現したことを報告しています。

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

この論文は、大規模言語モデル(LLM)が生成するラベルが人間のラベルとよく一致することを実証し、それを用いて既存の空間的カテゴリ化データセット(TRPS)を拡張することで、より広範なシーンと言語を効率的にカバーする手法を提案しています。

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles KempWed, 11 Ma💬 cs.CL

Reward Prediction with Factorized World States

この論文は、言語モデルを用いて非構造化の観測を階層的なオブジェクト属性構造に変換する「StateFactory」を導入し、構造化された状態表現に基づく報酬予測により、ゼロショット設定での高い汎化性能とエージェントの計画成功率の向上を実現したことを報告しています。

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale FungWed, 11 Ma💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

本論文は、フランス語の患者記録を用いた実験を通じて、大規模言語モデル(LLM)が性別と他の社会的決定要因(SDoH)の相互作用に基づいてステレオタイプに依存した判断を下すことを実証し、既存のバイアス評価手法を補完する新たなアプローチの必要性を提唱しています。

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel MorinWed, 11 Ma🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

この論文は、大規模言語モデルが道徳的推論を常識的理解よりも優先する傾向にあること、特に物語の語り手ではなく二次的な登場人物に矛盾が割り当てられた場合にのみその矛盾を検出しやすい「物語焦点バイアス」が存在することを、新規ベンチマーク「CoMoral」を用いた評価を通じて明らかにし、常識の堅牢性を高めるための推論重視のトレーニングの必要性を訴えています。

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya PurkayasthaWed, 11 Ma🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

既存のベンチマークの限界を克服するため、実際のサイバー脅威インテリジェンス(CTI)分析ワークフローに基づき、専門家による注釈と実用的な評価指標を用いて大規模言語モデルを評価する新しいベンチマーク「CyberThreat-Eval」を提案し、その評価を通じて現在のモデルが複雑な詳細や事実の区別において依然として課題を抱えていることを明らかにしています。

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan TangWed, 11 Ma💬 cs.CL

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

この論文は、意味内容が教師モデルの特定の動物への好意と無関係、あるいは矛盾する忠実な言い換えデータを用いて学生モデルを学習させた場合でも、教師モデルの行動特性が最大 19 ポイント増加する「潜在学習」が発生し、従来の内容ベースの検知や矛盾するコンテンツによる防止が機能しないことを示しています。

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)Wed, 11 Ma🤖 cs.LG

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

この論文は、ビッグファイブの性格特性に基づいて大規模言語モデル(LLM)にパーソナライズされたデマ訂正メッセージを生成させる手法を提案し、同様に性格特性をシミュレートした別の LLM を評価者として用いることで、パーソナライズされたメッセージが一般のメッセージよりも説得力が高いことを実証するとともに、その技術的有用性と倫理的課題を明らかにしています。

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. PassaroWed, 11 Ma🤖 cs.AI

ALARM: Audio-Language Alignment for Reasoning Models

本論文は、推論モデル(RLM)の思考過程を自然な音声応答に変換する「自己言い換え」手法と、複数の音声エンコーダを融合したアーキテクチャ、および大規模なマルチタスクデータセットを活用することで、推論能力を維持しつつ音声言語モデルの性能を大幅に向上させたことを提案しています。

Petr Grinberg, Hassan ShahmohammadiWed, 11 Ma💬 cs.CL