cs.CL 件の論文 | Gist.Science

Image Captioning via Compact Bidirectional Architecture

本論文は、従来の一方向生成の限界を克服し、左から右・右から左の双方向フローを単一モデルに密結合させることで、文レベルおよび単語レベルのアンサンブルと自己批判的学習を組み合わせ、MSCOCO ベンチマークにおいて非 VLP ベースラインモデルの中で最高水準の性能を達成する「コンパクト双方向トランスフォーマー」を提案するものである。

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

この論文は、対応分析（CA）と PMI ベースの単語埋め込み手法の数学的関係を明らかにし、平方根や 4 乗根変換を適用した CA の変種（ROOT-CA、ROOTROOT-CA）が、従来の手法や BERT と比較して単語類似性タスクにおいて優れた性能を発揮することを示しています。

Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der HeijdenWed, 11 Ma💬 cs.CL

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

この論文は、量子化とスパース化の不連続性が勾配伝搬に与える課題を、量子化を付加ノイズとして明示的にモデル化し、リッジ回帰に基づくノイズ除去デ量子化変換を導入することで解決し、任意の精度とスパース性で安定した超効率的なニューラルネットワークの訓練を可能にする統一フレームワークを提案しています。

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

この論文は、中国語の電子カルテにおける ICD 自動コーディングの課題を解決するため、4 つのコーディング軸に基づく多軸知識と臨床エビデンスの検証を組み合わせた新しいフレームワーク「MKE-Coder」を提案し、その有効性を大規模データセットと実証評価で実証したものである。

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

本論文は、Tutlayt AI プロジェクトの一環として、協働プラットフォームと自動アライメントツールを活用して低リソース言語向けの音声翻訳並行コーパス「LoReSpeech」を構築する手法を提案し、多言語音声認識や音声翻訳、言語保存の促進を目指しています。

Samy OuzerroutWed, 11 Ma💬 cs.CL

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

本論文は、自然言語と実行可能コードの間の推論ギャップを解決し、自動車ソフトウェアリリース分析において既存手法を上回る精度と高速性を達成する、関係代数を中間表現として活用した新しい LLM エージェント「GateLens」を提案し、その有効性を実証したものである。

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

本論文は、GRPO における「すべてが不正解なグループ」からの学習欠如を解消するため、ステップごとの評価モデルを用いて回答の多様性を確保し、誤った推論からも学習可能にする「Stepwise Guided Policy Optimization（SGPO）」を提案し、その有効性を理論的および実証的に検証したものです。

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

この論文は、数学的問題の形式、論理的一貫性、完全性を段階的に検証する新しいパイプライン「MathQ-Verify」を提案し、既存のベンチマークで最先端の性能を達成して信頼性の高い数学データセットの構築を可能にすることを示しています。

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

本論文は、従来の手法に比べて高速かつ低リソースで、200 万回以上の編集を可能にする「UltraEdit」という新しいモデル編集手法と、それを評価するための大規模ベンチマーク「UltraEditBench」を提案し、大規模言語モデルの安全でスケーラブルな生涯学習の実現に向けた重要な一歩を踏み出したことを示しています。

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

ThinkQE: Query Expansion via an Evolving Thinking Process

この論文は、LLM ベースのクエリ拡張が抱える狭い焦点という課題を解決するため、深層的な意味探索とコーパスからのフィードバックに基づく反復的改善を組み合わせたテスト時フレームワーク「ThinkQE」を提案し、複数の検索ベンチマークで既存手法を上回る性能を達成したことを報告しています。

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

この論文は、単一ドメインデータに依存する低資源言語の言語識別性能を向上させるため、ドメイン不変な表現を学習する教師付き対照学習アプローチ「ConLID」を提案し、低資源言語におけるアウトオブドメインデータでの性能を 3.2 ポイント向上させたことを示しています。

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

この論文は、結晶学における質問応答タスクにおいて、LLM および MLLM が専門的な文脈情報をどのように活用するかを評価するための包括的なベンチマークフレームワーク「OPENXRD」を提案し、中規模モデルが文脈情報から最も恩恵を受けること、また AI 生成ではなく専門家による高品質な資料が性能向上に不可欠であることを実証しています。

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

本論文は、BERT ベースのモデルの推論能力の限界と大規模言語モデル（LLM）の実用課題を克服するため、CoT による推論の注入、DPO による生成品質の向上、GRPO による幻覚の抑制、および効率的なオンライン展開を可能にする 3 段階のフレームワーク「TaoSR1」を提案し、EC 検索における商品関連性予測の性能を大幅に向上させたことを示しています。

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

本論文は、常識推論と数学的推論の両方を組み合わせた新しいベンチマーク「AgentCoMa」を提案し、大規模言語モデルが個別の推論タスクは得意であるものの、これらを混合して実世界シナリオで処理する際には大幅な精度低下を示す脆性を明らかにした。

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek ReiWed, 11 Ma💬 cs.CL

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

本論文は、推論能力の強化が人間との整合性を損なう「推論誘発型ミスマッチ（RIM）」という新たな脆弱性を発見し、推論トークンへの注意低下や安全関連ニューロンにおける推論と安全性の活性化の絡み合いというメカニズムを解明することで、その原因を初めて体系的に説明したものです。

Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan HeWed, 11 Ma💬 cs.CL

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

OpenAI の SimpleQA の欠点を克服し、より信頼性の高いファクトチェック用ベンチマーク「SimpleQA Verified」を提案し、それを用いた評価で Gemini 2.5 Pro が GPT-5 を上回る最高性能を達成したことを報告する論文です。

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan DasWed, 11 Ma💬 cs.CL

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

この論文は、推論コストの増大や精度低下を招く過剰な Chain-of-Thought を回避するため、事前出力に基づいて動的に閾値を調整し推論を圧縮する適応型フレームワーク「SEER」を提案し、コード生成や数学タスクにおいて推論効率と精度の両立を実現することを示しています。

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

既存の幻覚検出手法の性能が、モデルの真の内部情報への気づきではなく、質問側の情報を利用したベンチマークハッキングに依存していることを示すため、人間の手間をかけずにこの影響を定量化する手法「Approximate Question-side Effect (AQE)」を提案し、その分析結果を通じて既存手法の限界を明らかにした。

Yeongbin Seo, Dongha Lee, Jinyoung YeoWed, 11 Ma💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本論文は、ビデオ条件付き音声生成（Video-to-Sound）と視覚テキスト音声合成（VisualTTS）という従来別個のタスクを、ディテトランス（DiT）アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

本論文は、視覚的手がかりと環境音の両方を用いた動画のユーモア理解を評価するための新しいベンチマーク「v-HUB」を提案し、マルチモーダル大規模言語モデルの現状の課題と音声モダリティの重要性を実証しています。

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI