cs.CL 件の論文 | Gist.Science

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

本論文は、各タスクの入力共分散を微調整済みモデルのパラメータ差分から推定する理論的洞察に基づき、データなしでタスク間干渉を低減し、従来の手法を大幅に上回る性能を達成する新しいモデル統合フレームワーク「ACE-Merging」を提案するものである。

Bo Xu, Haotian Wu, Hehai Lin + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

本論文は、LLM エージェントのプライバシー侵害を静的な防御ではなく、強化学習によって最適化された文脈認識型の「文脈化防御指示（CDI）」という新しいパラダイムで能動的に防ぎ、プライバシー保護と有用性のバランスを大幅に改善する手法を提案しています。

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Transformer のグローバル依存性モデリング能力と Mamba の線形時間効率性を組み合わせたハイブリッドエンコーダ「MaBERT」を提案し、パディングによる状態汚染を防止する新たな手法により、長文脈の効率的な学習と推論を実現する。

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

本論文は、精神医療分野における大規模言語モデルの信頼性を包括的に評価するための新たなベンチマーク「TrustMH-Bench」を提案し、既存のモデルがその信頼性の多面的な要件において著しく不十分であることを実証しています。

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

本論文は、高品質で大規模な DaTikZ-V4 データセットと逆グラフィックスに基づく強化学習を活用し、小規模なオープンソースモデル「TikZilla」を開発することで、テキストから高品質な TikZ 図を生成する性能を大幅に向上させ、GPT-5 に匹敵する結果を達成したことを報告しています。

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

本論文は、拒絶応答の抑制と疑似有害出力の回避を目的とした二段階の損失関数、および勾配方向を優先するトークン最適化戦略を導入することで、既存手法を上回る高い攻撃成功率を達成する新しい最適化ベースのジャイルブレイク手法「TAO-Attack」を提案するものである。

Zhi Xu, Jiaqi Li, Xiaotong Zhang + 2 more2026-03-04💬 cs.CL

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

この論文は、指示調整済み大規模言語モデル（LLM）を用いたコンパクトなプロンプト生成アプローチを提案し、従来のセグメンテーションや分類の分離手法ではなく、文章から直接議論的構成要素を検出する生成タスクとして再定義することで、標準ベンチマークにおいて最先端の性能を達成したことを示しています。

Sofiane Elguendouze, Erwan Hain, Elena Cabrio + 1 more2026-03-04💬 cs.CL

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

本論文は、自己教師あり学習による音声モデル（WavLM）の表現において、PCA によって抽出された個々の主成分次元がピッチや性別、強度、ノイズレベルなどの話者特性に対応しており、これら次元を操作することで音声合成における話者特性を制御可能であることを示しています。

Kyle Janse van Rensburg, Benjamin van Niekerk, Herman Kamper2026-03-04⚡ eess

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

本論文は、マルチターン LLM システムにおけるモデル切り替えが文脈の不一致を引き起こし、統計的に有意なパフォーマンスの漂移を生じさせることを実証し、そのリスクを定量化・分解するベンチマークと分析手法を提案するものである。

Raad Khraishi, Iman Zafar, Katie Myles + 1 more2026-03-04💬 cs.CL

UniSkill: A Dataset for Matching University Curricula to Professional Competencies

本論文は、欧州の ESCO タキソノミーと大学のカリキュラムを対応付ける大規模なデータセット「UniSkill」を公開し、BERT モデルを用いて講義とスキル間のマッチング精度 87% を達成したことを報告するものである。

Nurlan Musazade, Joszef Mezei, Mike Zhang2026-03-04💬 cs.CL

APRES: An Agentic Paper Revision and Evaluation System

この論文は、LLM を活用して査読基準に基づき論文を自動修正するシステム「APRES」を提案し、引用数の予測精度向上と専門家による評価の改善を実証するとともに、科学の核心内容を変更せず人間の査読を補完するツールとしての可能性を示しています。

Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse + 8 more2026-03-04💬 cs.CL

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

本論文は、大規模言語モデルによる自然言語からソルバ実行可能な産業最適化モデルへの自動変換において、構造化された知識グラフに基づくタイプ認識型検索拡張生成と最小依存閉包の導入により、既存手法では解決できなかった構造的誤りやコンパイル失敗を克服し、実用的な産業ケースで高い実行可能性と一般化性能を実証したことを示しています。

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

本論文は、オムニマルチモーダル大規模言語モデルにおけるクロスモーダルの幻覚を軽減するため、無関係なモダリティのノイズへの不変性と関連モダリティの変化への感応性を強制し、テキスト依存を抑制する「モダリティ分離型直接選好最適化（MoD-DPO）」を提案し、複数のベンチマークで既存手法を上回る性能を実証したものである。

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

既存のコードエージェント評価が単一リポジトリのバグ修正に偏っている現状を踏まえ、本論文はより現実的な課題を網羅する新しいベンチマーク「BeyondSWE」と検索機能統合フレームワーク「SearchSWE」を提案し、最先端モデルでさえ複雑なタスクにおいて性能が頭打ちになることや、検索による性能向上が一貫しないという課題を明らかにしている。

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

本論文は、自律走行、ロボティクス、ドローンなど多様な物理的実体における汎用性を可能にする共通基盤として「空間知能」に着目し、共有基盤の構築、専門化、そしてモデル統合を行う SSR パラダイムと GRPO を採用した汎用型基盤脳「ACE-Brain-0」を提案し、24 のベンチマークで最先端の性能を達成したことを報告しています。

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

本論文は、マルチステップのツール使用における安全な意思決定を可能にするため、明示的な安全性推論と拒否を第一級の行動として組み込み、ペアワイズな軌道比較に基づく強化学習を用いてエージェントを安全に整列させる新しいポストトレーニングフレームワーク「MOSAIC」を提案し、その有効性を複数のモデルと多様なベンチマークで実証したものである。

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Understanding and Mitigating Dataset Corruption in LLM Steering

本論文は、LLM の推論時制御手法である対比型ステアリングがデータ汚染に対してある程度頑健である一方、悪意のあるデータ改ざんによる副作用を防止するため、高次元平均推定を頑健な平均推定子に置き換えることで効果的に緩和できることを示しています。

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals

この論文は、明示的な評価ラベルを必要とせず、コミュニティがコンテンツに対して示す受容行動（エンゲージメントや維持）から誘発される表現空間の幾何学的構造（高密度領域）を「密度誘導型応答最適化（DGRO）」として活用し、多様なオンラインコミュニティの規範に言語モデルを自動的に適合させる手法を提案しています。

Patrick Gerard, Svitlana Volkova2026-03-04💬 cs.CL

Using Learning Progressions to Guide AI Feedback for Science Learning

この研究は、化学の学習課題に対する生成 AI のフィードバックにおいて、学習の進展（LP）に基づいて自動的に作成された評価基準を用いたパイプラインが、専門家による手動作成の評価基準を用いた場合と同等の品質を達成できることを示しています。

Xin Xia, Nejla Yuruk, Yun Wang + 1 more2026-03-04💬 cs.CL

Factuality Challenges in the Era of Large Language Models

本論文は、大規模言語モデルがもたらす「幻覚」や悪用リスクといった事実性の課題を分析し、事実確認者、報道機関、研究・政策コミュニティが直面する脅威と、それに対処するための技術的・規制的・リテラシー向上の解決策を探求するものである。

Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha + 15 more2026-03-03💬 cs.CL

← 前へ次へ →