cs.CL 件の論文 | Gist.Science

Enhancing multimodal analogical reasoning with Logic Augmented Generation

本論文は、意味知識グラフとプロンプトヒューリスティクスを組み合わせた論理強化生成（LAG）フレームワークを提案し、暗黙的な類推的つながりを抽出することで、メタファー検出や理解タスクにおいて既存のベースラインや人間を上回る性能と説明可能性を実現したことを示しています。

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

この論文は、LLM と知識グラフを用いて気候変動関連ニュースの科学的正確性を半自動で評価する手法を開発・評価したが、現状では大規模なメディア検証には不十分であり、FAIR な基盤知識の整備が不可欠であると結論付けています。

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

本論文は、クラウド環境における大規模で動的な仮想マシンスケジューリング問題（ODMBP）に対し、大規模言語モデルを活用して多様な戦略を発見・統合する階層的言語エージェント「MiCo」を提案し、1 万を超える仮想マシンを含む実データセットで 96.9% の競争率を達成する高い汎用性と実用性を示したものである。

JieHao Wu, Ziwei Wang, Junjie Sheng + 3 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

本論文は、因果推論における統計的落とし穴（例えば Simpson のパラドックスや選択バイアスなど）を LLM が克服できるかを厳密に評価するための新しいベンチマーク「CausalPitfalls」を提案し、その評価を通じて現在の LLM が統計的因果推論において重大な限界を抱えていることを明らかにしています。

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

本論文は、複雑な CLI 入力のモデル化におけるデータ不足を解消するため、文法制約と自己教師あり不可縮性信号を用いて Bash 実行挙動を捉える環境「ShIOEnv」を提案し、これにより収集した 210 万組のデータセットが従来の実行フリー手法を上回る精度でユーザー入力の挙動をモデル化できることを示しています。

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

この論文は、検索結果が矛盾・ノイズ・無効であるような状況における検索拡張言語モデルの推論能力を評価する新たなベンチマーク「SealQA」を提案し、最先端のモデルさえもそのような環境で著しく低い性能を示すことを明らかにしています。

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

この論文は、自然言語による時間的コンテキスト更新を意思決定プロセスと分離し、推論のみに基づくミドルウェア「LUCIFER」を通じて制御に直接関連する信号に変換する「シグナル契約」を提案し、捜索救助シナリオにおける安全性と情報収集効率の向上を実証したものである。

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

本論文は、日本の企業開示データ（EDINET）を用いて会計不正検出や収益予測などの高度な金融タスクを評価するオープンソースベンチマーク「EDINET-Bench」を提案し、最先端の LLM でも専門家の判断に迫る性能が得られていない現状を明らかにするとともに、より実務に近い環境での評価枠組みの必要性を提言しています。

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

本論文は、ジグソーパズルなどの新規タスクを用いた実験により、強微調整（RFT）が教師あり微調整（SFT）に比べて事前知識の保持に優れ、その理由が学習データ分布の方向性と大きさの違いにあることを示し、RFT が安定した継続学習に有効であることを提唱しています。

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

この論文は、スペイン語圏の言語的多様性と文化的多様性を反映した大規模言語モデル（LLM）の開発を促進するため、スペインおよびラテンアメリカの言語や方言を対象とした初のオープンソース評価リーダーボード「La Leaderboard」を提案し、その評価手法や環境負荷低減のための工夫について解説しています。

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

本論文は、高品質な英語データの評価信号を単一の評価器に統合し翻訳を通じて多言語データに転送する「MuRating」フレームワークを提案し、これにより多言語大規模言語モデルの事前学習におけるデータ選択の精度と性能を大幅に向上させることを示しています。

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

本論文は、低リソース言語を含む多言語大規模言語モデルの評価を可能にする、モジュール式でオープンソースの包括的なフレームワーク「EKA-EVAL」を提案し、既存の手法と比較して優れた使いやすさと再現性を示したことを述べています。

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal + 1 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

本論文は、複雑な視覚的推論を包括的に評価する新たなベンチマーク「TreeBench」を提案し、その課題を克服するために強化学習を用いて局所化と推論を同時に監督するトレーニング手法「TreeVGR」を開発し、最先端モデルの性能向上を実証しています。

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

この論文は、話者と歌唱の両方に対応し、プロソディやスタイル、音色を柔軟に制御可能な音声生成のための統合フレームワーク「Vevo2」を提案し、その有効性と汎用性を示したものである。

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

本論文は、大規模言語モデルの量子化が効率化と倫理的配慮のバランスをどう左右するかを多角的に検証し、毒性の低減やセンチメントへの影響のなさといった利点がある一方で、特に激しい圧縮下ではステレオタイプや不公平性がわずかに増大する傾向があることを明らかにしています。

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

本論文は、音声認識における知識転移の課題である音響表現と言語表現の非対称なアライメントを「検出問題」として捉え、分布の不一致と構造的な非対称性を明示的に処理する非平衡最適輸送に基づくアライメントモデルを提案し、CTC ベースのシステムにおける性能向上を実証したものである。

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

本論文は、限られた計算資源下でもベトナム語と英語のコードスイッチング音声認識において、PhoWhisper-base などの既存手法を上回る Word Error Rate 19.06% を達成する、拡張ベトナム語音素セットを中間表現とする効率的な 2 段階音素中心アーキテクチャ「TSPC」を提案するものである。

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Linguistic trajectories of bipolar disorder on social media

この論文は、ソーシャルメディアの言語データを用いた大規模な縦断研究により、双極性障害の診断前後における言語的変化や季節的な気分変動の周期性を明らかにし、これが従来の精神科コホート研究を補完する価値があることを示しています。

Laurin Plank, Armin Zlomuzica2026-03-06💻 cs

Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling

本論文は、Mimi 音声コーデックが生成する多レベルの RVQ トークンを単一シーケンスに平坦化し、単一のトランスフォーマーで自己回帰的にモデル化する「Llama-Mimi」を提案し、階層的モデルを上回る性能と優れた音響的一貫性を達成したことを示しています。

Issa Sugiura, Shuhei Kurita, Yusuke Oda + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

本研究は、LLM を基盤とする音声モデルが自然な会話の流暢性を欠く入力に対して構造的忠実度よりも意味の抽象化を優先する傾向があり、特に推論モデルが過剰な削除を行うことを示し、音声に対する頑健性が特定の学習目的によって形成されることを明らかにしています。

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

← 前へ次へ →