cs.CL 件の論文 | Gist.Science

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

本論文は、異なる SQL 方言を持つ多様なデータベースシステムに対応し、構文と意味の両面で正確なクエリ生成を実現するために、方言認識論理クエリ計画モジュール、階層的意図認識知識ベース、および実行駆動型デバッグループを導入した「Dial」という知識基盤型 NL2SQL 枠組みを提案し、新しいベンチマーク DS-NL2SQL による実験で最先端手法を上回る性能を示したものである。

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

Image Generation Models: A Technical History

この論文は、VAE、GAN、拡散モデルなど過去 10 年間の画像生成モデルの技術的変遷を包括的に調査し、各モデルの技術詳細や限界、動画生成への発展、そして深層偽造リスクや責任ある展開といった倫理的課題までを網羅的に解説するものである。

Rouzbeh ShirvaniTue, 10 Ma💬 cs.CL

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

この論文は、アテンションとフィードフォワードをそれぞれ異なるストリームで処理する「デュアルストリームトランスフォーマー」を提案し、ヘッド間の混合戦略を調整することで解釈性と性能のトレードオフを明示的に制御可能にしつつ、注意機構の増幅に対する頑健性を示したものである。

J. Clayton Kerce, Alexis FoxTue, 10 Ma🤖 cs.LG

Cross-Modal Taxonomic Generalization in (Vision-) Language Models

この論文は、画像エンコーダと言語モデル（LM）を凍結したビジョン言語モデルにおいて、画像からの明示的なハイパーニム（上位概念）の証拠を完全に排除しても、言語モデルが事前学習した言語的知識とカテゴリー内の視覚的類似性に基づき、ハイパーニムを回復・一般化できることを示しています。

Tianyang Xu, Marcelo Sandoval-Castaneda, Karen Livescu, Greg Shakhnarovich, Kanishka MisraTue, 10 Ma💬 cs.CL

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

この論文は、拡散言語モデルが自己回帰モデルとは異なる階層的な表現構造と早期層の冗長性を有していることを発見し、これに基づいてアーキテクチャ変更なしに推論時のレイヤースキップを適用することで、性能を維持しつつ最大 18.75% の FLOPs 削減を実現する手法を提案しています。

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih PorikliTue, 10 Ma💬 cs.CL

A Joint Neural Baseline for Concept, Assertion, and Relation Extraction from Clinical Text

この論文は、臨床テキストからの概念認識、アサーション分類、関係抽出という 3 つのタスクを独立して処理する従来のパイプライン手法の課題を解決し、これらを統合的に最適化するエンドツーエンドのニューラルネットワーク基線モデルを提案し、その有効性を示すものです。

Fei Cheng, Ribeka Tanaka, Sadao KurohashiTue, 10 Ma💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

本論文は、ゼロショット多言語モデルでは不十分であったカシミール語の音声合成に対し、OT-CFM に基づく監督適応と音響前処理パイプラインを導入した初のオープンソースシステム「Bolbosh」を提案し、話者評価や音質指標において大幅な性能向上を達成したことを報告するものである。

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul BashirTue, 10 Ma💬 cs.CL

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

本論文は、LLM の確率的な特性に起因するハルシネーションを軽減するため、記憶に基づく計画剪定、信頼度に基づく行動精緻化、および二重重み付き軌道集約という不確実性認識推論フレームワークを導入し、テーブル推論タスクにおいて既存手法を上回る性能を達成する「TableMind++」を提案するものである。

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong ChenTue, 10 Ma💬 cs.CL

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

この論文は、アクセント付きの学習データを必要とせず、異なる言語のネイティブ音声で微調整されたタスクベクトルを操作することで、多言語 TTS においてアクセントの強さや混合を細かく制御可能にする「Accent Vector」という手法を提案し、その有効性を示したものです。

Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth NarayananTue, 10 Ma💬 cs.CL

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

イスラム法における複雑な相続計算を評価するための大規模なデータセット「MAWARITH」と多段階評価指標「MIR-E」を提案し、既存のモデルが推論の全段階で課題を抱えていることを示した研究です。

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad MohamedTue, 10 Ma💬 cs.CL

Learning-free L2-Accented Speech Generation using Phonological Rules

この論文は、大規模なアクセント付きデータや学習を必要とせず、音韻規則と多言語 TTS モデルを組み合わせることで、音声の明瞭さを保ちながらスペイン語やインド英語などのアクセントを音素レベルで制御可能な新しい音声合成フレームワークを提案するものである。

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth NarayananTue, 10 Ma💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

ネパール語（ネワール語）の音声認識におけるリソース不足を解消するため、5.39 時間の手書き転写コーパス「Nwāchā Munā」を公開し、大規模多言語モデルに匹敵する性能を、近隣言語であるネパール語からの転移学習によって達成したことを報告する論文です。

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

本論文は、API の進化に伴うコードの移行タスクを、構造化された知識グラフを用いた経路検索と経路に基づくコード生成の 2 段階に分解することで、大規模言語モデルの限界を克服し、移行精度と実行成功率を大幅に向上させるフレームワーク「KCoEvo」を提案しています。

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

本論文は、感情、速度、音量、ピッチの 4 つの次元における会話中の発話スタイル制御能力を包括的に評価するための多ターン対話ベンチマーク「StyleBench」を提案し、主要な音声言語モデルとオムニ言語モデルのパフォーマンス格差を明らかにしたものである。

Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo ZhuTue, 10 Ma💬 cs.CL

KohakuRAG: A simple RAG framework with hierarchical document indexing

KohakuRAG は、階層的な文書インデックス、LLM 駆動のクエリプランナー、および棄権を考慮したアンサンブル推論を採用することで、高度な精度と正確な出典引用を両立し、WattBot 2025 チャレンジで首位を獲得した新しい RAG フレームワークです。

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang TuTue, 10 Ma💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

本論文は、メモリー、通信、計算の各側面を横断する統合最適化と並列化手法を導入し、数千の GPU クラスターで数十億から数兆パラメータ規模の混合専門家（MoE）モデルの効率的なトレーニングを可能にする、生産環境対応のオープンソースフレームワーク「Megatron Core」の技術とシステム設計を詳述しています。

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)Tue, 10 Ma🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

本論文は、大規模なパラメータを含む多様な離散最適化問題を用いた評価を通じて、LLM の性能や CoT 手法の有効性を実証し、自動解決への提言と将来の研究基準を提供するものである。

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen LyuTue, 10 Ma💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

本論文は、視覚言語モデルが抱える「空間知能のギャップ」を解消するため、エンジニアリング認知に着想を得て正投影図に基づく「シミュレーションと推論」メカニズムを導入し、複雑な空間推論タスクの精度を大幅に向上させるフレームワーク「3ViewSense」を提案するものである。

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao ZhengTue, 10 Ma💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

本論文は、PCA whitening と固有スペクトル分解を用いることで、埋め込み空間におけるクラスタのコミットメントが幻覚のタイプを幾何学的に分離する指標となり、特に GPT-2-small におけるタイプ 1 と 2 の区別が測定アーチファクトではなくモデル容量の限界によるものであることを示し、さらに微細な信号領域におけるプロンプトセットの感受性という方法論的知見を提供するものである。

Matic KorunTue, 10 Ma💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

この論文は、ハイブリッド RoBERTa エンコーダと大規模言語モデル（LLM）の予測レベルにおけるアンサンブル学習を組み合わせることで、多次元アスペクトベースの感情分析タスクにおける RMSE の大幅な削減と相関スコアの向上を達成したシステムを提案しています。

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng HanTue, 10 Ma💬 cs.CL

← 前へ次へ →