cs.CL 件の論文 | Gist.Science

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

本論文は、推論経路間の合意度に基づくインスタンスごとの不確実性を活用し、高合意サンプルには教師あり微調整を、低合意サンプルには合意正則化を伴う強化学習を動的に適用する「DiSCTT」という新しいテスト時適応フレームワークを提案し、多様な推論タスクにおいて既存手法を上回る精度と効率性を達成することを示しています。

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

本論文は、Transformer の層間の論理的依存関係に基づき、浅い層が先に学習し深い層は遅れて学習を開始する「Progressive Residual Warmup（ProRes）」手法を提案し、言語モデルの前学習の安定性、収束速度、および汎化性能の向上を実証しています。

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

本論文は、推論駆動型の微調整戦略（連鎖思考と隣接語分析の組み合わせ）を採用することで、40 億パラメータ未満の低パラメータ大規模言語モデルが、GPT-4-Turbo と同等の単語意味曖昧性解消性能を達成し、かつ計算コストを大幅に削減できることを実証したものである。

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

本論文は、大規模言語モデルがプロンプトへの思考注入を検出する際、異常の推論と内部状態への直接アクセスという 2 つの分離可能なメカニズムを備えており、後者は内容に依存せず異常の存在のみを特定できることを示しています。

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

この論文は、異なる語彙を持つ言語モデルを統合してサンプリングするための共通文字空間におけるバイトレベルの逐次モンテカルロ法を提案し、従来の確率平均よりも優れた性能を実現する新しいアンサンブル分布の枠組みを構築するものです。

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

この論文は、異なる情報を持つ協力者が共同でパズルを解く「分散型部分情報パズル（DPIP）」というタスクと、それを記述したマルチモーダルデータセットを提案し、大規模言語モデルと公理的な推論パイプラインを用いて「共通基盤」の構築を評価した結果、現代の LLM はタスクの進行と信念状態の追跡において課題を抱えていることを示しています。

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Blackwell アーキテクチャの非対称なハードウェアスケーリング特性に特化したアルゴリズムとカーネルのパイプライン設計を提案し、CuTe-DSL を用いて実装された FlashAttention-4 は、B200 GPU 上で cuDNN や Triton を凌駕する高い性能とコンパイル効率を実現する。

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

本論文は、多様な形式の議論を網羅する議論コーパスの不足を補うため、音声・個人・半構造化の議論データと、音声認識から議論品質評価に至る多様な NLP タスクの注釈を備えた「DEBISS」コーパスを提案するものである。

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

本論文は、バングラデシュの国立教科書から抽出され、回答可能・不可能な質問のバランスが取れた大規模なバングラ語教育質問応答データセット「NCTB-QA」を構築し、トランスフォーマーモデルのファインチューニングによる性能向上を実証する研究です。

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

この論文は、外部検索に依存せず LLM の内部知識を活用するファクトチェックの新たな研究分野を確立し、内部表現の相互作用を巧みに利用する手法「INTRA」を提案することで、長尾知識や多言語などに対する優れた汎化性能と最先端の精度を達成したことを示しています。

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

この論文は、大規模言語モデルが推論過程（CoT）で最終回答の確信を早期に形成しているにもかかわらず、それを明かさない「演技的推論」が存在し、活性化プロブを用いた早期終了により、精度を維持しつつ推論トークンを大幅に削減できることを示しています。

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

中国のオープンウェイト LLM（Qwen3）が政治的センシティブな話題で意図的に虚偽を生成する現象を自然なテストベッドとして活用し、誠実な回答を引き出す手法や嘘を検知する技術の有効性と限界を評価した。

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

本論文は、トランスフォーマーモデルにおける「巨大活性化」と「アテンションシンク」の共起がアーキテクチャ的な産物であり、それぞれがモデルの暗黙のパラメータとして機能するグローバルな役割と、局所的な依存関係へのバイアスという異なる役割を担っていることを実証的に明らかにしたものである。

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

本論文は、大規模言語モデルの効率的かつ安定した学習を実現するため、直交変換のスケーリングにより計算コストとメモリ使用量を大幅に削減した「POET-X」というフレームワークを提案し、単一 GPU での数十億パラメータモデルの事前学習を可能にしたことを報告しています。

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

この論文は、拡散モデルとテキスト画像モデルの利点を活用し、視覚的・言語的特徴を融合させることで、訓練データに存在しないクラスや背景に溶け込んだ対象物も検出可能な「オープンボキャブラリー・カモフラージュインスタンスセグメンテーション」を実現する手法を提案し、その有効性を示すものです。

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

本論文は、推論の計算コストを削減しつつ性能を維持・向上させるため、類似データの早期退出情報を検索してモデルの退出層を決定する強健な検索拡張型早期退出フレームワーク「RAEE」を提案し、8 つのタスクでロバストなゼロショット性能を実証した。

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

本論文は、オーストラリア国立大学のコンピュータサイエンス分野の学術知識グラフ（ASKG）と大規模言語モデル（LLM）を統合し、Deep Document Model と KG 強化クエリ処理を採用することで、従来の手法よりも高精度かつ効率的な意味検索システムを提案し、学術知識管理の革新を目指すものである。

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

この論文は、英語の受動態の例外を学習するメカニズムを調査するために言語モデルの訓練データを操作し、語彙の定着度と意味的要素の両方がその制限の学習に独立して寄与することを示しました。

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

この論文は、大規模言語モデルの評価における課題を解決するため、自然言語による単体テストという新しいパラダイムと、それを統合的にスコアリングする LMUnit モデルを提案し、人間の評価者間の一致率向上やベンチマークでの最高性能達成を通じてその有効性を実証しています。

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

この論文は、LLM によるデータ合成と評価を組み合わせた新しいモデル開発パラダイムにおいて、生成モデルと評価モデルの関連性（同一モデル、継承関係、同ファミリー）に起因する「選好漏れ」という新たな汚染問題が、既存のバイアスよりも検出が困難で広範な影響を及ぼすことを実証的に明らかにしたものである。

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

← 前へ次へ →