DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

本論文は、推論経路間の合意度に基づくインスタンスごとの不確実性を活用し、高合意サンプルには教師あり微調整を、低合意サンプルには合意正則化を伴う強化学習を動的に適用する「DiSCTT」という新しいテスト時適応フレームワークを提案し、多様な推論タスクにおいて既存手法を上回る精度と効率性を達成することを示しています。

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

本論文は、推論駆動型の微調整戦略(連鎖思考と隣接語分析の組み合わせ)を採用することで、40 億パラメータ未満の低パラメータ大規模言語モデルが、GPT-4-Turbo と同等の単語意味曖昧性解消性能を達成し、かつ計算コストを大幅に削減できることを実証したものである。

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

この論文は、異なる情報を持つ協力者が共同でパズルを解く「分散型部分情報パズル(DPIP)」というタスクと、それを記述したマルチモーダルデータセットを提案し、大規模言語モデルと公理的な推論パイプラインを用いて「共通基盤」の構築を評価した結果、現代の LLM はタスクの進行と信念状態の追跡において課題を抱えていることを示しています。

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Blackwell アーキテクチャの非対称なハードウェアスケーリング特性に特化したアルゴリズムとカーネルのパイプライン設計を提案し、CuTe-DSL を用いて実装された FlashAttention-4 は、B200 GPU 上で cuDNN や Triton を凌駕する高い性能とコンパイル効率を実現する。

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

本論文は、バングラデシュの国立教科書から抽出され、回答可能・不可能な質問のバランスが取れた大規模なバングラ語教育質問応答データセット「NCTB-QA」を構築し、トランスフォーマーモデルのファインチューニングによる性能向上を実証する研究です。

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

この論文は、外部検索に依存せず LLM の内部知識を活用するファクトチェックの新たな研究分野を確立し、内部表現の相互作用を巧みに利用する手法「INTRA」を提案することで、長尾知識や多言語などに対する優れた汎化性能と最先端の精度を達成したことを示しています。

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

本論文は、トランスフォーマーモデルにおける「巨大活性化」と「アテンションシンク」の共起がアーキテクチャ的な産物であり、それぞれがモデルの暗黙のパラメータとして機能するグローバルな役割と、局所的な依存関係へのバイアスという異なる役割を担っていることを実証的に明らかにしたものである。

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

本論文は、大規模言語モデルの効率的かつ安定した学習を実現するため、直交変換のスケーリングにより計算コストとメモリ使用量を大幅に削減した「POET-X」というフレームワークを提案し、単一 GPU での数十億パラメータモデルの事前学習を可能にしたことを報告しています。

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

この論文は、拡散モデルとテキスト画像モデルの利点を活用し、視覚的・言語的特徴を融合させることで、訓練データに存在しないクラスや背景に溶け込んだ対象物も検出可能な「オープンボキャブラリー・カモフラージュインスタンスセグメンテーション」を実現する手法を提案し、その有効性を示すものです。

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

本論文は、オーストラリア国立大学のコンピュータサイエンス分野の学術知識グラフ(ASKG)と大規模言語モデル(LLM)を統合し、Deep Document Model と KG 強化クエリ処理を採用することで、従来の手法よりも高精度かつ効率的な意味検索システムを提案し、学術知識管理の革新を目指すものである。

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

この論文は、大規模言語モデルの評価における課題を解決するため、自然言語による単体テストという新しいパラダイムと、それを統合的にスコアリングする LMUnit モデルを提案し、人間の評価者間の一致率向上やベンチマークでの最高性能達成を通じてその有効性を実証しています。

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

この論文は、LLM によるデータ合成と評価を組み合わせた新しいモデル開発パラダイムにおいて、生成モデルと評価モデルの関連性(同一モデル、継承関係、同ファミリー)に起因する「選好漏れ」という新たな汚染問題が、既存のバイアスよりも検出が困難で広範な影響を及ぼすことを実証的に明らかにしたものである。

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI