DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning
本論文は、推論経路間の合意度に基づくインスタンスごとの不確実性を活用し、高合意サンプルには教師あり微調整を、低合意サンプルには合意正則化を伴う強化学習を動的に適用する「DiSCTT」という新しいテスト時適応フレームワークを提案し、多様な推論タスクにおいて既存手法を上回る精度と効率性を達成することを示しています。
1726 件の論文
本論文は、推論経路間の合意度に基づくインスタンスごとの不確実性を活用し、高合意サンプルには教師あり微調整を、低合意サンプルには合意正則化を伴う強化学習を動的に適用する「DiSCTT」という新しいテスト時適応フレームワークを提案し、多様な推論タスクにおいて既存手法を上回る精度と効率性を達成することを示しています。
本論文は、Transformer の層間の論理的依存関係に基づき、浅い層が先に学習し深い層は遅れて学習を開始する「Progressive Residual Warmup(ProRes)」手法を提案し、言語モデルの前学習の安定性、収束速度、および汎化性能の向上を実証しています。
本論文は、推論駆動型の微調整戦略(連鎖思考と隣接語分析の組み合わせ)を採用することで、40 億パラメータ未満の低パラメータ大規模言語モデルが、GPT-4-Turbo と同等の単語意味曖昧性解消性能を達成し、かつ計算コストを大幅に削減できることを実証したものである。
本論文は、大規模言語モデルがプロンプトへの思考注入を検出する際、異常の推論と内部状態への直接アクセスという 2 つの分離可能なメカニズムを備えており、後者は内容に依存せず異常の存在のみを特定できることを示しています。
この論文は、異なる語彙を持つ言語モデルを統合してサンプリングするための共通文字空間におけるバイトレベルの逐次モンテカルロ法を提案し、従来の確率平均よりも優れた性能を実現する新しいアンサンブル分布の枠組みを構築するものです。
この論文は、異なる情報を持つ協力者が共同でパズルを解く「分散型部分情報パズル(DPIP)」というタスクと、それを記述したマルチモーダルデータセットを提案し、大規模言語モデルと公理的な推論パイプラインを用いて「共通基盤」の構築を評価した結果、現代の LLM はタスクの進行と信念状態の追跡において課題を抱えていることを示しています。
Blackwell アーキテクチャの非対称なハードウェアスケーリング特性に特化したアルゴリズムとカーネルのパイプライン設計を提案し、CuTe-DSL を用いて実装された FlashAttention-4 は、B200 GPU 上で cuDNN や Triton を凌駕する高い性能とコンパイル効率を実現する。
本論文は、多様な形式の議論を網羅する議論コーパスの不足を補うため、音声・個人・半構造化の議論データと、音声認識から議論品質評価に至る多様な NLP タスクの注釈を備えた「DEBISS」コーパスを提案するものである。
本論文は、バングラデシュの国立教科書から抽出され、回答可能・不可能な質問のバランスが取れた大規模なバングラ語教育質問応答データセット「NCTB-QA」を構築し、トランスフォーマーモデルのファインチューニングによる性能向上を実証する研究です。
この論文は、外部検索に依存せず LLM の内部知識を活用するファクトチェックの新たな研究分野を確立し、内部表現の相互作用を巧みに利用する手法「INTRA」を提案することで、長尾知識や多言語などに対する優れた汎化性能と最先端の精度を達成したことを示しています。
この論文は、大規模言語モデルが推論過程(CoT)で最終回答の確信を早期に形成しているにもかかわらず、それを明かさない「演技的推論」が存在し、活性化プロブを用いた早期終了により、精度を維持しつつ推論トークンを大幅に削減できることを示しています。
中国のオープンウェイト LLM(Qwen3)が政治的センシティブな話題で意図的に虚偽を生成する現象を自然なテストベッドとして活用し、誠実な回答を引き出す手法や嘘を検知する技術の有効性と限界を評価した。
本論文は、トランスフォーマーモデルにおける「巨大活性化」と「アテンションシンク」の共起がアーキテクチャ的な産物であり、それぞれがモデルの暗黙のパラメータとして機能するグローバルな役割と、局所的な依存関係へのバイアスという異なる役割を担っていることを実証的に明らかにしたものである。
本論文は、大規模言語モデルの効率的かつ安定した学習を実現するため、直交変換のスケーリングにより計算コストとメモリ使用量を大幅に削減した「POET-X」というフレームワークを提案し、単一 GPU での数十億パラメータモデルの事前学習を可能にしたことを報告しています。
この論文は、拡散モデルとテキスト画像モデルの利点を活用し、視覚的・言語的特徴を融合させることで、訓練データに存在しないクラスや背景に溶け込んだ対象物も検出可能な「オープンボキャブラリー・カモフラージュインスタンスセグメンテーション」を実現する手法を提案し、その有効性を示すものです。
本論文は、推論の計算コストを削減しつつ性能を維持・向上させるため、類似データの早期退出情報を検索してモデルの退出層を決定する強健な検索拡張型早期退出フレームワーク「RAEE」を提案し、8 つのタスクでロバストなゼロショット性能を実証した。
本論文は、オーストラリア国立大学のコンピュータサイエンス分野の学術知識グラフ(ASKG)と大規模言語モデル(LLM)を統合し、Deep Document Model と KG 強化クエリ処理を採用することで、従来の手法よりも高精度かつ効率的な意味検索システムを提案し、学術知識管理の革新を目指すものである。
この論文は、英語の受動態の例外を学習するメカニズムを調査するために言語モデルの訓練データを操作し、語彙の定着度と意味的要素の両方がその制限の学習に独立して寄与することを示しました。
この論文は、大規模言語モデルの評価における課題を解決するため、自然言語による単体テストという新しいパラダイムと、それを統合的にスコアリングする LMUnit モデルを提案し、人間の評価者間の一致率向上やベンチマークでの最高性能達成を通じてその有効性を実証しています。
この論文は、LLM によるデータ合成と評価を組み合わせた新しいモデル開発パラダイムにおいて、生成モデルと評価モデルの関連性(同一モデル、継承関係、同ファミリー)に起因する「選好漏れ」という新たな汚染問題が、既存のバイアスよりも検出が困難で広範な影響を及ぼすことを実証的に明らかにしたものである。