Measuring the Redundancy of Decoder Layers in SpeechLLMs
本論文は、音声大規模言語モデル(SpeechLLM)のデコーダー層に存在する冗長性が事前学習済み LLM から継承されることを示し、層の剪定と回復分析を通じて、大規模モデルではデコーダー層の 60% 程度でも音声認識タスクを維持でき、さらに音声翻訳など多言語・多タスクにわたって共通の冗長構造が存在することを明らかにした。
1726 件の論文
本論文は、音声大規模言語モデル(SpeechLLM)のデコーダー層に存在する冗長性が事前学習済み LLM から継承されることを示し、層の剪定と回復分析を通じて、大規模モデルではデコーダー層の 60% 程度でも音声認識タスクを維持でき、さらに音声翻訳など多言語・多タスクにわたって共通の冗長構造が存在することを明らかにした。
本論文は、大規模言語モデルの推論能力を活用し、言語と数値入力を融合する二重埋め込み機構と、ハルシネーションを抑制するオフライン強化学習微調整手法「GQPO」を備えた階層型自動入札モデル「LBM」を提案し、動的な広告環境における入札戦略の最適化と汎化性能の向上を実現するものである。
本論文は、トランスフォーマーにおけるアナロジー推論が、類似性と属性の学習順序に依存して特徴の整合性を通じて実現されることを理論的に証明し、実験的に検証した。
本論文は、PRM800K を基に因果性と網羅性の 2 次元を評価対象としたベンチマーク「C2-Faith」を構築し、LLM による推論プロセスの忠実度評価において、タスクの枠組みや評価指標によってモデルの性能が変動し、エラー検出と特定、あるいは網羅性の判定にそれぞれ課題があることを明らかにした。
本論文は、1.58 ビット量子化と半構造化スパース性を組み合わせた「Sparse-BitNet」を提案し、フル精度モデルと比較して高いスパース性を許容し、トレーニングおよび推論の高速化を実現することを示しています。
本ガイドラインは、中国の司法判断における法的議論構造を体系的に記述・可視化するための枠組みを提案し、命題と関係性の分類、形式化ルール、および標準化作業手順を通じて、大規模な司法推論分析や法的議論マイニング研究への基盤を提供するものである。
本論文は、有限状態トランスデューサを用いた決定論的変換を確率的に統合する新しい言語モデルの枠組みを提案し、事前学習済みモデルのパラメータを変更することなく、トークンからバイトや単語、DNA からアミノ酸配列など、アプリケーション固有の出力形式への適応を可能にするアルゴリズムと実験結果を示しています。
拡散 LLM は、本来意味を持たないと考えられていた終端トークン(EoS)の表現を隠れた計算スペースとして利用して「EoS ごとに思考」し、複雑な推論タスクの解決能力を高めることが、行動実験と因果介入によって実証されました。
本論文は、記号論理の幾何学的構造を潜在空間に蒸留する教師あり学習フレームワークを提案し、信号時相論理(STL)の記号カーネルの計算コストを大幅に削減しつつ、意味的類似性や頑健性を忠実に保持する可逆なニューラル表現を実現するものである。
この論文は、疎な知識グラフにおける既存の Leiden クラスタリングの再現性欠如を解決し、k-コア分解に基づく決定論的かつ効率的な階層構造を導入することで、GraphRAG の回答の包括性や多様性を向上させつつトークン使用量を削減する手法を提案しています。
本論文は、ドメイン固有のタスクにおいて推論遅延を削減しつつトークンカバレッジを維持するために、ドラフトモデルの語彙選択を制約付き最適化問題として定式化し、推論スループットを向上させる語彙剪定手法を提案しています。
ベトナムの全 34 省・市から収集された 48,092 件の求人広告を含む大規模データセット「VietJobs」を公開し、自然言語処理および労働市場分析の研究を支援するとともに、求人カテゴリ分類や給与推定といったタスクにおける大規模言語モデルの性能をベンチマークした。
この論文は、バングラデシュの42の少数民族言語(その多くが危機に瀕し計算資源が不足している)を対象に、90 日間の現地調査で収集された約 107 時間の音声データと構造化テキストを含む「マルチリンガル・クラウド・コーパス」を構築し、公開したことを報告するものである。
本論文は、マルチモーダルな皮肉検出における推論の頑健性を向上させるため、教師モデルからの軌道と生成報酬モデルを用いた双トラック蒸留戦略と、GRPO による最適化を組み合わせたポストトレーニングフレームワーク「SarcasmMiner」を提案し、MUStARD++ ベンチマークで既存手法を上回る性能を達成したことを報告するものです。
この論文は、議論するモデル間の知識発散の幾何学的構造(主角度)を定式化することで、AI による議論が単一の RL 手法(RLAIF)に対してどのような条件下で本質的な優位性を発揮するかを厳密に証明し、知識の共有・片側・構成の 3 つの領域における議論の有効性と限界を明らかにした。
本論文は、WavLM の表現を単一のコードブックに量子化・蒸留し、テキスト教師なしで自己回帰的に学習する単一ストリーム音声言語モデル「WavSLM」を提案し、複雑なアーキテクチャやテキスト事前学習なしに、セマンティックと音響情報を統合的にモデル化しながら高品質な音声生成を実現することを示しています。
本論文は、高価な最先端大規模言語モデルに匹敵する性能を持ちながら、合成データを用いた 30 億パラメータの軽量モデル「Med-V1」を開発し、生体医学分野における証拠帰属やハルシネーション検出、臨床ガイドラインの誤引用特定などの実用的タスクを効率的に実行可能にしたことを報告しています。
この論文は、自動音声認識の出力可読性向上のために、1700 万件のサンプルからなる大規模なペルシア語句読点復元データセット「PersianPunc」と、過修正や計算コストの問題を回避しつつ高精度(F1 91.33%)を達成する軽量な BERT ベースのモデルを提案し、両者を公開したものである。
この論文は、民主的な意思決定プロセスへの参加を支援するため、スペイン語、カタルーニャ語、イタリア語の3言語(特にカタルーニャ語では初)で、専門家が作成した高品質な平易化テキストを含む多言語コーパスを構築し、公開することを報告しています。
この論文は、11 種類のモデル統合アルゴリズムを 10 のポルトガル語ドメインで評価し、特異値ブースティングを導入した新手法 BoostedTSV-M を提案することで、フルファインチューニングを上回る性能と分布外汎化能力を単一モデルで実現する ASR におけるモデル統合の可能性と限界を明らかにしています。