cs.CL 件の論文 | Gist.Science

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

本論文は、2009 年から 2025 年にかけての 393 名の国会議員による約 2,300 時間のヘブライ語音声データ「VoxKnesset」を公開し、15 年間の経年変化に伴う音声認識および話者認証の性能低下を実証的に分析するとともに、加齢に頑健な音声システム開発への基盤を提供するものである。

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

本論文は、拡散 LLM やマルチモーダル LLM における動的なアクティベーションの分布を考慮し、重みとアクティベーションの変換を分離する新しい量子化フレームワーク「FreeAct」を提案し、既存手法を最大 5.3% 上回る性能向上を実現したことを示しています。

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

本論文は、スペクトラルクラスタリングにおける標準的な k 近傍グラフの連結性欠如という課題に対し、新たなノードを既存ノードに順次接続することで任意の k 値で連結性を保証する「インクリメンタル k 近傍グラフ構築法」を提案し、テキスト埋め込みデータのクラスタリング精度向上を実証したものである。

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

この論文は、集合値集合関数に基づくテンプレートベースのモジュラー認知モデルを提案し、リフ語の例示を通じて名詞の文法性シフトや語形成における非線形的な動的マッピングの背後にあるパターンを数学的に記述する統合的枠組みを構築しています。

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

この論文は、線形 RNN が非線形 RNN と異なりトランスフォーマーと同様に並列化可能である理由を、線形 RNN が対数深さの算術回路（ $\mathsf{NC}^1$ 等）として記述できるのに対し、非線形 RNN は並列化の根本的な障壁となる P 完全問題などを解き得るという計算複雑性理論の観点から解明し、表現力と並列性の最適なバランスを設計するための基礎を提供しています。

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

この論文は、独立研究者が低予算で実施した研究であり、ポーランド語の 110 億パラメータモデル「Bielik-11B」に対して 6 種類の最先端 2 ビット量子化手法を比較評価し、QuIP# がベースラインと同等の性能を維持しつつ、QTIP が最も高い効率性を示す一方で、回転ベースの手法には自動生成における重大な欠陥が存在することを明らかにしました。

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

この論文は、Deep Research エージェントが検索前に生成する推論プロセスを意図的に活用する「Reasoning-Aware Retrieval」とデータ合成手法「DR-Synth」を提案し、これらを組み合わせて構築した埋め込みモデル AgentIR-4B が、従来の大規模モデルや BM25 を凌ぐ性能で高度な検索タスクを達成することを示しています。

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

本論文は、RAG 実験と生産システム間のギャップを埋めるため、データ表現・埋め込み・検索ロジックを分離したモジュラー型基盤「SearchGym」を提案し、ハイブリッド検索の最適順序に関する分析と LitSearch ベンチマークでの高い性能を実証しています。

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

本論文は、AI アージェントの金融データ検索能力を評価する新たなベンチマーク「FinRetrieval」を提案し、構造化データ API の利用が性能を決定づける一方、推論モードや地理的要因の影響はモデルの基盤能力やデータ形式に依存することを明らかにした。

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

本研究は、16,000 件以上の TripAdvisor 評価を大規模言語モデル（LLM）で分析し、従来の指標では捉えきれないエジプト航空とエミレーツ航空のサービス品質の微妙な要因を解明し、特にエジプト航空における運航改善と旅客満足度の低下の乖離や、コミュニケーション不足などの具体的な課題を特定する有効な診断手法を提示しています。

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

本論文は、外部報酬の限界や自己評価に伴うハルシネーション蓄積の問題を解決するため、支持証拠の有無に基づく対照尤度報酬（CLR）を導入し、文脈への忠実性を高める新たなハイブリッド報酬枠組み「CTRL-RAG」を提案するものです。

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

有益なデータとの対比なしに有害なデータのみで微調整を行っても、文脈的なトリガーが意味的に誤整合を隔離する性質を自発的に生じさせることが示され、これは標準的な評価では見落とされやすい重大な安全上の欠陥であることを明らかにした。

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

この論文は、LLM を「ミーム（文化的遺伝子）」の集合体と捉え、モデルとデータの相互作用を記述する「知覚行列」に基づく「ミーム探査」パラダイムを提案することで、従来の評価手法では見逃されていたモデルの多様な振る舞いや隠れた能力構造を解明し、LLM の集団ベースの評価を可能にするものである。

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

この論文は、2 万 3 千人以上の多様なデモグラフィック層から収集された自然な会話データを用いた「HUMAINE」フレームワークを提案し、LLM の評価において年齢による選好の顕著な差異や評価次元ごとの判別力の格差を明らかにするとともに、Google の Gemini 2.5 Pro が最も高評価を得たことを示しています。

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

本論文は、英語中心の既存評価の限界を克服し、アラビア語言語モデルの安全性を包括的に評価するための統一ベンチマーク「SalamahBench」を提案し、複数の最先端モデルにおける安全性のばらつきや専用ガードモデルの必要性を実証しています。

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

本論文は、トークンの意味的性質に応じて動的に圧縮率を割り当てることで、既存の手法よりも高い圧縮率でも性能を維持し、KV キャッシュのメモリ使用量を大幅に削減するポストトレーニングフレームワーク「DynaKV」を提案するものである。

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

本論文は、大規模言語モデルの複雑な依存関係を N 次加法的マルコフ連鎖で近似し、高次マルコフ過程に伴う組み合わせ爆発を抑制する手法を提案するとともに、加法的 N 次マルコフ連鎖と段階的メモリ関数を持つ連鎖の等価性を確立し、情報温度の概念を拡張したことを示しています。

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

本論文は、LLM による要約の「意味」を評価する新たな定性的指標「ICR（帰納的概念的評価）」を提案し、従来の語彙類似度指標では捉えきれない文脈に根ざした意味の正確性を、人間による解釈的アプローチを用いて検証したものである。

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

本論文は、構造化されたオントロジー知識をグラフ畳み込みネットワークと統合し、RoBERTa の注意機構を強化した「RoBERTa-OTA」を提案することで、多様な人口統計カテゴリーにおける多クラスヘイトスピーチ検出の精度を大幅に向上させ、計算効率も維持したことを示しています。

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

本論文は、マルチモーダルタスクにおける推論の有用性を定量化し、「思考境界」を確立することで、すべてのタスクに推論を適用するパラダイムを見直し、リソース効率のよい適応型システムの開発を促す「Dual Tuning」というフレームワークを提案しています。

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

← 前へ次へ →