VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

本論文は、2009 年から 2025 年にかけての 393 名の国会議員による約 2,300 時間のヘブライ語音声データ「VoxKnesset」を公開し、15 年間の経年変化に伴う音声認識および話者認証の性能低下を実証的に分析するとともに、加齢に頑健な音声システム開発への基盤を提供するものである。

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

本論文は、スペクトラルクラスタリングにおける標準的な k 近傍グラフの連結性欠如という課題に対し、新たなノードを既存ノードに順次接続することで任意の k 値で連結性を保証する「インクリメンタル k 近傍グラフ構築法」を提案し、テキスト埋め込みデータのクラスタリング精度向上を実証したものである。

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

この論文は、線形 RNN が非線形 RNN と異なりトランスフォーマーと同様に並列化可能である理由を、線形 RNN が対数深さの算術回路(NC1\mathsf{NC}^1 等)として記述できるのに対し、非線形 RNN は並列化の根本的な障壁となる P 完全問題などを解き得るという計算複雑性理論の観点から解明し、表現力と並列性の最適なバランスを設計するための基礎を提供しています。

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

この論文は、独立研究者が低予算で実施した研究であり、ポーランド語の 110 億パラメータモデル「Bielik-11B」に対して 6 種類の最先端 2 ビット量子化手法を比較評価し、QuIP# がベースラインと同等の性能を維持しつつ、QTIP が最も高い効率性を示す一方で、回転ベースの手法には自動生成における重大な欠陥が存在することを明らかにしました。

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

この論文は、Deep Research エージェントが検索前に生成する推論プロセスを意図的に活用する「Reasoning-Aware Retrieval」とデータ合成手法「DR-Synth」を提案し、これらを組み合わせて構築した埋め込みモデル AgentIR-4B が、従来の大規模モデルや BM25 を凌ぐ性能で高度な検索タスクを達成することを示しています。

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

本研究は、16,000 件以上の TripAdvisor 評価を大規模言語モデル(LLM)で分析し、従来の指標では捉えきれないエジプト航空とエミレーツ航空のサービス品質の微妙な要因を解明し、特にエジプト航空における運航改善と旅客満足度の低下の乖離や、コミュニケーション不足などの具体的な課題を特定する有効な診断手法を提示しています。

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

この論文は、LLM を「ミーム(文化的遺伝子)」の集合体と捉え、モデルとデータの相互作用を記述する「知覚行列」に基づく「ミーム探査」パラダイムを提案することで、従来の評価手法では見逃されていたモデルの多様な振る舞いや隠れた能力構造を解明し、LLM の集団ベースの評価を可能にするものである。

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

この論文は、2 万 3 千人以上の多様なデモグラフィック層から収集された自然な会話データを用いた「HUMAINE」フレームワークを提案し、LLM の評価において年齢による選好の顕著な差異や評価次元ごとの判別力の格差を明らかにするとともに、Google の Gemini 2.5 Pro が最も高評価を得たことを示しています。

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

本論文は、大規模言語モデルの複雑な依存関係を N 次加法的マルコフ連鎖で近似し、高次マルコフ過程に伴う組み合わせ爆発を抑制する手法を提案するとともに、加法的 N 次マルコフ連鎖と段階的メモリ関数を持つ連鎖の等価性を確立し、情報温度の概念を拡張したことを示しています。

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

本論文は、LLM による要約の「意味」を評価する新たな定性的指標「ICR(帰納的概念的評価)」を提案し、従来の語彙類似度指標では捉えきれない文脈に根ざした意味の正確性を、人間による解釈的アプローチを用いて検証したものである。

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

本論文は、構造化されたオントロジー知識をグラフ畳み込みネットワークと統合し、RoBERTa の注意機構を強化した「RoBERTa-OTA」を提案することで、多様な人口統計カテゴリーにおける多クラスヘイトスピーチ検出の精度を大幅に向上させ、計算効率も維持したことを示しています。

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

本論文は、マルチモーダルタスクにおける推論の有用性を定量化し、「思考境界」を確立することで、すべてのタスクに推論を適用するパラダイムを見直し、リソース効率のよい適応型システムの開発を促す「Dual Tuning」というフレームワークを提案しています。

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs