Interactive Benchmarks

この論文は、飽和や主観性などの問題を抱える従来のベンチマークに代わり、予算制約下での対話的プロセスを通じてモデルの推論能力を評価する「Interactive Benchmarks」という新たな枠組みを提案し、論理・数学の証明や戦略的ゲームにおける実験を通じて、対話的シナリオにおけるモデルの知能評価の重要性と改善余地を明らかにしています。

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

この論文は、統計的データ分布情報を関数メタデータと融合させる軽量な検索モデル「DARE」と大規模な R パッケージ知識ベース「RPKB」を提案し、R 生態系における LLM エージェントのコード生成精度と統計分析タスクの成功率を大幅に向上させることを示しています。

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

本論文は、単一の LLM レイヤーを圧縮器とデコーダーとしてスタックし、マルチスケールの自己注入と木構造に基づく効率的な情報取得を実現することで、8K トークンの学習データから 128K トークンを超える長文脈を高精度かつ高効率に処理する新たなフレームワーク「SharedLLM」を提案しています。

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

本論文は、マルチモーダル大規模言語モデルを汎用埋め込みモデルへ適応させる際に生じるタスク間の競合を、専門家の混合(MoE)と低ランク適応(LoRA)の組み合わせ、および専門家の活性化パターンを利用した新しい負のサンプリング手法(EANS)によって解決し、MMEB ベンチマークおよび実世界の産業データセットにおいて最先端の性能を達成する TSEmbed というフレームワークを提案しています。

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

本論文は、エッジデバイスで生画像を数学的に不可逆な抽象特徴ベクトルに変換し、クラウドで動的輪郭言語を用いて行動認識と意味的再構成を行う「AI Flow」パラダイムに基づく新たなプライバシー保護知覚フレームワーク「Privacy-Aware Camera 2.0」を提案し、プライバシー保護と証拠能力の両立を実現するものである。

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

本論文は、LLM が多ターン対話で過去の推論に固執する「文脈的慣性」の問題を、単一ターンでの優れた推論能力を報酬の基準(アンカー)として活用する強化学習手法「RLSTA」により解決し、外部検証器なしでも安定した対話と分野横断的な汎化性能を実現することを提案しています。

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

本論文は、大規模言語モデル(LLM)を用いた意味フィルタリングにおける逐次評価の非効率性を克服するため、クラスタリング・サンプリング・投票(CSV)という新しいフレームワークを提案し、LLM 呼び出し回数を部分線形に削減しながら高い精度を維持する手法を確立したものである。

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

本論文は、長文脈 LLM と Mem0 などの事実ベースの記憶システムを比較し、長文脈モデルは事実想起で優位だが、記憶システムはペルソナ一貫性で競争力があり、かつ対話回数が一定を超えるとコスト面で優位になるという精度とコストのトレードオフを明らかにした。

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

本論文は、890 の研究結果をメタ分析し、自動短回答採点における LLM の限界(難易度との非相関、デコーダ型とエンコーダ型の性能差、トークナイザーの限界、および教育現場における人種的バイアスなど)を明らかにし、より適切なシステム設計の必要性を提言するものである。

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

本論文は、LLM の学習過程における「未知から既知」への遷移に伴う勾配挙動の系統的差異に着目し、FFN や Attention モジュールにおける勾配プロファイルに基づく軽量分類器「GDS」を提案することで、既存手法の限界を克服し、高い転移性と性能を実現する事前学習データ検出手法を開発した。

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

この論文は、発話生成における脳、筋肉、および構音器官の動きを同時に捉えるため、リアルタイム MRI、EEG、表面筋電図の同時取得と、それらの相互干渉を抑制する新しいアーチファクト除去パイプラインを提案するものである。

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

この論文は、スリランカの立法文書(1981 年から 2014 年の法律と法案)から約 200 万語を収集・精製し、情報抽出や要約などの自然言語処理タスクを支援するための大規模なシナ語専門コーパス「SinhaLegal」を提案し、その統計的特性や言語モデルへの適合性を評価したものである。

Minduli Lasandi, Nevidu Jayatilleke2026-03-06💬 cs.CL

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

本論文は、チャットアシスタント向けではなく企業や API 駆動型のアプリケーションにおける厳格な指示遂行能力を評価するため、実世界のユースケースに基づいた新しいベンチマーク「FireBench」を提案し、11 種類の LLM に対する評価結果を報告するものである。

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Free Lunch for Pass@kk? Low Cost Diverse Sampling for Diffusion Language Models

この論文は、拡散言語モデルのサンプリング過程に既存のサンプルから特徴空間を反発させるような軽量な介入を導入することで、再学習やビームサーチを必要とせず、計算コストをほとんど増やさずに多様性を高め、Pass@kk性能を向上させる手法を提案しています。

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

本論文は、シュワルツの価値理論に基づく定性分析タスクにおいて、LLM が集合的な指標では人間に匹敵する精度を示す一方で、価値の厳密な順位付けや専門家の不確実性パターンとの整合性において課題を抱えており、Qwen モデルやアンサンブル手法が最も有望であることを示した研究である。

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL