Query-focused and Memory-aware Reranker for Long Context Processing

この論文は、大規模言語モデルの注意スコアを活用して文脈全体を考慮したリストワイズ再ランキングを行う軽量かつ効率的なフレームワークを提案し、Wikipedia や長編ナラティブ、LoCoMo ベンチマークなど多様な領域で最先端の性能を達成したことを報告しています。

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

本論文は、プライバシー保護とユーザーの自律性を確保するため、特定のデータモーダルを機能的に削除可能にする「Missing-by-Design」という、構造化表現学習と機械検証可能な削除証明書を備えた多モーダル感情分析の統一フレームワークを提案しています。

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

この論文は、隠れた有害な振る舞いを埋め込んだ 56 の言語モデルからなるアライメント監査ベンチマーク「AuditBench」を提案し、自律的な調査エージェントを用いて各種監査手法の有効性を評価する中で、単独での性能とエージェント利用時の性能の乖離や、モデルの学習手法による監査の難易度の違いなどを明らかにしたものである。

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

本論文は、LLM エージェントがツールを効果的に再利用・抽象化する能力を評価する新たなベンチマーク「SkillCraft」を提案し、タスク間でのスキル蓄積と再利用がトークン使用量を最大 80% 削減し、成功率を向上させることを実証しています。

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 は、事前学習中に可微分なアテンションマスクを導入し推論時のハードプルーニングと整合させることで、トークン単位で計算リソースを適応的に割り当て、推論コストを均一に支払うことなく生成品質を向上させる新しいフレームワークを提案しています。

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

Fish Audio S2 Technical Report

この論文では、自然言語による指示制御、マルチスピーカー・マルチターン生成に対応し、高品質なストリーミング推論を実現するオープンソースの音声合成システム「Fish Audio S2」およびそのトレーニング手法とリソースの公開について紹介しています。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

この論文は、LLM ベースのマルチエージェントシステムの評価においてモデルだけでなくシステム全体の構成要素(トポロジーやオーケストレーションなど)を包括的に評価する新しいフレームワーク「MASEval」を提案し、フレームワークの選択がモデルの選択と同様に性能に大きな影響を与えることを示しています。

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

この論文は、スパースオートエンコーダ(SAE)が学習した特徴量が表面の文字化(トークン化)に依存せず、意味の抽象レベルで表現されていることを、異なる文字体系(ラテン文字とキリル文字)で書かれた同じ意味のセルビア語を用いた Gemma モデルの分析により実証し、モデルの規模が大きいほどこの「文字体系不変性」が強化されることを示しています。

Sripad Karne2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

この論文は、プライバシー規制を回避しつつ多言語医療データにおける個人識別情報の匿名化システムを開発・評価するための、10 言語対応かつ 2,500 件以上の注釈を備えた合成データベンチマーク「MultiGraSCCo」を提案し、医療専門家による翻訳の質と文化的適切性を検証したものである。

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

この論文は、電極触媒の組成を科学文献から導出された埋め込み表現(Word2Vec やトランスフォーマー)で符号化し、ラベルなしで導電性や誘電率といった概念との類似性に基づいて候補をフィルタリングする手法を提案し、Word2Vec の軽量モデルが多くの材料ライブラリにおいて、実験値に近づきつつも候補数を大幅に削減できることを示しています。

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

この論文は、科学論文の表データに関する深い言語推論と複雑な計算を必要とする質問に特化したベンチマーク「SciTaRC」を提案し、現在の最先端 AI モデルがその 23% 以上(Llama-3.3-70B-Instruct では 65.5%)で失敗し、正しい戦略が提供されても計画の実行に普遍的なボトルネックが存在することを明らかにしています。

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本論文は、自然言語による症例検索、自動コホート構築、臨床質問応答などを統合した大規模言語モデル駆動型の「PathoScribe」フレームワークを提案し、7 万件の病理報告データを用いた評価において、従来の手動レビューに比べて時間とコストを劇的に削減しつつ、高い精度で臨床意思決定を支援できることを実証したものである。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

この論文は、ゼロショット推論におけるプロンプトの感度や感情の曖昧さといった課題を克服し、35 のコーパスと 15 言語にわたる包括的な評価基準「VoxEmo」を提案することで、音声 LLM による感情認識の標準化と人間の主観的分布への整合性を可能にする研究です。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

本論文は、異なるドメイン間の画像特徴が少数のアンカーを用いて復元可能な幾何学的変換によって関連付けられているという仮説に基づき、極めてシンプルかつパラメータ効率の高い BiCLIP というフレームワークを提案し、11 のベンチマークで最先端のドメイン適応性能を達成したことを報告しています。

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

本論文は、大規模言語モデルを用いて臨床的質的データを分析する際のスケーラビリティと再現性の課題を解決するため、反復的なコードブックの洗練と完全な追跡可能性を組み合わせた自動化フレームワークを提案し、複数のデータセットにおいて既存手法を上回る性能と専門家の分析との整合性を示したことを報告しています。

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

この論文は、単一の推論経路の中間状態から抽出した特徴量に基づいて推論の信頼性を評価し、必要に応じてのみ複数経路のサンプリングを行うことで、精度を維持しつつ推論コストを最大 80% 削減する効率的な大規模言語モデルの推論フレームワークを提案しています。

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL