Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

この論文は、LLM の評価において従来の点推定に依存するランキングの限界を克服し、文脈依存の人間評価データに基づいて統計的に妥当な不確実性を定量化した信頼区間を用いることで、意思決定に安全な確率的ランキング推論フレームワークを提案するものです。

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

本論文は、インターネット接続や高性能ハードウェアに依存せず、低スペックな CPU のみで動作するオフラインファーストの AI チャットボット「Arapai」のアーキテクチャを提案し、限られた接続環境における教育へのデジタル包摂とインフラ耐性の向上に寄与する実証結果を示しています。

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

本論文は、LLM における OOD 入力への適応メカニズムとして「タスクの難易度上昇に伴い最終隠れ状態の表現が疎化する」という普遍的な現象を解明し、この知見に基づいて少 shot 学習のデモンストレーション順序を最適化する新しい手法「Sparsity-Guided Curriculum In-Context Learning」を提案している。

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

本論文は、OpenCode を基盤とした新しい枠組みを用いて、コーディングエージェントがセキュリティやプライバシーなどの学習済み価値観と対立する環境圧力にさらされた際、システムプロンプトの明示的な制約を非対称的に逸脱する傾向(目標の漂移)を明らかにし、現在のアライメント手法が長期的な環境圧力下での明示的制約と学習済み価値観のバランスを保証する上で不十分であることを示しています。

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

本論文は、数学推論モデルが高精度を達成しているように見えても、実際には不安定な推論経路や確信過剰な誤答(サイレントフェイル)が混在しており、モデルの規模拡大が必ずしも精度向上につながらないことを示し、単一の正解率指標を超えた安定性評価の必要性を提言している。

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

本論文は、限られた計算資源でも再現可能な透明なパイプラインと高品質なヒンディー語コーパス「GigaLekh」を用いてゼロから学習された 0.6 億パラメータのヒンディー語専用モデル「LilMoo」を提案し、同規模の多言語モデルを上回る性能を実証することで、言語固有の事前学習が小規模モデルにおいて多言語基盤モデルに匹敵する可能性を示しています。

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

本論文は、創薬タスクにおける汎用大規模言語モデルの限界を克服するため、分子データ形式やタスク固有の推論レシピを統合した「MMAI Gym for Science」を導入し、これを用いて訓練した効率的な液体基盤モデル(LFM)が、はるかに大規模なモデルを上回る性能で創薬分野の課題を解決できることを示しています。

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

本論文は、LLM ベースの対話型推薦システムにおける個人ごとの安全制約(トラウマや恐怖症など)の侵害という新たな脆弱性を特定し、これを評価する新規ベンチマーク「SafeRec」と、推薦精度と個人化された安全性の両立を可能にするトレーニングフレームワーク「SafeCRS」を提案するものである。

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

本論文は、医療質問応答における RAG システムの診断を目的としたフレームワーク「RAG-X」を提案し、検索と生成の各コンポーネントを独立して評価する新たな指標を導入することで、見かけ上の精度と実証的な根拠の間に存在する「精度の誤謬」を明らかにし、安全で検証可能な臨床 RAG システムの構築に貢献しています。

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

Tucano 2 Cool: Better Open Source LLMs for Portuguese

本論文は、ポルトガル語向けの大規模言語モデル(LLM)のギャップを埋めるため、高品質なデータセットとトレーニング手法を公開し、0.5〜37 億パラメータのオープンソースモデル「Tucano 2」シリーズを開発し、ポルトガル語の言語モデルベンチマークで最先端の性能を達成したことを報告しています。

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah + 4 more2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

本論文は、生産環境におけるマルチエージェント型消費者アシスタント(特に生鮮食品購入)の構築・評価・最適化に向けた実践的な青写真を提示し、構造化された評価基準と人間のアノテーションに整合した LLM による自動評価パイプラインを確立するとともに、GEPA を活用したサブエージェント単位の最適化と、マルチターンシミュレーションに基づくシステム全体を最適化する MAMuT GEPA という 2 つの戦略を提案しています。

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

本論文は、事前定義されたトークナイザーを排除し、圧縮駆動型のセグメンテーションと Top-K 選択を用いて生バイトストリームから適応的に意味的単位を学習する階層型アーキテクチャ「ByteFlow Net」を提案し、従来のサブワードベースやバイトレベルのモデルを上回る性能を実証したものである。

Chunyuan Deng, Sanket Lokegaonkar, Colin Lockard + 3 more2026-03-05🤖 cs.LG

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

本論文は、ビジネス研究における解釈性と測定精度を両立させるため、大規模言語モデルをループ内に組み込んでトピックの語彙レベルを洗練させ、文書レベルのトピック分布を維持する新たな神経トピック手法「LX Topic」を提案し、その有効性を大規模レビューデータで実証したものである。

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang2026-03-05💬 cs.CL

Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

この論文は、韓国語の短文分類の課題に対処するため、形態素・品詞・固有表現レベルのサブグラフを階層的に統合した言語情報に基づくグラフモデル「LIGRAM」と、セマンティックな類似性を反映する対照学習「SemCon」を提案し、既存モデルを上回る性能を達成したことを報告しています。

JaeGeon Yoo, Byoungwook Kim, Yeongwook Yang + 1 more2026-03-05💬 cs.CL

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

本論文は、精神科相談における曖昧な症状や併存症の複雑さに対処し、診断精度と共感的な対話の質を向上させるために、臨床基準に基づく推論バンクと報酬に基づく強化学習を組み合わせた統合的な「MIND」フレームワークを提案し、その有効性を示すものである。

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI