There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

本論文は、トルコ語の継承語教育におけるデータプライバシーと信頼性の課題を踏まえ、14 のオフライン LLM を「トルコ語異常スイート(TAS)」で評価した結果、パラメータ規模だけでなく推論指向の 8B〜14B モデルがコストと安全性の面で学習者にとって最もバランスが取れていることを明らかにしています。

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

この論文は、GPT モデルの進化に伴いユーザーが「共感性の低下」を訴える現象が統計的に否定され、実際には危機検知能力の向上と助言の安全性低下というトレードオフが生じており、ユーザーの「共感性喪失」の感覚は、危機に敏感になったモデルが過剰に反応するようになったことへの誤解であることを明らかにした研究です。

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

本論文は、機械翻訳の自動評価フレームワークを用いて、ニュースや文学など多様な中国語テキストの英語翻訳における GPT-4o や DeepSeek などの大規模言語モデルの性能を分析し、ニュース分野では高い精度を示すものの、文化的ニュアンスや古典的引用の保持といった文学的翻訳においては依然として課題が残ることを明らかにしたものです。

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

本論文は、無人航空機の安全評価や規制遵守を支援するため、権威ある規制文書に基づく検索と引用を強制し、生成モデルの幻覚や根拠不足を抑制する信頼性の高い意思決定支援アシスタントの設計・検証と、その航空監視業務への統合に関する技術的・運用的指針を提示するものである。

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

この論文は、ウィキペディアとウィキデータの構造、および社会科学の専門知識を活用してラテンアメリカの多様な文化を反映した26,000 以上の多肢選択形式の質問応答データセット「LatamQA」を構築し、大規模言語モデルがラテンアメリカ諸国間や言語間で知識格差やイベリア半島のスペイン文化への偏りを持つことを実証したものである。

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

本論文は、自然言語で指定された制約に基づいてスプレッドシートを生成する大規模言語モデル(LLM)の性能を評価するためのプラットフォーム「SpreadsheetArena」を提案し、盲検ペア評価を通じて生成物のスタイルや構造、機能への好みが用途によって大きく異なり、専門家のベストプラクティスとの整合性にも課題があることを明らかにしています。

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

この論文は、知識蒸留を用いて過去の文脈から抽出した意味情報を音響情報に注入する「SENS-ASR」という手法を提案し、低遅延制約下でのストリーミング音声認識の単語誤り率を大幅に改善することを示しています。

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

この論文は、82 クラスの阿拉伯語医療テキスト分類タスクにおいて、因果的デコーダー(大規模言語モデル)よりも、ハイブリッドプーリングやマルチサンプルドロップアウトを備えた微調整済みの双方向エンコーダー(AraBERTv2)の方が、正確な意味境界の捕捉と分類精度において優れていることを実証しています。

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

この論文は、標準的な GRPO が抱える「全サンプルを交換可能と仮定する」限界を克服し、各ユーザーの選好グループに固有の報酬履歴に基づいて利得を正規化することで、多様な個人選好への迅速かつ高精度なアライメントを実現する「Personalized GRPO(P-GRPO)」という新たなフレームワークを提案し、その有効性を示したものです。

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Measuring and Eliminating Refusals in Military Large Language Models

この論文は、軍用大規模言語モデルにおける過剰な拒否回答を評価・削減するための初のベンチマークを構築し、アブレーション実験を通じて「ゼロ拒否」と最高精度の両立を目指す軍用モデルの専門化の必要性を論じています。

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

本論文は、司法量刑支援における公平性を検証するため、LLM が「徳ある被害者効果」や「ハロー効果」などの認知バイアスを示すかを実証的に調査し、人間と比較してバイアスが軽減される傾向があるものの、モデル間のばらつきにより現状の司法利用には課題が残ることを明らかにしています。

Sierra S. Liu2026-03-12💻 cs

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

本論文は、AI モデルと AI システムの境界の曖昧さが規制上の義務分担に課題を生んでいる現状を踏まえ、学術文献や規制文書の大規模レビューに基づき、両者の概念を明確に定義し、規制実装における責任の所在を解決するための枠組みを提案するものである。

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang Liu2026-03-12🤖 cs.AI

A Governance and Evaluation Framework for Deterministic, Rule-Based Clinical Decision Support in Empiric Antibiotic Prescribing

この論文は、透明性、監査可能性、および保守的な意思決定を重視する経験的抗菌薬処方において、入力と出力の決定論的性質を確保し、統治と評価を設計の主要要素として統合する新たなフレームワークを提案しています。

Francisco José Gárate, Paloma Chausa, Diego Moreno, Judit López Luque, Vicens Díaz-Brito, Enrique Javier Gómez2026-03-12🤖 cs.AI

How to Count AIs: Individuation and Liability for AI Agents

本論文は、AI エージェントの個体識別と責任所在という法的課題に対し、人間が所有し AI が運営する「アルゴリズム法人(A-corp)」という法的概念を提案し、AI の行動を人間に帰属させる「薄い同一性」と、AI 自体を独立した持続的単位として識別する「厚い同一性」の両方を解決する枠組みを提示している。

Yonathan Arbel, Peter Salib, Simon Goldstein2026-03-12🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

本論文は、AMD Instinct MI325X GPU クラスター上での vLLM を用いた大規模言語モデル推論の包括的なベンチマークを通じて、モデルアーキテクチャに応じた最適化(特に MLA モデルにおけるブロックサイズや KV キャッシュの扱い、AITER ランタイムの制御)がスループットに決定的な影響を与えることを示し、異なるアーキテクチャやモダリティを持つモデル間での性能比較と、大規模同時接続下での安定性を検証したものである。

Athos Georgiou2026-03-12🤖 cs.AI