There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective
本論文は、トルコ語の継承語教育におけるデータプライバシーと信頼性の課題を踏まえ、14 のオフライン LLM を「トルコ語異常スイート(TAS)」で評価した結果、パラメータ規模だけでなく推論指向の 8B〜14B モデルがコストと安全性の面で学習者にとって最もバランスが取れていることを明らかにしています。
3862 件の論文
本論文は、トルコ語の継承語教育におけるデータプライバシーと信頼性の課題を踏まえ、14 のオフライン LLM を「トルコ語異常スイート(TAS)」で評価した結果、パラメータ規模だけでなく推論指向の 8B〜14B モデルがコストと安全性の面で学習者にとって最もバランスが取れていることを明らかにしています。
この論文は、GPT モデルの進化に伴いユーザーが「共感性の低下」を訴える現象が統計的に否定され、実際には危機検知能力の向上と助言の安全性低下というトレードオフが生じており、ユーザーの「共感性喪失」の感覚は、危機に敏感になったモデルが過剰に反応するようになったことへの誤解であることを明らかにした研究です。
本論文は、機械翻訳の自動評価フレームワークを用いて、ニュースや文学など多様な中国語テキストの英語翻訳における GPT-4o や DeepSeek などの大規模言語モデルの性能を分析し、ニュース分野では高い精度を示すものの、文化的ニュアンスや古典的引用の保持といった文学的翻訳においては依然として課題が残ることを明らかにしたものです。
本論文は、無人航空機の安全評価や規制遵守を支援するため、権威ある規制文書に基づく検索と引用を強制し、生成モデルの幻覚や根拠不足を抑制する信頼性の高い意思決定支援アシスタントの設計・検証と、その航空監視業務への統合に関する技術的・運用的指針を提示するものである。
この論文は、ウィキペディアとウィキデータの構造、および社会科学の専門知識を活用してラテンアメリカの多様な文化を反映した26,000 以上の多肢選択形式の質問応答データセット「LatamQA」を構築し、大規模言語モデルがラテンアメリカ諸国間や言語間で知識格差やイベリア半島のスペイン文化への偏りを持つことを実証したものである。
本論文は、自然言語で指定された制約に基づいてスプレッドシートを生成する大規模言語モデル(LLM)の性能を評価するためのプラットフォーム「SpreadsheetArena」を提案し、盲検ペア評価を通じて生成物のスタイルや構造、機能への好みが用途によって大きく異なり、専門家のベストプラクティスとの整合性にも課題があることを明らかにしています。
この論文は、知識蒸留を用いて過去の文脈から抽出した意味情報を音響情報に注入する「SENS-ASR」という手法を提案し、低遅延制約下でのストリーミング音声認識の単語誤り率を大幅に改善することを示しています。
この論文は、82 クラスの阿拉伯語医療テキスト分類タスクにおいて、因果的デコーダー(大規模言語モデル)よりも、ハイブリッドプーリングやマルチサンプルドロップアウトを備えた微調整済みの双方向エンコーダー(AraBERTv2)の方が、正確な意味境界の捕捉と分類精度において優れていることを実証しています。
この論文は、標準的な GRPO が抱える「全サンプルを交換可能と仮定する」限界を克服し、各ユーザーの選好グループに固有の報酬履歴に基づいて利得を正規化することで、多様な個人選好への迅速かつ高精度なアライメントを実現する「Personalized GRPO(P-GRPO)」という新たなフレームワークを提案し、その有効性を示したものです。
この論文は、水平・垂直・メタ拡張という 3 つの戦略を用いてターゲットモデルを突破する多モーダルな敵対的会話を生成する自動化されたレッドチームングフレームワーク「FERRET」を提案し、既存の手法よりも優れた性能を実証しています。
この論文は、軍用大規模言語モデルにおける過剰な拒否回答を評価・削減するための初のベンチマークを構築し、アブレーション実験を通じて「ゼロ拒否」と最高精度の両立を目指す軍用モデルの専門化の必要性を論じています。
本論文は、司法量刑支援における公平性を検証するため、LLM が「徳ある被害者効果」や「ハロー効果」などの認知バイアスを示すかを実証的に調査し、人間と比較してバイアスが軽減される傾向があるものの、モデル間のばらつきにより現状の司法利用には課題が残ることを明らかにしています。
この論文は、大規模言語モデル(LLM)がユーザーの意見に与える影響を、民主的な審議プロセスに基づく規範的な基準「DeliberationBench」を用いて評価し、実験を通じてその影響が広範に認識論的に望ましい方向に働いていることを示しました。
この論文は、AI が神聖な存在として扱われる「GPTheology(大規模言語モデル神学)」という新たな技術宗教の台頭を、オンラインコミュニティの議論や世界各地の具体事例を通じて分析し、AI と宗教の交錯がもたらす哲学的・社会的・倫理的な課題を浮き彫りにしています。
本論文は、AI モデルと AI システムの境界の曖昧さが規制上の義務分担に課題を生んでいる現状を踏まえ、学術文献や規制文書の大規模レビューに基づき、両者の概念を明確に定義し、規制実装における責任の所在を解決するための枠組みを提案するものである。
本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。
この論文は、透明性、監査可能性、および保守的な意思決定を重視する経験的抗菌薬処方において、入力と出力の決定論的性質を確保し、統治と評価を設計の主要要素として統合する新たなフレームワークを提案しています。
本論文は、AI エージェントの個体識別と責任所在という法的課題に対し、人間が所有し AI が運営する「アルゴリズム法人(A-corp)」という法的概念を提案し、AI の行動を人間に帰属させる「薄い同一性」と、AI 自体を独立した持続的単位として識別する「厚い同一性」の両方を解決する枠組みを提示している。
本論文は、AI 転送ライブラリが前提とするバッファ管理の欠落層を明確化し、DMA 転送、RDMA、NUMA 意識割り当て、GPU メモリ統合などを統合した Linux カーネルモジュール「dmaplane」を提案し、分散推論を含む高効率なデータパスの構築を実証するものである。
本論文は、AMD Instinct MI325X GPU クラスター上での vLLM を用いた大規模言語モデル推論の包括的なベンチマークを通じて、モデルアーキテクチャに応じた最適化(特に MLA モデルにおけるブロックサイズや KV キャッシュの扱い、AITER ランタイムの制御)がスループットに決定的な影響を与えることを示し、異なるアーキテクチャやモダリティを持つモデル間での性能比較と、大規模同時接続下での安定性を検証したものである。