The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?
この論文は、大学院レベルの数学および計算数学の推論能力を評価するために、教授陣が新規作成した 1,500 問の多肢選択形式ベンチマーク「CompMath-MCQ」を提案し、最先端の LLM にとって高度な計算数学的推論が依然として大きな課題であることを示しています。
1861 件の論文
この論文は、大学院レベルの数学および計算数学の推論能力を評価するために、教授陣が新規作成した 1,500 問の多肢選択形式ベンチマーク「CompMath-MCQ」を提案し、最先端の LLM にとって高度な計算数学的推論が依然として大きな課題であることを示しています。
この論文は、大規模言語モデルの多様な能力がトランスフォーマーアーキテクチャ内の少数の注意ヘッドに局在化しており、圧縮センシングに基づく手法を用いて効率的に特定できることを示し、モデルの解釈性や安全性への新たな洞察を提供するものである。
この論文は、LLM の評価において従来の点推定に依存するランキングの限界を克服し、文脈依存の人間評価データに基づいて統計的に妥当な不確実性を定量化した信頼区間を用いることで、意思決定に安全な確率的ランキング推論フレームワークを提案するものです。
本論文は、インターネット接続や高性能ハードウェアに依存せず、低スペックな CPU のみで動作するオフラインファーストの AI チャットボット「Arapai」のアーキテクチャを提案し、限られた接続環境における教育へのデジタル包摂とインフラ耐性の向上に寄与する実証結果を示しています。
本論文は、因果的およびプローブに基づく解釈可能性手法を用いて大規模言語モデル内の薬物群知識の符号化メカニズムを初めて体系的に分析し、その意味情報が単一のトークンではなく分散された表現として早期層に存在することを明らかにした。
本論文は、LLM における OOD 入力への適応メカニズムとして「タスクの難易度上昇に伴い最終隠れ状態の表現が疎化する」という普遍的な現象を解明し、この知見に基づいて少 shot 学習のデモンストレーション順序を最適化する新しい手法「Sparsity-Guided Curriculum In-Context Learning」を提案している。
本論文は、OpenCode を基盤とした新しい枠組みを用いて、コーディングエージェントがセキュリティやプライバシーなどの学習済み価値観と対立する環境圧力にさらされた際、システムプロンプトの明示的な制約を非対称的に逸脱する傾向(目標の漂移)を明らかにし、現在のアライメント手法が長期的な環境圧力下での明示的制約と学習済み価値観のバランスを保証する上で不十分であることを示しています。
本論文は、トランスフォーマーの MLP 層における非線形性が文脈に依存して不要な場合が多く、動的なゲート機構や層の線形化により、計算コストを大幅に削減しつつ性能を向上または維持できることを示しています。
本論文は、数学推論モデルが高精度を達成しているように見えても、実際には不安定な推論経路や確信過剰な誤答(サイレントフェイル)が混在しており、モデルの規模拡大が必ずしも精度向上につながらないことを示し、単一の正解率指標を超えた安定性評価の必要性を提言している。
本論文は、限られた計算資源でも再現可能な透明なパイプラインと高品質なヒンディー語コーパス「GigaLekh」を用いてゼロから学習された 0.6 億パラメータのヒンディー語専用モデル「LilMoo」を提案し、同規模の多言語モデルを上回る性能を実証することで、言語固有の事前学習が小規模モデルにおいて多言語基盤モデルに匹敵する可能性を示しています。
本論文は、創薬タスクにおける汎用大規模言語モデルの限界を克服するため、分子データ形式やタスク固有の推論レシピを統合した「MMAI Gym for Science」を導入し、これを用いて訓練した効率的な液体基盤モデル(LFM)が、はるかに大規模なモデルを上回る性能で創薬分野の課題を解決できることを示しています。
本論文は、LLM ベースの対話型推薦システムにおける個人ごとの安全制約(トラウマや恐怖症など)の侵害という新たな脆弱性を特定し、これを評価する新規ベンチマーク「SafeRec」と、推薦精度と個人化された安全性の両立を可能にするトレーニングフレームワーク「SafeCRS」を提案するものである。
本論文は、医療質問応答における RAG システムの診断を目的としたフレームワーク「RAG-X」を提案し、検索と生成の各コンポーネントを独立して評価する新たな指標を導入することで、見かけ上の精度と実証的な根拠の間に存在する「精度の誤謬」を明らかにし、安全で検証可能な臨床 RAG システムの構築に貢献しています。
本論文は、ポルトガル語向けの大規模言語モデル(LLM)のギャップを埋めるため、高品質なデータセットとトレーニング手法を公開し、0.5〜37 億パラメータのオープンソースモデル「Tucano 2」シリーズを開発し、ポルトガル語の言語モデルベンチマークで最先端の性能を達成したことを報告しています。
本論文は、生産環境におけるマルチエージェント型消費者アシスタント(特に生鮮食品購入)の構築・評価・最適化に向けた実践的な青写真を提示し、構造化された評価基準と人間のアノテーションに整合した LLM による自動評価パイプラインを確立するとともに、GEPA を活用したサブエージェント単位の最適化と、マルチターンシミュレーションに基づくシステム全体を最適化する MAMuT GEPA という 2 つの戦略を提案しています。
本論文は、事前定義されたトークナイザーを排除し、圧縮駆動型のセグメンテーションと Top-K 選択を用いて生バイトストリームから適応的に意味的単位を学習する階層型アーキテクチャ「ByteFlow Net」を提案し、従来のサブワードベースやバイトレベルのモデルを上回る性能を実証したものである。
この論文は、心理学に基づいた信念プロファイルを用いたシミュレーションフレームワーク「BeliefSim」を提案し、LLM が信念を主要な要因として人口統計グループごとの誤情報への感受性を最大 92% の精度でシミュレートできることを示しています。
本論文は、ビジネス研究における解釈性と測定精度を両立させるため、大規模言語モデルをループ内に組み込んでトピックの語彙レベルを洗練させ、文書レベルのトピック分布を維持する新たな神経トピック手法「LX Topic」を提案し、その有効性を大規模レビューデータで実証したものである。
この論文は、韓国語の短文分類の課題に対処するため、形態素・品詞・固有表現レベルのサブグラフを階層的に統合した言語情報に基づくグラフモデル「LIGRAM」と、セマンティックな類似性を反映する対照学習「SemCon」を提案し、既存モデルを上回る性能を達成したことを報告しています。
本論文は、精神科相談における曖昧な症状や併存症の複雑さに対処し、診断精度と共感的な対話の質を向上させるために、臨床基準に基づく推論バンクと報酬に基づく強化学習を組み合わせた統合的な「MIND」フレームワークを提案し、その有効性を示すものである。