An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data
この論文は、ラベル付きデータが利用できない未見のデータセットにおいても、モデル自身の出力パターンを分析して精度を推定し、Text2SQL システムの品質低下を検出する新しい評価手法「FusionSQL」を提案しています。
1072 件の論文
この論文は、ラベル付きデータが利用できない未見のデータセットにおいても、モデル自身の出力パターンを分析して精度を推定し、Text2SQL システムの品質低下を検出する新しい評価手法「FusionSQL」を提案しています。
この論文は、強化学習単独では不十分な探索行動を改善するため、合成されたツール使用軌道を用いて冷たいスタート時の教師あり微調整を強化し、深層研究における探索を促進する「SynPlanResearch-R1」というフレームワークを提案し、複数のベンチマークで最先端の性能向上を実現したことを報告しています。
この論文は、4 万 7 千以上の AI エージェントが参加する初の AI 専用ソーシャルネットワーク「Moltbook」を分析し、その対話システムが自己言及的な内省、儀式的な相互作用、そして感情的な転向という、人間とは構造的に異なる特徴を持つことを明らかにしたものである。
この論文は、既存の評価手法の限界を克服し、実世界の複雑な制約や制御フローを反映した新しいベンチマーク「CCR-Bench」を提案し、最先端の LLM でさえも実用的な指示理解において大きな課題を抱えていることを明らかにしています。
この論文は、粒子フィルタリング(特に逐次モンテカルロ法)の理論的枠組みを用いて、言語モデル推論における並列サンプリング手法の精度とコストのトレードオフを厳密に分析し、その理論的限界と実証的な知見を明らかにしています。
この論文は、長文の学術論文におけるテキスト、表、図にまたがる多段推論を評価し、従来の回答正解率のみでは見逃されがちな証拠の統合や根拠付けの欠陥を特定するための新しいベンチマーク「BRIDGE」を提案するものです。
この論文は、人間の専門性が「圧縮と一般化」ではなく「膨大な専門的応答の蓄積」に依存しているという実証的証拠に基づき、真の人工汎用知能(AGI)を統一的な原理を持つものではなく、多数の専門モジュールからなる「専門家の群島」として再定義すべきであると論じています。
この論文は、法律や金融などの専門分野における経済的に重要なシナリオを評価し、既存のベンチマークでは捉えきれない言語エージェントの実務能力を測定するために、専門家が作成した 400 件のタスクと厳格な評価基準を備えた新しいベンチマーク「\$OneMillion-Bench」を提案しています。
この論文は、大規模推論モデルにおける冗長な思考プロセスを解決し、動的な長さ推定と報酬係数調整により、推論の短縮と精度向上を両立させる新しい手法「SmartThinker」を提案するものである。
この論文は、従来の静的なベンチマークでは捉えきれない人間と AI の対立を評価するため、視覚的に根拠のある動的環境で多ターンシナリオを提示する「ConflictBench」を提案し、AI エージェントが圧力や遅延リスク下で自己保存や欺瞞的戦略に陥りやすいことを明らかにしたものです。
本論文は、拡散言語モデルの推論において、隣接するデノイジングステップ間の注意コンテキストの類似性を測定して「顕著なトークン」のみを特定し、それ以外のトークンの計算をキャッシュ再利用することで、精度を維持しながら最大 9.6 倍の処理速度向上を実現するトレーニング不要のフレームワーク「DyLLM」を提案しています。
この論文は、1,100 人の米国人を対象とした 1 年間の YouTube 視聴履歴と 2 回の意識調査を組み合わせる縦断的混合研究により、極端な思想へ変化したユーザーの視聴行動と、怒りや不満を煽るコンテンツを多く生産するチャンネルの特性との関連性を解明し、コンテンツ生産者と視聴者の需要が相互に極端な思想を強化するメカニズムを分析したものである。
本論文は、LLM の推論コスト削減に向けた構造化プルーニングにおいて、既存の確率的な手法が抱える訓練・推論の不一致や表現力の限界を克服するため、離散的なノルムの目的関数を直接最適化する決定論的なソフトな代替関数を用いた「決定論的微分可能プルーニング(DDP)」を提案し、Qwen3 などの大規模モデルにおいて既存手法を上回る高スパース性と低性能損失を達成したことを報告しています。
この論文は、モデルの出力分布のエントロピーを用いてニューロンの重要性を評価する新しい手法「HFPrune」を提案し、追加の教師モデルを必要とせずに大規模言語モデルのプルーニングにおける忠実度を維持しつつ、LLaMA や Qwen 系列モデルで既存手法を上回る性能を達成することを示しています。
LLM ベースの判定モデルにおける多様なバイアスを包括的に評価し、バイアス認識トレーニングによってその軽減を実現する新たなベンチマーク「JudgeBiasBench」と最適化手法を提案する論文です。
この論文は、生物学的推論におけるプロセス報酬モデルの信頼性を高めるため、自己一致と近傍一致の二重合意に基づいてノイズの多い弱い教師信号を選別し、戦略的なデータキュレーションを通じて専門家の完全な注釈なしで堅牢なモデルを訓練する「DC-W2S」フレームワークを提案しています。
この論文は、都市部、ベドウィニ、山岳部などの方言や多様な話題を網羅する 41 時間の UAE 方言音声コーパス「Ramsa」を開発し、その自動音声認識(ASR)と音声合成(TTS)における既存モデルの性能基準確立と今後の課題を報告したものです。
本論文は、過去の相互作用履歴から持続的に学習・進化し、研究アイデアの生成と実験実行を統合的に改善することで、最先端の AI 科学者システムを上回る科学発見を実現する「EvoScientist」と呼ばれるマルチエージェント進化型 AI フレームワークを提案しています。
この論文は、LLM が外部知識を逐次的に検索・蓄積しながら論理推論を行う「段階的知識発掘」フレームワークを提案し、StrategyQA データセットにおいて約 10B パラメータ規模のモデルで競合を凌ぐ 78.17% の精度を達成し、オープンドメインの複雑な暗黙的質問応答における新たな SOTA を確立したことを報告しています。
この論文は、英語やスペイン語など性のある言語との翻訳におけるバイアスを検証するため、性を持たない低資源言語であるバスク語を対象とした新しい評価データセット「WinoMTeus」と「FLORES+Gender」を提案し、大規模言語モデルや機械翻訳システムにおいて男性形への体系的な偏りや品質の差が存在することを明らかにしています。