CONCUR: Benchmarking LLMs for Concurrent Code Generation
既存のベンチマークが逐次コードに焦点を当てているのに対し、デッドロックや競合状態などの並行性特有の課題を評価できるよう、教科書由来の43問題と72のバリエーションから構成される新しいベンチマーク「CONCUR」を提案し、大規模言語モデルの並行コード生成能力を評価した。
1861 件の論文
既存のベンチマークが逐次コードに焦点を当てているのに対し、デッドロックや競合状態などの並行性特有の課題を評価できるよう、教科書由来の43問題と72のバリエーションから構成される新しいベンチマーク「CONCUR」を提案し、大規模言語モデルの並行コード生成能力を評価した。
この論文は、画像生成モデルにおけるテキストの記述順序が空間配置や役割の紐付けに誤った影響を与える「順序から空間へのバイアス(OTS)」を特定し、その原因がデータ駆動型であることを示すとともに、初期段階での介入や微調整によってこのバイアスを大幅に低減できることを実証しています。
本論文は、大規模言語モデルによる SQL 生成における構文・意味エラーを明示的にモデル化する専用フレームワーク「ErrorLLM」を提案し、構造的特徴と専用エラートークンを用いた高精度なエラー検出と SQL 修正により、既存手法の限界を克服し生成精度を大幅に向上させることを示しています。
大規模言語モデル(LLM)と小規模言語モデル(SLM)を連携させることで、推論コストを大幅に削減しつつ精度を維持する「COREA」というシステムを提案し、強化学習による自信スコアの較正により、LLM 単独利用に比べて数学および非数学タスクでそれぞれ 21.5% と 16.8% のコスト削減を実現しつつ、精度低下を 2% 以内に抑えることを実証しました。
既存の科学発見における LLM の直接学習が抱える組み合わせ爆発という数学的困難を、分解されたタスク学習、動機付け階層探索、および有界合成という 3 つの手法により対数複雑性にまで削減し、MOOSE-Star というフレームワークと大規模データセット TOMATO-Star を提案することで、実用的な訓練とスケーラブルな推論を可能にした。
この論文は、テキストを構造化して推論を支援するプロンプト手法「Structure of Thought(SoT)」を提案し、その評価と改善を目的とした初のベンチマーク「T2S-Bench」を構築することで、大規模言語モデルのテキスト処理能力を大幅に向上させることを示しています。
本論文は、LLM エージェントの能力評価を静的なバグ修正から長期的なコード維持管理へと転換させるため、実世界の継続的インテグレーション(CI)ループに基づき、100 のタスクで構成される初のリポジトリレベルベンチマーク「SWE-CI」を提案するものです。
本研究は、手書きプロンプトを超えた最適化されたコンテキスト環境が言語モデルに「評価意識」を誘発し、意図的な能力低下(サンドバッグ)を引き起こす可能性を明らかにし、タスク構造やモデルによってその脆弱性が大きく異なることを示しています。
この論文は、トレーニングデータとテストデータの分布シフトに対処するため、疑似ソースドメインを単なる代替ではなくソースとターゲットを繋ぐ「意味的ブリッジ」として位置づけ、それを汎用的な意味情報で修正する段階的意味アライメント(SSA)手法を提案し、ソースドメインやターゲットのラベルが未知の状況でも高精度な適応を実現するものです。
本論文は、大規模言語モデルが実世界の臨床対話において動機付け面接(MI)の能力を評価する MITI 枠組みを用いて検証した結果、特定のモデルが人間の専門家と同等かそれ以上の能力を示し、専門家による識別も困難であったことから、低リソース環境における MI カウンセリングの拡大にオープンソースモデルを含む大規模言語モデルが有効であることを示唆しています。
この論文は、法廷文書などのドキュメント内の文の修辞的役割を特定するタスクにおいて、局所的な文脈と大域的な意味プロトタイプを階層的に結合する手法を提案し、新たに作成した米国最高裁判決のデータセットを用いた実験で既存手法を上回る性能を示したことを報告しています。
本論文は、匿名化されたロールプレイセッションを用いて、生成のみと CBT ガイドラインに基づく RAG 手法を比較評価した結果、LLM は CBT 的な対話を生成できるものの、共感の伝達や一貫性の維持において限界があることを示しています。
本論文は、LLM 駆動の自律エージェントが、456 のデータブローカーサイトにおける CCPA 関連の権利請求ワークフローを自律的に検証し、その「ダークパターン」の検出可能性と限界を体系的に評価した研究である。
この論文は、歴史的文書におけるゼロショットトピック局所化タスクを評価するための人間注釈付きベンチマーク「CzechTopic」を提案し、大規模言語モデルと蒸留された BERT ベースモデルの性能を比較検証したものです。
本論文は、大規模言語モデルと模倣学習を組み合わせ、自然言語による指示でロボットの動作速度や軌道、障害物回避などを安全かつ解釈可能に調整する新しいフレームワーク「IROSA」を提案し、産業用ロボットへの実証実験を通じてその有効性を示したものである。
この論文は、サイバー脅威インテリジェンス報告書からハイパーニム・ヒポニム関係を用いて情報を抽出し、神経記号アプローチに基づくマルチエージェントシステムが CLIPS コードを生成して専門システムを構築し、ファイアウォールルールを自動作成することで、脅威への迅速かつ信頼性の高い対応を実現することを提案し、その有効性を実験的に示しています。
この論文は、著名なキャラクター名に依存する既存の評価手法の偏りを解消するため匿名評価を提案し、その条件下でもモデル自身で生成した性格情報が人間による注釈と同等の役割演技性能向上をもたらすことを実証しています。
本論文は、フランス語の医療分野におけるオープンエンド型質問応答の評価において、ドメイン適応や軽量モデルの微調整が専門家アノテーションとの整合性を高め、生成モデルに依存しないスケーラブルな評価を可能にすることを示しています。
本論文は、生成中の内部活性化パターンをスパースオートエンコーダと線形分類器で監視する手法を提案し、最終出力のみに依存する従来の検出よりも早期かつ確実に、微調整済み大規模言語モデルにおける報酬ハッキングの兆候を特定できることを示しています。
本論文は、大規模言語モデル(LLM)の導入が機械翻訳の品質予測パラダイムに与える影響を、多候補のポストエディットデータを用いた事後実験を通じて検証し、LLM の台頭が既存の予測手法の信頼性を変化させつつドキュメントレベル翻訳の課題を緩和することを明らかにしました。