Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
本論文は、制限された公式 LLM API の代替として広く利用されている「シャドー API」が、実際には公式モデルとは異なる出力や安全性の不安定さ、モデル識別の失敗などを含む欺瞞的な行為を行っており、学術研究の再現性や信頼性を損なっていることを初めて体系的に実証したものである。
177 件の論文
本論文は、制限された公式 LLM API の代替として広く利用されている「シャドー API」が、実際には公式モデルとは異なる出力や安全性の不安定さ、モデル識別の失敗などを含む欺瞞的な行為を行っており、学術研究の再現性や信頼性を損なっていることを初めて体系的に実証したものである。
NLBSE'26 競技において、LoRA-MME は LoRA による 4 つの異なるトランスフォーマーエンコーダーの効率的な微調整と重み付きアンサンブル学習を組み合わせ、Java、Python、Pharo のコードコメント分類タスクにおいて高い精度を達成しつつ、計算コストと推論効率のトレードオフを浮き彫りにしました。
この論文は、グラフニューラルネットワークによる機能表現と設計統計データを組み合わせてプロパティを効率的にクラスタリングするハイブリッド手法を提案し、多プロパティ検証における有界モデル検査の性能向上を実現することを示しています。
本論文は、LLM 安全性ベンチマーク 31 件を対象とした初の多面的評価を通じて、論文の学術的影響力とコード品質の間に乖離があること、また多くのリポジトリが実用性や倫理面において改善の余地が大きいことを明らかにし、著名な研究者に基準向上の主導を求めています。
本論文は、物理設計におけるTclスクリプト生成の課題に対処するため、データ合成パイプラインと2段階学習戦略を用いて開発されたドメイン適応型LLM「iScript」と、その性能を評価する包括的なベンチマーク「iScript-Bench」を提案し、既存の最先端モデルを上回る精度を達成したことを示しています。
既存のコード検索ベンチマークが Python に偏り、語彙的な特徴への依存を十分に検証していない課題を踏まえ、実世界の C/C++ コードから構築され、コンパイル可能性の保証や識別子の匿名化、低レベル言語への変換など多様な頑健性テスト環境を提供する新しいベンチマーク「CLARC」を提案し、最先端モデルが依然として意味理解ではなく語彙的特徴に依存していることを実証した。
この論文は、ワロニア地域における産業調査を通じて、サイバーフィジカルシステムの堅牢性に関する現状のプラクティス、課題、および最先端の手法とのギャップを多角的に分析し、既存の産業調査と比較検討したものである。
本論文は、AI モデルによるゼロから完結する Web アプリケーション開発を評価する新たなベンチマーク「Vibe Code Bench」を提案し、最先端モデル 16 社によるテストで最高精度が 58.0% に留まったことを明らかにするとともに、自己テストの実施が性能予測に有効であることや評価者の選定が結果に大きく影響することを示しています。
本論文は、GPT-4、Claude 3、Gemini の 3 つの大規模言語モデルを用いた BDD シナリオ自動生成を評価し、Claude 3 が人間や LLM による評価で最高品質を示すこと、生成の成否は入力要件の詳しさに依存し、モデルごとに最適なプロンプト手法や温度パラメータ(0)が異なることを明らかにしました。
MOOSEnger は、RAG と決定論的検証ツールを組み合わせ、自然言語から MOOSE シミュレーション入力を生成・修正・実行するドメイン特化型 AI エージェントであり、LLM 単独のベースライン(0.08)と比較して実行成功率を 0.93 まで大幅に向上させることを示しています。
本論文は、チャットアシスタント向けではなく企業や API 駆動型のアプリケーションにおける厳格な指示遂行能力を評価するため、実世界のユースケースに基づいた新しいベンチマーク「FireBench」を提案し、11 種類の LLM に対する評価結果を報告するものである。
本論文は、欧州の公共機関におけるオープンソース・プログラム・オフィス(OSPO)の 18 事例を分析し、組織の文脈や資源に応じた 6 つのアーキタイプを特定することで、公共セクターがオープンソースソフトウェアの導入を促進し、戦略的目標を達成するための実践的な指針を提示しています。
本論文は、VR 応用分野におけるアクセシビリティ要件の発見を支援するため、ユーザーレビューから自動生成されたペルソナを用いた教育アプローチを開発し、学生による共感の効率的な醸成と潜在的な要件の引き出しに成功したことを示しています。
本論文は、あらゆるプログラミング言語やプラットフォームにまたがるコードリポジトリのビルド・テストを自動化するエージェント「RepoLaunch」を提案し、これにより人間がタスク設計のみを行うことで大規模なソフトウェアエンジニアリングデータセットの作成を可能にすることを示しています。
この論文は、LLM 時代における Stack Overflow の持続可能性を高めるため、米国・中国・ロシアの文化差を分析し、貢献者の動機(自己宣伝や学習志向など)とプラットフォーム上の活動パターンの関連性を解明した研究です。
本論文は、モデル駆動工学における機械学習研究の再現性と公平性を向上させるため、ソフトウェアモデルデータセットの品質や代表性を体系的に評価・比較する「モデルデータセットベンチマークフレームワーク」を提案するものである。
本論文は、大規模言語モデルによる制約ドメイン固有言語(OCL や Alloy など)のコード生成能力を、構文の正当性と正しさの観点から評価する汎用フレームワークを提案し、Python との比較やコード修復・複数試行などの改善策の影響を分析することで、特定のタスクにおける効果的なコード生成設定の決定を支援するものである。
本論文は、Defects4J などの実世界データセットを用いた大規模な実証研究を通じて、LLM によるテストケース生成の能力を評価し、推論ベースのプロンプトが信頼性を向上させる一方で、幻覚に起因するコンパイル失敗や保守性の課題が依然として残っているため、生成と検証・洗練を組み合わせたハイブリッドアプローチの必要性を明らかにしています。
この論文は、自動運転車の知覚システムに対する現実的な攻撃手法「TrashFuzz」を提案し、道路設計ガイドラインに準拠したゴミ箱などの街路物の配置を操作することで、自然な外観のまま自動運転車が交通法規違反を引き起こすような誤認識を誘発できることを実証しています。
本論文は、Uppaal による確率的時間オートマトンの形式モデル化、検証、および抽象テストの具体化を通じて、分散ミドルウェア「CARE」の信頼性向上を可能にする手法を提示しています。