Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

本論文は、制限された公式 LLM API の代替として広く利用されている「シャドー API」が、実際には公式モデルとは異なる出力や安全性の不安定さ、モデル識別の失敗などを含む欺瞞的な行為を行っており、学術研究の再現性や信頼性を損なっていることを初めて体系的に実証したものである。

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

NLBSE'26 競技において、LoRA-MME は LoRA による 4 つの異なるトランスフォーマーエンコーダーの効率的な微調整と重み付きアンサンブル学習を組み合わせ、Java、Python、Pharo のコードコメント分類タスクにおいて高い精度を達成しつつ、計算コストと推論効率のトレードオフを浮き彫りにしました。

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

本論文は、LLM 安全性ベンチマーク 31 件を対象とした初の多面的評価を通じて、論文の学術的影響力とコード品質の間に乖離があること、また多くのリポジトリが実用性や倫理面において改善の余地が大きいことを明らかにし、著名な研究者に基準向上の主導を求めています。

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

本論文は、物理設計におけるTclスクリプト生成の課題に対処するため、データ合成パイプラインと2段階学習戦略を用いて開発されたドメイン適応型LLM「iScript」と、その性能を評価する包括的なベンチマーク「iScript-Bench」を提案し、既存の最先端モデルを上回る精度を達成したことを示しています。

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

既存のコード検索ベンチマークが Python に偏り、語彙的な特徴への依存を十分に検証していない課題を踏まえ、実世界の C/C++ コードから構築され、コンパイル可能性の保証や識別子の匿名化、低レベル言語への変換など多様な頑健性テスト環境を提供する新しいベンチマーク「CLARC」を提案し、最先端モデルが依然として意味理解ではなく語彙的特徴に依存していることを実証した。

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本論文は、AI モデルによるゼロから完結する Web アプリケーション開発を評価する新たなベンチマーク「Vibe Code Bench」を提案し、最先端モデル 16 社によるテストで最高精度が 58.0% に留まったことを明らかにするとともに、自己テストの実施が性能予測に有効であることや評価者の選定が結果に大きく影響することを示しています。

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

本論文は、GPT-4、Claude 3、Gemini の 3 つの大規模言語モデルを用いた BDD シナリオ自動生成を評価し、Claude 3 が人間や LLM による評価で最高品質を示すこと、生成の成否は入力要件の詳しさに依存し、モデルごとに最適なプロンプト手法や温度パラメータ(0)が異なることを明らかにしました。

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

本論文は、チャットアシスタント向けではなく企業や API 駆動型のアプリケーションにおける厳格な指示遂行能力を評価するため、実世界のユースケースに基づいた新しいベンチマーク「FireBench」を提案し、11 種類の LLM に対する評価結果を報告するものである。

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

本論文は、欧州の公共機関におけるオープンソース・プログラム・オフィス(OSPO)の 18 事例を分析し、組織の文脈や資源に応じた 6 つのアーキタイプを特定することで、公共セクターがオープンソースソフトウェアの導入を促進し、戦略的目標を達成するための実践的な指針を提示しています。

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

本論文は、あらゆるプログラミング言語やプラットフォームにまたがるコードリポジトリのビルド・テストを自動化するエージェント「RepoLaunch」を提案し、これにより人間がタスク設計のみを行うことで大規模なソフトウェアエンジニアリングデータセットの作成を可能にすることを示しています。

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

この論文は、LLM 時代における Stack Overflow の持続可能性を高めるため、米国・中国・ロシアの文化差を分析し、貢献者の動機(自己宣伝や学習志向など)とプラットフォーム上の活動パターンの関連性を解明した研究です。

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

本論文は、大規模言語モデルによる制約ドメイン固有言語(OCL や Alloy など)のコード生成能力を、構文の正当性と正しさの観点から評価する汎用フレームワークを提案し、Python との比較やコード修復・複数試行などの改善策の影響を分析することで、特定のタスクにおける効果的なコード生成設定の決定を支援するものである。

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

本論文は、Defects4J などの実世界データセットを用いた大規模な実証研究を通じて、LLM によるテストケース生成の能力を評価し、推論ベースのプロンプトが信頼性を向上させる一方で、幻覚に起因するコンパイル失敗や保守性の課題が依然として残っているため、生成と検証・洗練を組み合わせたハイブリッドアプローチの必要性を明らかにしています。

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

この論文は、自動運転車の知覚システムに対する現実的な攻撃手法「TrashFuzz」を提案し、道路設計ガイドラインに準拠したゴミ箱などの街路物の配置を操作することで、自然な外観のまま自動運転車が交通法規違反を引き起こすような誤認識を誘発できることを実証しています。

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs