cs.SE 件の論文 | Gist.Science

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

本論文は、制限された公式 LLM API の代替として広く利用されている「シャドー API」が、実際には公式モデルとは異なる出力や安全性の不安定さ、モデル識別の失敗などを含む欺瞞的な行為を行っており、学術研究の再現性や信頼性を損なっていることを初めて体系的に実証したものである。

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

NLBSE'26 競技において、LoRA-MME は LoRA による 4 つの異なるトランスフォーマーエンコーダーの効率的な微調整と重み付きアンサンブル学習を組み合わせ、Java、Python、Pharo のコードコメント分類タスクにおいて高い精度を達成しつつ、計算コストと推論効率のトレードオフを浮き彫りにしました。

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

この論文は、グラフニューラルネットワークによる機能表現と設計統計データを組み合わせてプロパティを効率的にクラスタリングするハイブリッド手法を提案し、多プロパティ検証における有界モデル検査の性能向上を実現することを示しています。

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

本論文は、LLM 安全性ベンチマーク 31 件を対象とした初の多面的評価を通じて、論文の学術的影響力とコード品質の間に乖離があること、また多くのリポジトリが実用性や倫理面において改善の余地が大きいことを明らかにし、著名な研究者に基準向上の主導を求めています。

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

本論文は、物理設計におけるTclスクリプト生成の課題に対処するため、データ合成パイプラインと2段階学習戦略を用いて開発されたドメイン適応型LLM「iScript」と、その性能を評価する包括的なベンチマーク「iScript-Bench」を提案し、既存の最先端モデルを上回る精度を達成したことを示しています。

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

既存のコード検索ベンチマークが Python に偏り、語彙的な特徴への依存を十分に検証していない課題を踏まえ、実世界の C/C++ コードから構築され、コンパイル可能性の保証や識別子の匿名化、低レベル言語への変換など多様な頑健性テスト環境を提供する新しいベンチマーク「CLARC」を提案し、最先端モデルが依然として意味理解ではなく語彙的特徴に依存していることを実証した。

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Industrial Survey on Robustness Testing In Cyber Physical Systems

この論文は、ワロニア地域における産業調査を通じて、サイバーフィジカルシステムの堅牢性に関する現状のプラクティス、課題、および最先端の手法とのギャップを多角的に分析し、既存の産業調査と比較検討したものである。

Christophe Ponsard, Abiola Paterne Chokki, Jean-François Daune2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本論文は、AI モデルによるゼロから完結する Web アプリケーション開発を評価する新たなベンチマーク「Vibe Code Bench」を提案し、最先端モデル 16 社によるテストで最高精度が 58.0% に留まったことを明らかにするとともに、自己テストの実施が性能予測に有効であることや評価者の選定が結果に大きく影響することを示しています。

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

本論文は、GPT-4、Claude 3、Gemini の 3 つの大規模言語モデルを用いた BDD シナリオ自動生成を評価し、Claude 3 が人間や LLM による評価で最高品質を示すこと、生成の成否は入力要件の詳しさに依存し、モデルごとに最適なプロンプト手法や温度パラメータ（0）が異なることを明らかにしました。

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

MOOSEnger は、RAG と決定論的検証ツールを組み合わせ、自然言語から MOOSE シミュレーション入力を生成・修正・実行するドメイン特化型 AI エージェントであり、LLM 単独のベースライン（0.08）と比較して実行成功率を 0.93 まで大幅に向上させることを示しています。

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

本論文は、チャットアシスタント向けではなく企業や API 駆動型のアプリケーションにおける厳格な指示遂行能力を評価するため、実世界のユースケースに基づいた新しいベンチマーク「FireBench」を提案し、11 種類の LLM に対する評価結果を報告するものである。

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

本論文は、欧州の公共機関におけるオープンソース・プログラム・オフィス（OSPO）の 18 事例を分析し、組織の文脈や資源に応じた 6 つのアーキタイプを特定することで、公共セクターがオープンソースソフトウェアの導入を促進し、戦略的目標を達成するための実践的な指針を提示しています。

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

Auto-Generating Personas from User Reviews in VR App Stores

本論文は、VR 応用分野におけるアクセシビリティ要件の発見を支援するため、ユーザーレビューから自動生成されたペルソナを用いた教育アプローチを開発し、学生による共感の効率的な醸成と潜在的な要件の引き出しに成功したことを示しています。

Yi Wang, Kexin Cheng, Xiao Liu + 4 more2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

本論文は、あらゆるプログラミング言語やプラットフォームにまたがるコードリポジトリのビルド・テストを自動化するエージェント「RepoLaunch」を提案し、これにより人間がタスク設計のみを行うことで大規模なソフトウェアエンジニアリングデータセットの作成を可能にすることを示しています。

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

この論文は、LLM 時代における Stack Overflow の持続可能性を高めるため、米国・中国・ロシアの文化差を分析し、貢献者の動機（自己宣伝や学習志向など）とプラットフォーム上の活動パターンの関連性を解明した研究です。

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A Benchmarking Framework for Model Datasets

本論文は、モデル駆動工学における機械学習研究の再現性と公平性を向上させるため、ソフトウェアモデルデータセットの品質や代表性を体系的に評価・比較する「モデルデータセットベンチマークフレームワーク」を提案するものである。

Philipp-Lorenz Glaser, Lola Burgueño, Dominik Bork2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

本論文は、大規模言語モデルによる制約ドメイン固有言語（OCL や Alloy など）のコード生成能力を、構文の正当性と正しさの観点から評価する汎用フレームワークを提案し、Python との比較やコード修復・複数試行などの改善策の影響を分析することで、特定のタスクにおける効果的なコード生成設定の決定を支援するものである。

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

← 前へ次へ →

cs.SE