Social Proof is in the Pudding: The (Non)-Impact of Social Proof on Software Downloads
GitHub におけるスター数やダウンロード数の操作を伴う 2 つの実地実験により、ソフトウェアのダウンロード数や開発者の関与度に対するソーシャルプルーフの影響は検出されなかったことが示されました。
175 件の論文
GitHub におけるスター数やダウンロード数の操作を伴う 2 つの実地実験により、ソフトウェアのダウンロード数や開発者の関与度に対するソーシャルプルーフの影響は検出されなかったことが示されました。
SWE-Fuse は、問題記述のノイズを軽減する問題フリー軌道学習とエントロピーに基づく RLVR 学習を融合させることで、SWE-bench において既存のモデルを大幅に上回るソフトウェア問題解決能力を実現する新しいトレーニングフレームワークです。
本論文は、自動車のソフトウェアシステム検証において、1D-CNN と GRU を組み合わせたハイブリッド深層学習モデルと説明可能 AI 技術を統合し、故障の検出・特定・局所化を可能にするだけでなく、予測の根拠を解釈可能にすることで、リアルタイムの安全クリティカルな応用における信頼性とモデル適応性を向上させる手法を提案するものである。
この論文は、Hacon(Siemens 傘下)との共同研究として、アジャイル環境における回帰テストの自動化を加速するため、検証済みの仕様からシステムレベルのテストスクリプトを生成するマルチエージェント AI アプローチを提案し、その生産性向上と人間の監査の重要性を実証したものである。
この論文は、デジタル市場法(DMA)の要件を技術的視点から分析し、公平性やユーザーの選択肢といった価値に基づいたプラットフォーム設計を実現するための 8 つの高レベルな設計戦略と 15 の戦術を提案しています。
本論文は、LLM エージェントが制約された計算資源下で自律的にポストトレーニングを実行できるかを検証するベンチマーク「PostTrainBench」を提案し、エージェントは特定のタスクでは既存モデルを上回る成果を上げる一方で、一般的には公式の指示調整モデルに劣り、さらに報酬ハッキングなどの深刻な失敗モードも示すことを明らかにしています。
この論文は、大規模言語モデルと知識グラフを連携させることで、クラウドネイティブ環境におけるPrometheusのメトリクスを自然言語からPromQLに変換するフレームワーク「PromCopilot」を提案し、初のテキスト対PromQLベンチマークを用いてその有効性を検証した研究です。
本論文は、静的解析と動的実行のハイブリッド手法を採用し、統計的に導かれた適応的サンプリングによってランタイムオーバーヘッドを約 27% に抑えつつ、高精度な Python 型注釈を自動生成する「RightTyper」を提案し、既存の手法を上回る性能を実証したものである。
本論文は、コード生成モデルの開発から展開までの全プロセスを倫理的かつ持続可能な実践で管理する「倫理的にソースされたコード生成(ES-CodeGen)」という新概念を提唱し、文献レビューと実務者への調査を通じてその 11 の次元と影響を体系化した研究です。
この論文は、食品衛生規制からLLM(ClaudeおよびLlama)を用いてGherkin形式の行動仕様を生成する実験を行い、生成物は高い品質を示したが、欠落や幻覚といった問題が確認されたため、安全性が重要な分野では人間の監視が不可欠であると結論付けています。
本論文は、人間の意図を最適解としてソフトウェアに自動変換する探索型コンパイラ「Compiler.next」を提案し、認知アーキテクチャやモデル構成の動的最適化を通じて、AI 原生のソフトウェア開発を民主化し、Software Engineering 3.0 の実現を可能にする新たなパラダイムを提示しています。
本論文は、大規模言語モデル(LLM)のオブジェクト指向設計能力を評価する初のベンチマーク「OODEval」と統一評価指標「CLUE」を提案し、29 種類のモデルを対象とした実証研究を通じて、LLM が構文面では高い精度を示す一方で意味論的な欠陥があり、特に高度な設計能力において人間の専門家には及ばないことを明らかにしています。
本論文は、コード分析タスクにおけるマルチタスク学習とパラメータ効率型微調整(PEFT)を統合した初の包括的評価を行い、単一の共有 PEFT モジュールがフル微調整に匹敵する性能を発揮しつつ、ストレージや計算コストを大幅に削減できることを示し、さらにタスクの組み合わせやモデル構造が成功に与える影響を明らかにした。
大規模な制御実験により、言語モデルの安全性評価において「構造化されたプロンプト(スケフォールディング)」そのものよりも「評価形式(多肢選択か自由記述か)」がスコアに与える影響が圧倒的に大きく、かつモデルと構成の組み合わせによって安全性の増減が逆転するため、個別のモデルと設定ごとのテストが不可欠であることが示されました。
本論文は、モデル重みの変更なしに産業用 LLM のハルシネーションを低減し出力の安定性を高めるための 5 つのプロンプトエンジニアリング戦略を提案・評価し、その中で「強化データレジストリ」が全試行で有効であったことと、改良版「分解モデル非依存プロンプティング」が大幅な改善を示したことを報告しています。
OAuthHub は、ユーザーの個人端末を仲介コントローラーとして活用し、OAuth アプリのデータ過剰アクセスを防止しつつ、開発者が従来の API よりも少ないコードで迅速にデータアクセス制御を実装できる新しい開発フレームワークを提案し、その有効性を評価した論文です。
本論文は、従来の静的なソフトウェア部品表(SBOM)を、自律的なマルチエージェント・アーキテクチャとランタイム実行証拠に基づいて動的な脆弱性評価を可能にする「エージェント型 AI 部品表(AIBOM)」へと進化させ、再現性と環境ドリフトへの対応を飛躍的に向上させる新たなフレームワークを提案するものである。
本論文は、プライバシー規制やガバナンスリスクを克服し、認証・認可・監査(AAA)機能を統合した新しいフェデレーティッドラーニング基盤「FLA³」を提案し、多国籍医療研究における実用性と臨床的有用性を検証したものである。
本論文は、製品開発における工学解析の自動化を、LLM エージェントによる適応的なオーケストレーションと検証済み工学ツールによる決定論的実行に分離し、入力形式や単位などの不整合に対処しながら正確な結果を導き出す「DUCTILE」というアプローチを、航空宇宙メーカーの産業事例を通じて提案・評価したものである。
この論文は、従来のバージョン遅延指標では見逃されがちなソフトウェアの放置リスクを特定するために、開発活動やメンテナーの応答性などの信号を組み合わせた「MALTA」という新しい評価フレームワークを提案し、その有効性を検証したものである。