Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software
本論文は、LLM とコサイン類似度を活用した自動化パイプラインを開発し、量子ソフトウェアにおけるフラキーテストの検出と根本原因分析を効率化するとともに、既存データセットを 54% 拡大し、特に Google Gemini モデルが高精度な分類と原因特定を実現することを示しています。
2278 件の論文
本論文は、LLM とコサイン類似度を活用した自動化パイプラインを開発し、量子ソフトウェアにおけるフラキーテストの検出と根本原因分析を効率化するとともに、既存データセットを 54% 拡大し、特に Google Gemini モデルが高精度な分類と原因特定を実現することを示しています。
この論文は、人間の成功に偏ったデモデータに依存せず、自律的なロボット自己遊戯から学習することで、物理的に一貫性のある高品質な動画世界モデルを構築し、実世界での政策性能を大幅に向上させる「PlayWorld」というシステムを提案しています。
この論文は、状態空間モデルと弱信号注意機構を統合した深層学習フレームワーク「WS-Net」を提案し、ハイパースペクトル画像の弱信号の崩壊を解決して、低 SNR 条件下でも主要なエンドメンバーと弱エンドメンバーの両方に対して高精度な豊度推定を実現することを示しています。
この論文は、言語モデルエージェントの「安定した自己」としての振る舞いと、その背後にある組織化の整合性を区別し、Stack 理論に基づく時間的ギャップの概念を応用してアイデンティティ評価のための保守的なツールキットを提案するものである。
この論文は、プロンプトやコード、機械学習システムなどの多様な環境における自律的な最適化を、基盤構築と反復的改善の 2 段階、および計画・実装・評価の役割分離ステージを通じて統一的に管理し、安定性と追跡可能性を確保する新しいエンジニアリングプロトコル「EPOCH」を提案しています。
この論文は、遠隔患者モニタリングで生成される膨大なデータを臨床スタッフが処理する課題を解決するため、自律型 AI エージェント「Sentinel」を開発し、従来の医師による監視を上回る感度とスケーラビリティで臨床的トリアージを可能にしたことを報告しています。
本論文は、意思決定に重要な領域におけるシミュレーションの誤差を敵対的較正で補正し、グループ相対摂動により方策学習を安定化させる「Sim2Act」というフレームワークを提案することで、ノイズやバイアスを含む実世界データから学習されたシミュレータを用いた堅牢な意思決定学習を実現するものである。
この論文は、テキスト作成の自然なプロセスに合わせ、アセット定義から編集・音声追加まで単一のドキュメント内で完結させる「Doki」というテキストネイティブな生成動画制作インターフェースを提案し、その設計原理と多様な専門性を持つユーザーを対象とした実証研究を通じて、視覚的ストーリーテリングの新たな可能性を示しています。
本論文は、2D パッチトークンに代わるアノトロピック 3D ガウスプリミティブを用いた「ガウス空間トークナイザー(GST)」と、3D 物体接地や把持幾何学などを明示的に生成する「3D 深度認識推論(DA-CoT)」を統合した VLA モデル「GST-VLA」を提案し、複雑な 3D 操作タスクにおいて既存モデルを上回る精度を達成したことを報告するものである。
この論文は、Qwen3 微調整モデルを用いて英語と中国語のニュースから抽出したセンチメントデータを、LSTM モデルに統合することで、特に市場変動が激しい時期においてアルミニウム価格の予測精度と経済的有用性が大幅に向上することを示しています。
本論文は、自動運転における生成ワールドモデルと VLA システムの進展を統合する潜在空間フレームワークを提案し、その分類体系、内部メカニズム、評価基準、および将来の課題を包括的に論じています。
この論文は、皮膚がんの画像検索タスクにおいて、参照画像とテキスト記述を組み合わせたクエリに対して、トランスフォーマーベースのフレームワークを用いて局所的な病変領域と大域的な意味情報を統合的に整合させることで、最先端の手法を上回る性能を達成する手法を提案し、Derm7pt データセットでその有効性を検証したものである。
この論文は、大規模言語モデル(LLM)を構造化された意味教師として活用して医療用ビジョントランスフォーマー(ViT)を事前学習させる「VIVID-Med」フレームワークを提案し、LLM を学習後に破棄することで軽量かつ展開可能なモデルを実現しつつ、BiomedCLIP を上回る高性能な医療画像分析を達成したことを報告しています。
既存の言語駆動型ナビゲーション手法が機能性建物における類似特徴や事前空間知識の活用不足に直面する課題を解決するため、環境マップを意味事前マップに変換し、階層的な思考連鎖プロンプトとマルチモデル協調メカニズムを導入した「PM-Nav」を提案し、シミュレーションおよび実世界での大幅な性能向上を実証した。
この論文は、複雑な指先操作における視覚言語行動モデルの信頼性と適応性を向上させるため、腕と手の協調介入を可能にする初のヒト・イン・ザ・ループフレームワーク「DexHiL」を提案し、実機実験でオフライン微調整のベースラインを平均 25% 上回る成功率を達成したことを報告しています。
この論文は、未知かつ非一様な劣化に直面する実世界環境において、不確実性に基づいてノイズ注入強度を適応的に調整する「不確実性誘導ノイズ生成(UNG)」モジュールと、マルチモーダル大規模言語モデル(MLLM)を用いた「品質認識事前知識(QAP)」を統合した新しい拡散モデル「QUSR」を提案し、高忠実度かつ高現実的な画像超解像を実現するものです。
複数の大規模言語モデル(LLM)からなる審議システムは、役割の分化やモデルの多様性によって決定論的挙動が崩れカオス的振る舞いを示すことが実証され、その安定性監査がガバナンス設計の核心要件であることが示されました。
この論文は、クラスインクリメンタル学習における特徴の衝突を因果的観点から解決するため、内タスクおよび間タスクの因果的完全性と分離性を定量化する拡張 PNS(CPNS)に基づく正則化手法を提案し、双方向のカウンターファクトル生成器を用いて特徴の衝突を効果的に抑制することを示しています。
この論文は、非構造化テーブルにおける複雑な長期的分析タスクを「Deep Tabular Research」として定式化し、階層的メタグラフ、期待値認識型選択ポリシー、および継続的学習を可能にするシアン構造メモリを備えた閉ループ型エージェントフレームワークを提案することで、戦略的計画と低レベル実行を分離した効率的な推論を実現することを示しています。
この論文は、文脈長の制約や幻覚、単一エージェントの限界といった既存の表質問応答(TableQA)の課題を克服するため、データリーダー、データベースチーム、知識グラフチームによる協調と自動知識変換を導入したマルチエージェントフレームワーク「DataFactory」を提案し、複数のベンチマークで大幅な精度向上を実証したものである。