GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics
本論文は、自然言語と実行可能コードの間の推論ギャップを解決し、自動車ソフトウェアリリース分析において既存手法を上回る精度と高速性を達成する、関係代数を中間表現として活用した新しい LLM エージェント「GateLens」を提案し、その有効性を実証したものである。
10840 件の論文
本論文は、自然言語と実行可能コードの間の推論ギャップを解決し、自動車ソフトウェアリリース分析において既存手法を上回る精度と高速性を達成する、関係代数を中間表現として活用した新しい LLM エージェント「GateLens」を提案し、その有効性を実証したものである。
この論文は、機械学習のバイナリ分類評価における決定論的視点の重要性を説き、適切なスコアリング則(ブライアースコアなど)の活用を提唱するとともに、実務との乖離を埋めるための理論的枠組み、クリップド・ブライアースコアの導出、および実用的な Python パッケージ「briertools」の提供を通じて、臨床的有用性を含む評価手法の改善を提案しています。
本論文は、リソース制約のある環境でも利用可能で、Docker 隔離などの多段階セキュリティを実装した軽量な RESTful プロキシ「MCP Bridge」を提案し、さらに強化学習手法を用いて MCPToolBench++ ベンチマークで 70B 級モデルと競合する性能を達成した Qwen3 系列モデルを開発したことを報告しています。
本論文は、GRPO における「すべてが不正解なグループ」からの学習欠如を解消するため、ステップごとの評価モデルを用いて回答の多様性を確保し、誤った推論からも学習可能にする「Stepwise Guided Policy Optimization(SGPO)」を提案し、その有効性を理論的および実証的に検証したものです。
この論文は、数学的問題の形式、論理的一貫性、完全性を段階的に検証する新しいパイプライン「MathQ-Verify」を提案し、既存のベンチマークで最先端の性能を達成して信頼性の高い数学データセットの構築を可能にすることを示しています。
本論文は、従来の手法に比べて高速かつ低リソースで、200 万回以上の編集を可能にする「UltraEdit」という新しいモデル編集手法と、それを評価するための大規模ベンチマーク「UltraEditBench」を提案し、大規模言語モデルの安全でスケーラブルな生涯学習の実現に向けた重要な一歩を踏み出したことを示しています。
この論文は、スケーラビリティ、検証可能性、難易度の制御という既存の強化学習タスクの課題を解決するため、充足可能性問題(SAT)に基づき段階的な難易度制御とルールベースの検証を実現する強化学習フレームワーク「SATURN」を提案し、これにより大規模言語モデルの推論能力を大幅に向上させることを示しています。
本論文は、クロスモーダルな時間的推論を明示的に必要とするオーディオ・ビジュアル QA ベンチマーク「Daily-Omni」を提案し、多数の基盤モデルを評価することで、現在のマルチモーダル大規模言語モデルがモダリティ間の時間的整合性の確立において依然として課題を抱えていることを明らかにしています。
本論文は、大規模言語モデルなどの基盤モデルを統合したモバイルサービスロボットにおける「具現化された AI」の現状を体系的にレビューし、技術的課題、実世界応用、倫理的側面を分析するとともに、信頼性と適応性を備えた将来の研究方向性を提示するものである。
この論文は、大規模言語モデル(LLM)の事前学習で得られた知識を活用し、メタ学習と signSGD を組み合わせて多様なドメインにまたがる時系列データの品質を効率的かつ高精度に評価する新しいフレームワーク「TSRating」を提案し、その有効性を検証したものです。
本論文は、協力型マルチエージェント強化学習におけるクレジット割り当て問題に対し、協力ゲーム理論の「コア」に基づく利得配分手法 CORA を提案し、エージェント間の連合貢献を適切に評価することで協調的な最適行動を促進し、既存手法を上回る性能を実現することを示しています。
この論文は、現実世界の多変量時系列データが抱えるチャネル間の依存関係、非同期サンプリング、欠損値という 3 つの課題を同時に解決し、堅牢な予測を実現するために、Transformer ベースの「ChannelTokenFormer」という新しいフレームワークを提案し、その有効性を実証したものである。
この論文は、単一ドメインデータに依存する低資源言語の言語識別性能を向上させるため、ドメイン不変な表現を学習する教師付き対照学習アプローチ「ConLID」を提案し、低資源言語におけるアウトオブドメインデータでの性能を 3.2 ポイント向上させたことを示しています。
この論文は、結晶学における質問応答タスクにおいて、LLM および MLLM が専門的な文脈情報をどのように活用するかを評価するための包括的なベンチマークフレームワーク「OPENXRD」を提案し、中規模モデルが文脈情報から最も恩恵を受けること、また AI 生成ではなく専門家による高品質な資料が性能向上に不可欠であることを実証しています。
この論文は、数学的発見の本質を既存の語彙内での探索ではなく「明示的概念の創出」に求め、現在の AI が達成した暗黙的概念形成の限界を指摘しつつ、機械による明示的概念の創出がもたらす可能性と人間との計算的トレードオフによる数学スタイルの差異を論じています。
本論文は、合成データを用いた GRPO と ORPO による Qwen2.5-Coder-32B の微調整により、Qiskit 向けコード生成の信頼性を向上させ、特に GRPO が中間レベルのタスクで顕著な成果を収めた一方で、高度なタスクには未だ課題が残ることを示しています。
この論文は、ロボットや人間など異なるエンボディメントからのデータを光フローを用いて事前学習した世界モデルと価値関数を活用し、ターゲットとなるロボットの実証データのみで微調整を行う「潜在ポリシー・ステアリング(LPS)」手法を提案し、低データ量環境でもビヘイビア・クローンベースの視覚運動ポリシーを大幅に改善することを示しています。
この論文は、視覚的シーングラフとテキスト知識グラフをスペクトラルクラスタリングを用いた「SpecLink」で統合し、複雑なマルチモーダル環境におけるエンティティ整合を目的とした「CMEL」データセットを公開することで、大規模言語モデルの幻覚を軽減し最先端のパフォーマンスを実現する「MMGraphRAG」という新しいフレームワークを提案しています。
この論文は、LLM エージェントを用いて米中間の世論形成をシミュレーションし、事実の抽出、対立視点の提示、反事実的曝露という 3 つのバイアス除去メカニズムを評価した結果、対立視点の提示が最も効果的であり、モデルの地理的起源に依存する内在的バイアスが確認されたことを示しています。
この論文は、ソースデータや画像合成を必要とせず、中立表情のみを含むターゲットデータを用いて事前学習済みモデルを個人ごとに適応させる軽量な潜在空間ベースの手法「SFDA-PFT」を提案し、プライバシーに配慮した表情認識タスクにおいて最先端の性能を達成することを示しています。