L2GTX: From Local to Global Time Series Explanations
L2GTX は、時系列分類モデルの決定過程を解釈可能にするため、インスタンスごとの局所説明からパラメータ化された時間的イベント原語を抽出・集約し、代表性のあるインスタンスを選択してクラス全体のグローバル説明を生成するモデル非依存フレームワークです。
12457 件の論文
L2GTX は、時系列分類モデルの決定過程を解釈可能にするため、インスタンスごとの局所説明からパラメータ化された時間的イベント原語を抽出・集約し、代表性のあるインスタンスを選択してクラス全体のグローバル説明を生成するモデル非依存フレームワークです。
この論文は、複数の地域とサンプリング条件を網羅するオープンソースのベンチマークデータセット「GeoChemAD」と、自己教師あり学習を活用したトランスフォーマーベースの枠組み「GeoChemFormer」を提案し、既存の手法を上回る汎用性と精度で鉱物探査における地球化学的異常検出を可能にするものです。
この論文は、手書きの数学テストの採点を自動化する人間と AI の協調システムを提案し、その導入により採点時間を約 23% 削減しつつ、公平性と精度を維持できることを実証したものである。
本論文は、多モーダル推論の中間ステップの検証可能性に焦点を当てた新たなベンチマーク「CRYSTAL」を提案し、既存の精度指標では見逃される推論の欠陥を可視化するとともに、ステップ整合性を因果的に報酬化する「Causal Process Reward (CPR)」と段階的学習法「CPR-Curriculum」により、人手による注釈なしで推論能力を大幅に向上させる手法を確立した。
本論文は、ロボット運動における空間推論能力を評価し、Qwen2.5-VL などの視覚言語モデル(VLM)がゼロショットまたは微調整により高い精度でユーザーの運動制約を解釈できることを示すことで、ロボット運動計画パイプラインへの VLM 統合の可能性を明らかにしています。
この論文は、大規模な深層学習におけるアクティブラーニングの課題を解決し、既存のオラクル戦略や最先端の手法を上回る性能を持つ「Best-of-Strategy Selector (BoSS)」という、複数の選択戦略のアンサンブルから最適なバッチを選ぶスケーラブルなオラクル手法を提案しています。
本論文は、VideoLLM のカメラ運動認識能力の欠如を特定し、3D 基礎モデルから幾何学的なカメラの手がかりを抽出して構造化されたプロンプトとして注入する軽量なパイプラインを提案することで、この課題を解決する手法と評価ベンチマークを構築したものです。
本論文は、ポパーの反証可能性や古典的テスト理論などの核となる理論に基づき、3 つのサイクルからなる行動デザイン科学研究として、大規模言語モデルの評価を目的としたクラウドベースのプラットフォーム「PsyCogMetrics AI Lab」の開発と検証を報告しています。
Steve-Evolving は、オープンワールド環境における長期的タスクを解決するために、実行の細粒度診断と二重トラックの知識蒸留を密接に連携させる非パラメトリックな自己進化フレームワークであり、経験の構造化、スキルの一般化、失敗からのガードレール生成を通じてモデルパラメータの更新なしにエージェントの能力を継続的に向上させます。
この論文は、正解と不正解の推論トレース間の対照的な信号を活用し、報酬信頼度補正による安定化を加えることで、GRPO の推論能力を向上させる「双方向文脈条件付け(BICC)」と「報酬信頼度補正(RCC)」を提案しています。
この論文は、大規模言語モデルによる ESG 報告書の分析におけるハルシネーション(幻覚)を軽減し、信頼性の高い評価を可能にするため、実世界の ESG 報告書に基づいた人間による注釈付き QA データセット「ESG-Bench」を提案し、Chain-of-Thought 推論を用いたファインチューニングがハルシネーションの削減と汎用性の向上に有効であることを示しています。
インドの産科医療向けに、多言語・低リソース環境での信頼性確保を目的としたハイブリッド型チャットボットを開発し、専門家による厳格な評価フローを通じて、高リスクケースの検出と適切な情報提供の両立を実証した。
この論文は、LLM エージェントの推論が意味的に等価な入力変化に対して安定しているかどうかを評価するためのメタモルフィックテストフレームワークを提案し、モデルの規模が頑健性を予測できないこと(特に小規模な Qwen3-30B-A3B が最も高い安定性を示した)を実証しています。
本論文は、ミニロケット(MiniRocket)などの高度な特徴抽出および次元削減手法を用いた機械学習パイプラインを構築し、約 22,300 個の土星の衛星軌道のシミュレーションデータを効率的にクラスタリングすることで、軌道安定性や共鳴構造などの新たな知見をもたらすことを提案しています。
本論文は、MXFP8 形式のブロックスケールを再利用して RMSNorm を置き換える「MXNorm」を提案し、正規化に必要なリダクション演算を 32 倍削減するとともに、Llama 3 モデルの学習精度を維持しつつ最大 2.4 倍のカーネル高速化を実現することを示しています。
この論文は、プライバシー脆弱性と学習性が少数の重みで密接に関連しているという洞察に基づき、重みの値ではなく位置に基づいて重要度を評価し、特定の重みだけをリワインドして微調整する手法を提案することで、メンバーシップ推論攻撃に対する耐性を高めつつモデルの有用性を維持することを示しています。
この論文は、LLM による多エージェント間の協力誘導が自律性や公平性を損なう操作に陥るリスクを指摘し、憲法的制約とペナルティ付き最適化を組み合わせた「憲法的多エージェントガバナンス(CMAG)」フレームワークを提案することで、操作を伴わない倫理的に安定した協力を達成できることを示しています。
LLM を活用した計算材料科学において、個々の計算を孤立させずに知識を蓄積・統合するオープンソースプラットフォーム「QMatSuite」を提案し、これにより推論コストを大幅に削減するとともに、文献値からの誤差を劇的に改善し未知の材料への適用でも高い精度を達成することを示しました。
本論文は、視覚的忠実度を評価するための微細な報酬信号を提供するマルチモーダル生成報酬モデル「Visual-ERM」を提案し、これにより視覚からコードへの変換タスクにおける強化学習の性能を大幅に向上させ、構造化視覚データの詳細な差異を判定する新たなベンチマーク「VC-RewardBench」も導入したものである。
この論文は、パレート多目的最適化を用いて深層学習モデルの融合タイミング・対象・方法を決定する新たな手法を提案し、AIforCOVID データセットにおける COVID-19 重症化予測の精度向上とモデルの信頼性向上を実現したことを報告しています。