D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces
本論文は、周波数空間とピクセル空間の両方で勾配に基づいた適応的データ拡張を行う「D-GAP」を提案し、ドメインシフトに対する汎化性能を大幅に向上させる手法を提示しています。
4195 件の論文
本論文は、周波数空間とピクセル空間の両方で勾配に基づいた適応的データ拡張を行う「D-GAP」を提案し、ドメインシフトに対する汎化性能を大幅に向上させる手法を提示しています。
本論文は、自動車テレメトリデータに見られる「緩やかなドリフト」と「急激なスパイク」という異なる時間スケールの動的特性を、双経路エンコーダとデコーダを用いて明示的に分離することで、既存手法よりも頑健な異常検知を実現する「STREAM-VAE」を提案しています。
遠隔 sensing 分野において、散在するドキュメントや複雑な制約条件による基盤モデルの選定課題を解決するため、160 以上のモデルを網羅する構造化データベース「RS-FMD」を構築し、自然言語クエリから制約条件を考慮して最適なモデルを自動選定・説明するエージェント「REMSA」を提案し、専門家の評価によるベンチマークでその有効性を実証した論文です。
本論文は、医療データにおけるプライバシー漏洩リスクに対処するため、医療概念の階層構造と幾何学的制約を統合し、特定知識の効率的な忘却と汎用医療能力の維持を両立させる階層的二重戦略のアンラーニング手法を提案し、MedMCQA や MHQA などのデータセットで高い忘却率と知識保持率を達成したことを示しています。
この論文は、SEC 提出書類や傷害報告などの業界標準データを Isaac Sim の物理シミュレーションと統合し、タスク成功だけでなく実世界の経済的採算性を評価する初の物理ベースのベンチマーク「CostNav」を提案し、既存の 7 つのナビゲーション手法がいずれも経済的に成立していないことを示しています。
インドの数学オリンピック問題を対象とした、AI と人間の協働パイプラインにより構築され、312 件の人間検証済み Lean 4 定理を含む新しいベンチマーク「IndiMathBench」を提案し、大規模言語モデルにおける自動形式化の現状と課題を明らかにした。
この論文は、生成された動画フレームの各領域における不確実性を高密度に推定し、物理的現実と一致しない「幻覚」を検知・可視化することで、ロボット制御などのタスクにおける信頼性を向上させる新しい不確実性定量化手法「C3」を提案するものです。
この論文は、フラグメントベースの言語モデル、強化学習、モンテカルロ木探索を統合した「Trio」というフレームワークを提案し、既存の手法を凌駕する結合親和性、薬物様性、合成容易性、および分子多様性を備えた解釈可能な閉ループ型分子発見を実現することを示しています。
この論文は、異なる環境間で最大リスクを最小化する(MaxRM)という原則に基づき、平均二乗誤差、負の報酬、後悔の 3 つのリスク指標に対応するランダムフォレストの新しい変種を提案し、その計算効率性、統計的整合性、および未見のテスト分布に対する保証を実証しています。
本論文は、RL 訓練中のチェックポイントをマージして「無料の教師モデル」として活用する GTR-Turbo を提案し、高価な外部モデルへの依存を排除しつつ、マルチモーダルエージェントの精度を大幅に向上させるとともに訓練時間と計算コストを大幅に削減する手法を提示しています。
本論文は、多様な電池データから転移可能な表現を学習する「事前学習済みバッテリー・トランスフォーマー(PBT)」という基礎モデルを初めて提案し、リチウムイオン、ナトリウムイオン、亜鉛イオン電池を含む広範なデータセットにおいて、既存の最良手法を大幅に上回る電池寿命予測性能を達成したことを報告しています。
この論文は、TLS 3D ポイントクラウドから生成された 2D 画像を用いて YOLOv8 で樹種分類を行う際、Finer-CAM による可視化解析がモデルの判断根拠(主に樹冠や幹などの構造的特徴)を忠実に説明し、分類精度の向上とモデルの信頼性構築に寄与することを示しています。
本論文は、真の事後分布が既知で記憶化が不可能な「ベイズ風洞」と呼ばれる制御環境を構築し、トランスフォーマーがアーキテクチャの幾何学的設計(残差ストリーム、フィードフォワードネットワーク、アテンションの役割分担)によって厳密にベイズ推論を実現することを示し、これが平坦なアーキテクチャとの決定的な違いであることを明らかにした。
本論文は、クロスエントロピー損失による勾配降下法がアテンションスコアと値ベクトルを共進化的に更新するメカニズムを解析し、これが変分推論的な EM 手順に相当する動的過程を通じて、トランスフォーマーがベイズ推論を実行するための低次元多様体を形成することを明らかにしています。
本論文は、小規模な「風洞」設定で確立されたベイズ推論の幾何学的基盤(低次元多様体や確率的エントロピーと相関する軸)が、Pythia や Llama-3 などの大規模言語モデルにおいても保存されており、不確実性の読み取りに寄与しているが、単一の層への介入だけでベイズ的な挙動が決定的に阻害されるわけではないことを示しています。
この論文は、検索拡張大規模言語モデルにおける不要な検索(オーバーサーチ)の問題を体系的に評価し、その新たな評価指標「Tokens Per Correctness」や軽減策、および関連データセット「OverSearchQA」を提案する研究です。
本論文は、企業向け大規模言語モデルにおけるデータ漏洩を防止するため、部門間でのインスタンス分離と厳格なコンテキスト所有権境界を実現する「セキュア・マルチテナント・アーキテクチャ(SMTA)」と、使用後の会話コンテキストを自動的に破棄する「バーン・アフター・ユース(BAU)」メカニズムを提案し、現実的な攻撃シナリオにおける高い防御成功率を実証したものである。
本論文は、モデル・コンテキスト・プロトコル(MCP)におけるツール呼び出しチェーンを悪用し、標準的なフィルタリングを回避しながら大規模言語モデルエージェントの計算リソースとコストを劇的に増幅させる、ステルス性の高い経済的 Denial-of-Service 攻撃手法を提案しています。
この論文は、アクションRPG『ダークソウルIII』の戦闘を方向性のあるスキルグラフとして表現し、階層的なカリキュラム学習と選択的適応を組み合わせることで、環境変化に対して再学習なしに高性能を維持・進化させる強化学習エージェントの実現可能性を示しています。
MemOCR は、重要な証拠を視覚的に強調し補助的な詳細を圧縮するレイアウト認識型の視覚メモリを構築することで、限られたコンテキスト予算下でも効率的な長期推論を実現するマルチモーダルエージェントです。