ABD: Default Exception Abduction in Finite First Order Worlds
この論文は、有限一階世界におけるデフォルトと例外の帰納推論(ABD)を評価する新しいベンチマークを提案し、SMT 検証を用いた厳密な評価を通じて、最先端の LLM が妥当性は高いものの例外のスパース性(簡潔性)において課題を抱え、観察 regimes によって異なる一般化の失敗モードを示すことを明らかにしています。
8189 件の論文
この論文は、有限一階世界におけるデフォルトと例外の帰納推論(ABD)を評価する新しいベンチマークを提案し、SMT 検証を用いた厳密な評価を通じて、最先端の LLM が妥当性は高いものの例外のスパース性(簡潔性)において課題を抱え、観察 regimes によって異なる一般化の失敗モードを示すことを明らかにしています。
この論文は、拡張的にラベル付けされたターゲット述語を説明する単一の第一階述語論理式を生成するタスクとして、有限構造概念合成のためのベンチマーク「INDUCTION」を提案し、モデルの推論能力と汎化特性を評価する結果を報告しています。
この論文は、CityLearn 環境を用いて都市エネルギー制御におけるマルチエージェント強化学習(MARL)を多角的な KPI で評価し、分散学習分散実行(DTDE)が集中学習分散実行(CTDE)よりも優れており、時間依存性の学習がバッテリー寿命などの持続可能性指標の改善に寄与することを示しています。
ModernBERT 基盤の多言語エンコーダ「MrBERT」は、35 言語とコードの事前学習、Matryoshka 表現学習による柔軟な次元適応、および特定ドメインへの最適化を通じて、地域言語の卓越性と専門分野での高性能、そして推論・保存コストの削減を同時に実現するモデルファミリーを提案し、Hugging Face でオープンソース化されています。
本論文では、不安定な学習が課題である自律型強化学習(ARL)の安定性を制御された環境で分析するフレームワーク「ARLArena」を提案し、その知見に基づいて安定した学習を実現する手法「SAMPO」を開発し、多様なタスクで安定した学習と高い性能を達成することを示しています。
本論文は、従来の手法に比べて計算コストが低く手動調整が不要な、Cryo-EM 密度マップ制約を組み込んだワンステップ拡散モデル「CryoNet.Refine」を開発し、タンパク質複合体や DNA/RNA-タンパク質複合体の構造精密化を大幅に高速化・自動化する手法を提案しています。
この論文は、AI エージェントが研究の速度や網羅性を向上させる一方で理論的独創性には限界があるとし、認知タスクの特性に基づいて「Vibe Researching」の概念を提唱し、社会科学における人間の役割と教育のあり方について考察しています。
この論文は、古典系における「二重予測可能性(bipredictability)」の上限が 0.5 以下であることを理論的に証明し、現在の AI は予測に基づく「主体性(agency)」は持っても学習の自己監視と適応を欠くため真の「知能(intelligence)」ではないと定義し、生物の視床 - 皮質調節に着想を得た新たなフィードバック機構を提案しています。
本論文は、EEG 信号と画像表現の整合を学習し、VQ-VAE とトランスフォーマーを用いた「次スケール予測」に基づく自己回帰的生成フレームワーク「AVDE」を提案し、既存の拡散モデルよりもはるかに軽量でありながら、画像復元や検索タスクにおいて最先端の性能を達成し、人間の視覚知覚の階層性を反映する解釈可能な脳コンピュータインターフェースを実現したことを示しています。
HealthBench における医師間の評価不一致の大部分は構造的な要因に起因するものの、文脈欠如や曖昧な表現といった「解消可能な不確実性」が不一致を有意に増大させる一方、本質的な医学的曖昧さは影響を与えないという見解から、評価シナリオにおける情報ギャップの解消が合意率向上への具体的な改善策となり得ると結論付けています。
CeRA は、SiLU ゲーティングと構造的ドロップアウトを併用して多様体を拡張し、低ランク適応(LoRA)が抱える線形性の限界を打破し、複雑な推論タスクにおいて極めて高いスペクトル効率を実現するパラメータ効率型ファインチューニング手法です。
本論文は、Transformer ベースの直接行動予測アプローチの限界を克服し、学習された遷移モデルを用いて中間状態を予測する手法を提案することで、より少ないデータと小規模なモデルで分布外汎化性能を向上させることを実証したものである。
App Store の検索ランキングにおいて、LLM を活用して生成したテキスト関連性ラベルを行動データと組み合わせることで、オフライン評価指標の改善と、特にロングテールクエリにおけるコンバージョン率の統計的有意な向上(+0.24%)を実現した。
本論文は、FP4 精度の注意機構における訓練の不安定さを解消し、アウトライヤー対策なしに品質を回復しながら RTX 5090 で最大 1.5 倍の高速化を実現する、初の体系的な量子化感知学習(QAT)手法「Attn-QAT」を提案するものです。
本論文は、外部からの指示に依存せず、人格特性を内生的な組織原理として活用し、自律的に目標を生成・進化させることで、動的な環境における永続的な自律性を達成する新しい認知アーキテクチャ「PEPA」を提案し、実世界のロボットによる実証実験を通じてその有効性を立証したものである。
本論文は、心電図信号におけるマルチモーダルモデルの推論能力を評価するため、信号パターンの正確な識別(知覚)と臨床知識の論理的適用(推論)を分離し、それぞれをコード生成による実証的検証と構造化臨床基準との照合によって評価する、スケーラブルで再現性のあるフレームワークを提案しています。
本論文は、構造化された医薬品ラベルと自由記述の放射線レポートという異なる臨床ドメインにおいて、LLM の抽出結果に対する信頼性の方向性が逆転することを発見し、ドメイン固有のコンフォーマル予測フレームワークを用いて、いずれの領域でも安全な臨床展開を可能にする有限サンプルの被覆保証を実現したことを報告しています。
本技術報告書は、従業員離職予測および都市リソース配分システムという異なるドメインでの評価を通じて、説明性 AI 戦略設計のための汎用的な意思決定支援ツールとしての「説明性ソリューション空間(ESS)」フレームワークの妥当性を拡張的に実証したものである。
2026 年の F1 新規定における不完全観測条件下でのエネルギー戦略最適化のため、競合他車の隠れた状態を隠れマルコフモデルで推論し、その推論結果を Deep Q-Network に投入して意思決定を行う 2 層フレームワークを提案し、敵の欺瞞的な「カウンターハーベスト」戦略の検出や ERS 状態の高精度推定を実現する手法を示しています。
本論文は、メタデータの意味的異質性と統計的分布シフトという二重の課題を、LLM 駆動のセマンティック統一化と階層的行動空間における適応的モンテカルロ木探索によるアーキテクチャ合成という二つの専用メカニズムで解決し、人手を介さずに単一細胞干渉実験の自動モデル構築を実現する「HarmonyCell」というエンドツーエンドのエージェントフレームワークを提案するものである。