The unreasonable effectiveness of pattern matching
本論文は、大規模言語モデルが意味のない語彙で構成された「ジャバウォッキー」のような言語からも構造パターンに基づいて意味を回復できることを示し、パターンマッチングが真の知能の代替ではなく不可欠な要素であることを明らかにしている。
1723 件の論文
本論文は、大規模言語モデルが意味のない語彙で構成された「ジャバウォッキー」のような言語からも構造パターンに基づいて意味を回復できることを示し、パターンマッチングが真の知能の代替ではなく不可欠な要素であることを明らかにしている。
本論文は、事前学習段階で専門家の剪定と再編成を行う「Layer-Adaptive Expert Pruning(LAEP)」アルゴリズムを提案し、これにより事前学習効率を 49% 向上させつつ総パラメータ数を 33.3% 削減した、企業向けタスクに特化した 10100 億パラメータの MoE 型大規模言語モデル「Yuan3.0 Ultra」を開発したことを報告しています。
この論文は、サッカーのハイライト映像から人間が重要とみなす瞬間を特定するタスクにおいて、最先端のマルチモーダル基盤モデルが偶然レベルに近い性能しか示さず、単一モダリティへの依存やクロスモーダルな情報の統合不足が課題であることを明らかにし、モジュール化されたアーキテクチャと補完的な学習手法の必要性を提言しています。
本論文は、単一のモデルが検証済みの推論経路などの特権情報を持つ教師と、問題のみを見る学生として機能する「オンポリシー自己蒸留(OPSD)」フレームワークを提案し、これにより従来の教師モデルを必要とする手法や強化学習手法よりも高い推論性能とトークン効率を実現することを示しています。
本論文は、強化学習におけるサンプリング効率のボトルネックを解消するため、各プロンプトの成功確率をガウス過程で予測し、勾配分散を最小化する凸最適化問題を通じてロールアウト数を動的に割り当てる「VIP」という新しい戦略を提案し、複数のベンチマークで均一割り当てやヒューリスティック手法を上回る性能を実証したものである。
本論文は、化学推論における言語トークンの制約を回避し、連続的な潜在空間で直接推論を行う「LatentChem」を提案し、これが言語生成を伴わない推論の自律的獲得を通じて、精度と推論速度の両面で大幅な改善をもたらすことを実証しています。
本論文は、対話型 API 発見のための「スキーマガイド型対話(SGD)」と LLM ツール統合の標準である「モデルコンテキストプロトコル(MCP)」が、スキーマによる決定論的かつ監査可能な LLM エージェント相互作用という共通のパラダイムに収束していることを示し、その統合から導き出された 5 つの設計原則を通じて、AI システムのガバナンスをスケーラブルに実現する新たな道筋を提示しています。
本論文は、AI による精神保健支援の潜在的なリスクを評価するため、動的な認知・情動モデルを持つ模擬患者と AI 療法士との対話をシミュレーションする「臨床的 AI 赤チームング」フレームワークを提案し、アルコール使用障害を事例とした大規模評価において、AI が患者の妄想を肯定したり自殺リスクを軽視したりする重大な安全性の欠陥を明らかにしたことを報告しています。
LLM のジャイルブレイク技術の急速な進化に伴うベンチマークの陳腐化問題を解決するため、論文を即座に実行可能なモジュールに変換し、統一された環境で再現性と標準化された評価を可能にするマルチエージェントシステム「JAILBREAK FOUNDRY」を提案する。
この論文は、数学的推論における報酬の希薄性という課題を解決するため、人間の解答をモデルの推論分布内に統合して生成する「参照ガイド型微調整(ReGFT)」を提案し、これにより強化学習の学習効率と最終性能を向上させる手法を提示しています。
本論文は、2009 年から 2025 年にかけての 393 名の国会議員による約 2,300 時間のヘブライ語音声データ「VoxKnesset」を公開し、15 年間の経年変化に伴う音声認識および話者認証の性能低下を実証的に分析するとともに、加齢に頑健な音声システム開発への基盤を提供するものである。
本論文は、拡散 LLM やマルチモーダル LLM における動的なアクティベーションの分布を考慮し、重みとアクティベーションの変換を分離する新しい量子化フレームワーク「FreeAct」を提案し、既存手法を最大 5.3% 上回る性能向上を実現したことを示しています。
本論文は、スペクトラルクラスタリングにおける標準的な k 近傍グラフの連結性欠如という課題に対し、新たなノードを既存ノードに順次接続することで任意の k 値で連結性を保証する「インクリメンタル k 近傍グラフ構築法」を提案し、テキスト埋め込みデータのクラスタリング精度向上を実証したものである。
この論文は、集合値集合関数に基づくテンプレートベースのモジュラー認知モデルを提案し、リフ語の例示を通じて名詞の文法性シフトや語形成における非線形的な動的マッピングの背後にあるパターンを数学的に記述する統合的枠組みを構築しています。
この論文は、線形 RNN が非線形 RNN と異なりトランスフォーマーと同様に並列化可能である理由を、線形 RNN が対数深さの算術回路( 等)として記述できるのに対し、非線形 RNN は並列化の根本的な障壁となる P 完全問題などを解き得るという計算複雑性理論の観点から解明し、表現力と並列性の最適なバランスを設計するための基礎を提供しています。
この論文は、独立研究者が低予算で実施した研究であり、ポーランド語の 110 億パラメータモデル「Bielik-11B」に対して 6 種類の最先端 2 ビット量子化手法を比較評価し、QuIP# がベースラインと同等の性能を維持しつつ、QTIP が最も高い効率性を示す一方で、回転ベースの手法には自動生成における重大な欠陥が存在することを明らかにしました。
この論文は、Deep Research エージェントが検索前に生成する推論プロセスを意図的に活用する「Reasoning-Aware Retrieval」とデータ合成手法「DR-Synth」を提案し、これらを組み合わせて構築した埋め込みモデル AgentIR-4B が、従来の大規模モデルや BM25 を凌ぐ性能で高度な検索タスクを達成することを示しています。
本論文は、RAG 実験と生産システム間のギャップを埋めるため、データ表現・埋め込み・検索ロジックを分離したモジュラー型基盤「SearchGym」を提案し、ハイブリッド検索の最適順序に関する分析と LitSearch ベンチマークでの高い性能を実証しています。
本論文は、AI アージェントの金融データ検索能力を評価する新たなベンチマーク「FinRetrieval」を提案し、構造化データ API の利用が性能を決定づける一方、推論モードや地理的要因の影響はモデルの基盤能力やデータ形式に依存することを明らかにした。
本研究は、16,000 件以上の TripAdvisor 評価を大規模言語モデル(LLM)で分析し、従来の指標では捉えきれないエジプト航空とエミレーツ航空のサービス品質の微妙な要因を解明し、特にエジプト航空における運航改善と旅客満足度の低下の乖離や、コミュニケーション不足などの具体的な課題を特定する有効な診断手法を提示しています。