Turn: A Language for Agentic Computation
本論文は、大規模言語モデルによる推論を型安全なプリミティブとして統合し、信頼性、隔離、永続性を言語レベルで保証する、自律的エージェント向けコンパイル型プログラミング言語「Turn」の設計と実装を提案しています。
2258 件の論文
本論文は、大規模言語モデルによる推論を型安全なプリミティブとして統合し、信頼性、隔離、永続性を言語レベルで保証する、自律的エージェント向けコンパイル型プログラミング言語「Turn」の設計と実装を提案しています。
本論文は、群が空間に推移的に作用する際、上の不変関数がの isotropy 部分群がに作用する不変関数に還元可能であることを示し、これにより任意の群作用と均質な条件空間に対応する等変ニューラルフィールドの構造的制約を解消する手法を提案しています。
この論文は、ポップス向けに設計された既存モデルでは性能が不十分だった電子ダンスミュージック(EDM)の構造セグメンテーション課題に対し、EDM 特有のエネルギーやリズムの変化に焦点を当てた自己教師あり学習と専門データセット「EDM-98」を活用したトランスフォーマーモデル「EDMFormer」を提案し、特にドロップやビルドアップの検出精度を大幅に向上させたことを報告しています。
この論文は、航空宇宙や原子力などの安全クリティカルな産業で培われた保証手法の教訓を Frontier AI の安全性ケースに適用し、現在のアライメント研究の限界を克服して、より堅牢で防御可能な安全性評価の基盤を再構築することを目的としています。
この論文は、複雑な意思決定問題を自然な階層構造で圧縮し、スキルベースのカリキュラム学習を通じてタスクを分解・転移させることで、効率的な多レベルメタ強化学習を実現する手法を提案しています。
この論文は、大規模言語モデル(LLM)を活用して、超伝導量子ビットの制御と測定を自動化し、標準プロトコルの迅速な展開や新規実験手順の実装を可能にするフレームワークを提案し、共振器特性評価や量子非破壊測定の実証を通じてその有効性を示したものである。
この論文は、エージェントのプロンプトを「コンパイルされた成果物」と見なす「テスト駆動型 AI エージェント定義(TDAD)」手法を提案し、可視/非可視テストの分割や意味的変異テストなどのメカニズムを通じて、ツールを使用する LLM エージェントの仕様ゲーミングを防止し、本番環境での行動準拠性を測定可能にするアプローチを示しています。
本論文は、大規模言語モデル(LLM)と記号プランナーを組み合わせ、環境からタスクに関連する情報のみを抽出して計画の複雑さを軽減する「Scale-Plan」フレームワークと、その評価用の新ベンチマーク「MAT2-THOR」を提案し、異種多ロボットチームにおける長期的タスク計画の拡張性と信頼性を向上させたものである。
この論文は、TREC NeuCLIR 2024、TREC RAG 2024、WikiVideo などのベンチマークを用いた実証研究を通じて、検索段階の「カバレッジ」指標が生成された回答の情報網羅性を予測する信頼性の高い先行指標となり得ることを示し、特に検索と生成の目的が一致する際にその相関が顕著であることを明らかにしています。
この論文では、自然言語による指示制御、マルチスピーカー・マルチターン生成に対応し、高品質なストリーミング推論を実現するオープンソースの音声合成システム「Fish Audio S2」およびそのトレーニング手法とリソースの公開について紹介しています。
この論文は、トランスフォーマーなどの高表現力なバックボーンに依存する従来のアプローチを見直し、残差接続を備えたモジュール型メッセージパスフレームワーク「GenGNN」を提案することで、離散グラフ生成において高い有効性を維持しつつ推論速度を大幅に向上させることを実証しています。
この論文は、LLM ベースのマルチエージェントシステムの評価においてモデルだけでなくシステム全体の構成要素(トポロジーやオーケストレーションなど)を包括的に評価する新しいフレームワーク「MASEval」を提案し、フレームワークの選択がモデルの選択と同様に性能に大きな影響を与えることを示しています。
本論文は、4 種類の癌でバランスよく学習された軽量な深層学習モデル「MuCTaL」を開発し、既知の癌種だけでなく未知の癌種(膵管癌など)に対しても高い汎化性能を示す、実用可能なマルチ癌種腫瘍局在化フレームワークを提案しています。
この論文は、モデルのアイデンティティや推論プロファイルなどを第一級プリミティブとして取り込み、効率的かつ管理可能なマルチエージェント LLM システムの実現を目指す新しい通信プロトコル「LLM Delegate Protocol (LDP)」を提案し、その実装と評価を通じて、アイデンティティ感知型ルーティングによる遅延削減や構造化ペイロードによるトークン効率の向上などの実証的利点を示しています。
この論文は、最適化問題における人間の解釈性を高めるために、貪欲ヒューリスティックとの整合性、コンテナ内の単純な構成、および順序付けられた視覚的表現という 3 つの構造的性質が重要であることを実験的に実証し、最適性と解釈性のトレードオフを定量化する道筋を示しています。
この論文は、予算制約下でのエージェント型 RAG システムにおいて、検索の深さや検索戦略、生成トークン数の予算が精度とコストに与える影響を 6 種類の LLM と 3 つのベンチマークを用いて体系的に評価し、実用的な設定指針を提供するものである。
この論文は、ハイブリッド情報システムにおける高次元空間での計算コストとノイズ問題を解決するため、オブジェクト間の結合距離に基づき正規および楽観的モードで動作する新しい特徴量選択モデル「FSbuHD」を提案し、UCI データセットを用いた実験で既存手法を上回る効率性と有効性を示したものである。
本論文は、ネットワークトラフィックの独立性の高い特徴を特定するアルゴリズムと拡散モデルを組み合わせた「NetDiffuser」という新しいフレームワークを提案し、これにより自然な敵対的サンプルを生成して深層学習ベースのネットワーク侵入検知システムの検知精度を大幅に低下させることを実証しています。
本論文は、濃度不等式と多重検出補正を組み合わせ、ソースドメインのリスクプロファイルを用いてデータ不足環境での選択的予測の信頼区間を改善する「転移情報ベッティング(TIB)」を提案し、9 つの境界ファミリーを 4 つのベンチマークで包括的に評価した研究です。
FedLECC は、非 IID データ環境におけるフェデレーテッドラーニングの効率とスケーラビリティを向上させるため、ラベル分布の類似性に基づくクラスタリングと局所損失の指標を組み合わせて、少量かつ情報量の多いクライアントを賢明に選択する軽量な戦略を提案し、実験により精度向上と通信オーバーヘッドの大幅な削減を実証しています。