VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs
この論文は、大規模言語モデル(LLM)を構造化された意味教師として活用して医療用ビジョントランスフォーマー(ViT)を事前学習させる「VIVID-Med」フレームワークを提案し、LLM を学習後に破棄することで軽量かつ展開可能なモデルを実現しつつ、BiomedCLIP を上回る高性能な医療画像分析を達成したことを報告しています。
2392 件の論文
この論文は、大規模言語モデル(LLM)を構造化された意味教師として活用して医療用ビジョントランスフォーマー(ViT)を事前学習させる「VIVID-Med」フレームワークを提案し、LLM を学習後に破棄することで軽量かつ展開可能なモデルを実現しつつ、BiomedCLIP を上回る高性能な医療画像分析を達成したことを報告しています。
既存の言語駆動型ナビゲーション手法が機能性建物における類似特徴や事前空間知識の活用不足に直面する課題を解決するため、環境マップを意味事前マップに変換し、階層的な思考連鎖プロンプトとマルチモデル協調メカニズムを導入した「PM-Nav」を提案し、シミュレーションおよび実世界での大幅な性能向上を実証した。
この論文は、複雑な指先操作における視覚言語行動モデルの信頼性と適応性を向上させるため、腕と手の協調介入を可能にする初のヒト・イン・ザ・ループフレームワーク「DexHiL」を提案し、実機実験でオフライン微調整のベースラインを平均 25% 上回る成功率を達成したことを報告しています。
この論文は、未知かつ非一様な劣化に直面する実世界環境において、不確実性に基づいてノイズ注入強度を適応的に調整する「不確実性誘導ノイズ生成(UNG)」モジュールと、マルチモーダル大規模言語モデル(MLLM)を用いた「品質認識事前知識(QAP)」を統合した新しい拡散モデル「QUSR」を提案し、高忠実度かつ高現実的な画像超解像を実現するものです。
複数の大規模言語モデル(LLM)からなる審議システムは、役割の分化やモデルの多様性によって決定論的挙動が崩れカオス的振る舞いを示すことが実証され、その安定性監査がガバナンス設計の核心要件であることが示されました。
この論文は、クラスインクリメンタル学習における特徴の衝突を因果的観点から解決するため、内タスクおよび間タスクの因果的完全性と分離性を定量化する拡張 PNS(CPNS)に基づく正則化手法を提案し、双方向のカウンターファクトル生成器を用いて特徴の衝突を効果的に抑制することを示しています。
この論文は、非構造化テーブルにおける複雑な長期的分析タスクを「Deep Tabular Research」として定式化し、階層的メタグラフ、期待値認識型選択ポリシー、および継続的学習を可能にするシアン構造メモリを備えた閉ループ型エージェントフレームワークを提案することで、戦略的計画と低レベル実行を分離した効率的な推論を実現することを示しています。
この論文は、文脈長の制約や幻覚、単一エージェントの限界といった既存の表質問応答(TableQA)の課題を克服するため、データリーダー、データベースチーム、知識グラフチームによる協調と自動知識変換を導入したマルチエージェントフレームワーク「DataFactory」を提案し、複数のベンチマークで大幅な精度向上を実証したものである。
TrustBench は、LLM ベースの自律エージェントが実行前に行動の安全性を検証するリアルタイムフレームワークであり、ドメイン固有のプラグインにより有害な行動を 87% 削減し、200ms 未満の遅延で実用的な信頼性保証を実現する。
RubiCap は、LLM が作成した評価基準(ルブリック)に基づいて報酬信号を生成する強化学習フレームワークを導入し、高密度画像キャプション生成において既存の教師あり蒸留や RL 手法、さらには人間専門家やプロプライエタリモデルを上回る性能と効率を実現しました。
本論文は、機能的に不完全でも構造的なパターンが機能意図を反映する LLM 生成 RTL を活用して合成ネットリストの表現学習を行う新たなフレームワークを提案し、実世界の回路設計におけるデータ不足というボトルネックを解消することを示しています。
本論文は、Transformer の自己注意機構に地質学的な相関情報を組み込む「地質情報付与型アテンション・トランスフォーマー(GIAT)」を提案し、井戸ログからの岩相識別において既存モデルを上回る高精度と解釈可能性を実現したことを報告しています。
この論文は、大規模なロボット遠隔操作データ収集を不要とし、人間の一人称視点動画から直接学習することで、自然で多様な全身動作を可能にする新しいヒューマノイド制御フレームワーク「ZeroWBC」を提案し、Unitree G1 による実験でその有効性を示したものである。
この論文は、LLM ベースのコード変異エージェント「AlphaEvolve」を用いて、5 つの古典的ラムゼー数(、、、、)の既知の下限値をそれぞれ 1 ずつ引き上げる新たな結果を達成し、従来の個別の検索アルゴリズムに代わる単一のメタアルゴリズムとして機能したことを報告しています。
本論文は、確率的な交通流ダイナミクスに基づいて分布制約を導出する新しい物理情報生成モデルを提案し、交通状態の推定や渋滞リスク評価を確率的に行うための枠組みを提供するものである。
本論文は、従来の VAD 依存型パイプラインの制約を克服し、LLM の高度な対話能力を維持しながら双方向のリアルタイム音声対話を可能にする「DuplexCascade」という、マイクロターン最適化と制御トークンを活用した VAD 不要のストリーミング型音声対話システムを提案し、オープンソースの音声対話システムにおいて最先端の性能を達成したことを示しています。
この論文は、計画能力に優れた離散拡散言語モデルと流暢なテキスト生成が得意な自己回帰モデルを潜在空間で連携させる「Latent-DARM」を提案し、多様な推論タスクにおいて既存のテキストベースのインターフェースを凌駕する精度向上と、最先端の推論モデルに匹敵する性能を極めて少ないトークン数で実現することを示しています。
この論文は、テキストチャンクを「手法ノード」に置き換え、二重の木構造(方法の由来ツリーと階層的クラスタリングツリー)と戦略的エージェント、検証層を組み合わせることで、多段階の推論プロセスを制御可能かつ説明可能、検証可能なものにする「説明可能なイノベーションエンジン」を提案し、その有効性を示したものです。
この論文は、LLM の論理的推論能力の向上が、推論、帰納、仮説形成を通じて AI の状況認識(自己認識や戦略的欺瞞など)を機械的に促進する「RAISE」フレームワークを提示し、現在の安全対策の限界を指摘するとともに、論理推論研究コミュニティに対し、この危険な軌道に対する具体的な安全策と責任を問うている。
この論文は、検索品質評価を明示的な行動に変換し、評価スコアに基づいて利得を再スケーリングする新しい最適化手法(PCAR)を組み合わせることで、複雑な多段推論タスクにおける検索拡張エージェントの信頼性と精度を大幅に向上させる「EvalAct」を提案しています。