Input-Adaptive Generative Dynamics in Diffusion Models
この論文は、生成タスクの複雑さに応じて拡散過程自体を各サンプルに動的に適応させる「入力適応型生成ダイナミクス」を提案し、固定された拡散軌道に依存する従来の手法よりも少ないサンプリングステップで高品質な画像生成を実現することを示しています。
2393 件の論文
この論文は、生成タスクの複雑さに応じて拡散過程自体を各サンプルに動的に適応させる「入力適応型生成ダイナミクス」を提案し、固定された拡散軌道に依存する従来の手法よりも少ないサンプリングステップで高品質な画像生成を実現することを示しています。
この論文は、競合相手の状態や行動を直接知らずに学習するコンテキストフリーのマルチアームバンディットアルゴリズムが、行動の同期性によって「単純な共謀(naive collusion)」を学習する現象を解明し、その発生が使用されるアルゴリズムの確率的・決定論的特性に依存することを示しています。
本論文は、2D LiDAR とオドメトリを搭載したロボットがクラウドに生データを送信して深層学習によるリアルタイム地図構築を行う生涯 SLAM システムにおいて、センシング・通信・移動速度を統合的に設計・最適化することでエネルギー効率を最大化する手法を提案し、シミュレーションと実験でその有効性を検証したものである。
この論文は、マルチモーダルタスクにおける既存の評価指標の限界を克服するため、基準ごとのスコアを統合して総合評価を行う参照不要の指標「HarmonicEval」を提案し、4 つのタスクにわたる 18,000 件の専門家の人間評価を含む新しいベンチマーク「MMHE」を構築してその有効性を検証したものである。
この論文は、事前学習された視覚言語モデル(VLM)を活用して画像から抽象的な記述子(述語)を学習し、これを用いた記号的な世界モデルを構築することで、限られた短いデモンストレーションから未知の環境や目標、そして長期のタスクに対するゼロショットな汎化を実現するロボット制御手法を提案しています。
この論文は、ラベル付きデータと境界付近の unlabeled データを効率的に選択・生成する潜在クラスタリングベースの手法を提案し、半教師あり敵対的トレーニングのデータ量と計算コストを大幅に削減しながら、高い敵対的堅牢性を維持することを示しています。
この論文は、高計算コストやブラックボックスモデルへの適用限界といった既存のアンサンブル手法の課題を解決するため、ピボット翻訳を用いて多様な候補を生成し、それらを事後に統合する「単一モデルアンサンブルフレームワーク」を提案し、低リソース言語対における翻訳品質の向上を実証したものである。
この論文は、モデルの勾配を利用して社会的バイアスを特徴とするニューロンに符号化する新しいエンコーダー・デコーダー手法を提案し、モデルの能力を維持したままバイアスを修正・書き換えることを可能にするものである。
本論文は、符号付きネットワークにおける極性コミュニティ発見の問題に対し、サイズ不均衡を回避する新しい最適化目的関数を導入し、中立ノードを含む大規模ネットワークに拡張された効率的な局所探索アルゴリズムを提案し、その線形収束性を証明するとともに、実データおよび合成データを用いた実験で最先端手法を上回る解の質を達成したことを報告するものである。
この論文は、大規模言語モデルの連合学習において、LoRA(低ランク適応)を用いることで、学習データの記憶(memorization)を最大 10 倍削減し、性能を大幅に損なうことなくプライバシーを強化できることを示しています。
本論文は、拡散モデルに基づく構造表現プロンプトとスケール再生トレーニング機構を導入し、教師なし学習で構造情報を保持しながら高品質な単一画像ノイズ除去を実現する「Prompt-SID」を提案するものである。
この論文は、教育や医療など倫理的に敏感な領域における AI の解釈可能性と精度のバランスを定量化するため、粗粒度分割とカテゴリー統合に基づく情報損失の離散的枠組みを提案し、その数学的性質と応用可能性を示しています。
この論文は、時系列データと対応するテキストが共有する周期的な性質に着目し、既存の数値専用モデルのアーキテクチャを変更することなくマルチモーダル予測性能を向上させる新たなフレームワーク「Texts as Time Series (TaTS)」を提案しています。
この論文は、大規模言語モデル(LLM)を用いて脳活動に対応する画像の自然言語キャプションを生成する「LaVCa」という手法を提案し、従来の手法よりも正確かつ詳細に視覚野のボクセル選択性を記述し、脳内表現の微細な機能分化の解明に貢献することを示しています。
この論文は、タスクの難易度に基づいてクラスタリングを行い、予測可能な部分集合の性能を理論的に外挿する「難易度に基づくクラスタリング(COD)」フレームワークを提案し、大規模言語モデルの事前学習段階における下流タスク性能を高精度に予測する手法を確立したものである。
本研究は、BraTS データセットの多モーダル MRI 画像を前処理し、2D と 3D の UNET によるセグメンテーション結果を重み付き平均で融合して ResNet50 に投入する手法を提案し、99.25% の分類精度を達成することで、グリオーマのサブクラス分類の精度を大幅に向上させたことを示しています。
この論文は、UNet、Inception、ResNet アーキテクチャに基づき、2D と 3D 畳み込みの長所をバランスさせた深層学習モデルを提案し、BraTS データセットを用いた検証で Glioma の自動セグメンテーションにおいて高い精度(3D で Dice 0.9888、2D で 0.8312)を達成したことを報告しています。
この論文は、拡散モデルの微調整におけるサンプル効率と性能のバランスを改善するため、REINFORCE の分散低減技術と PPO のロバスト性を組み合わせた新しい強化学習手法「LOOP」を提案し、その有効性を示したものです。
この論文は、Minecraft のような動的環境における LLM ベッドのマルチエージェントシステムのリアルタイム応答性を向上させるため、中央集権的なメモリシステムとスキルライブラリを備えた双スレッド構造により、並列的な計画と実行を可能にする新たなフレームワークを提案し、その有効性を検証したものである。
本論文は、ウェアラブルデバイスや食事記録などのマルチモーダルデータと大規模言語モデルを統合した「GlucoLens」という説明可能な機械学習システムを開発し、食後高血糖の予測精度を向上させるだけでなく、個別の行動介入経路を提案することで糖尿病予防を支援する手法を提案しています。