Dynamic Chunking Diffusion Transformer
本論文は、画像の領域ごとの情報量や拡散段階に応じてトークン数を動的に調整する「Dynamic Chunking Diffusion Transformer(DC-DiT)」を提案し、事前学習済みモデルからの効率的なアップサイクルを可能にしながら、計算コストを削減しつつ生成品質を向上させることを実証しています。
7354 件の論文
本論文は、画像の領域ごとの情報量や拡散段階に応じてトークン数を動的に調整する「Dynamic Chunking Diffusion Transformer(DC-DiT)」を提案し、事前学習済みモデルからの効率的なアップサイクルを可能にしながら、計算コストを削減しつつ生成品質を向上させることを実証しています。
この論文は、高次元の産業データにおけるノイズや冗長性を抑制し、潜在空間の学習とゲーム理論に基づく解釈可能性を統合したハイブリッド深層学習フレームワーク「CLAIRE」を提案し、スマート製造における高精度な故障検出と説明可能な AI の実現を示しています。
本論文は、AI 生成コードのセキュリティ監査において、LLM との自由な対話ではなく、イベントソーシングと検証可能なアーキテクチャを用いて、再現性のある証拠に基づく監査プロセスを実現する「ESAA-Security」フレームワークを提案しています。
この論文は、離散かつノイズの多いデータから空間微分を学習するための「運動学的正則化(KBR)」を拡張し、明示的・陰的の 2 種類の手法を提案することで、1 次元 PDE の安定した衝撃波捕捉や不規則な点群上での保存則の維持を実現する手法を示しています。
本論文は、セマンティックに同等なプロンプト間の一貫性を欠くという SAM3 の課題を「プロンプトグループ」概念で再定義し、品質誘導正則化とロジットレベルの整合性制約を導入することで、アーキテクチャ変更なしにテキスト誘導核分割のロバスト性と汎化性能を大幅に向上させるフレームワークを提案しています。
この論文は、大規模言語モデルによる自然言語での柔軟な指示と科学的ワークフローに必要な厳密な実行の両立を可能にするため、実行前にスキーマによる検証を義務付ける「スキーマゲート型オーケストレーション」を提案し、その有効性を多モデル評価を通じて実証しています。
この論文は、拡散モデルで生成された動画に物理シミュレータを統合して物体の運動軌跡を物理法則に準拠させ、さらにテスト時のテクスチャ最適化手法により一貫性を高めることで、物理的に整合性が高く視覚的品質も保たれた動画生成を実現する「PSIVG」という新しいフレームワークを提案しています。
本論文は、強化学習フレームワークのアーキテクチャパターンに共通基盤を欠くという課題に対処するため、グラウンデッド・セオリーを用いた 18 のフレームワーク分析に基づき、参照アーキテクチャを提案し、その有効性を示すとともに将来の改善方向を明らかにするものである。
本論文は、既存のゼロショットモデル「nnInteractive」の少数パラメータを継続的に適応させる「CLoPA」を提案し、多様な医療画像タスクにおいて単一のトレーニングエピソードで専門家レベルの性能を達成し、特に複雑な幾何学構造を持つ標的においても効果的であることを示しています。
本論文は、大規模言語モデル(LLM)が演繹だけでなく帰納的推論(アブダクション)においても人間と同様のバイアスを示すかどうかを、三段論法形式のデータセットを変換して検証し、文脈に即した推論の重要性を明らかにするものである。
本論文は、事前学習済み LLM 音声合成モデルを弱時間整合データで適応させ、限定的な未来テキストに基づいて内容境界で早期停止を学習するプロソディ境界認識型ポストトレーニング戦略とスライディングウィンドウ推論を提案し、ストリーミングテキスト入力における不自然なプロソディと長文生成の崩壊を解決し、CosyVoice 型ベースラインを短・長文両面で上回る性能を実現したものである。
本論文は、視覚言語モデルの凍結された特徴空間にテキスト生成経路では表現され得ない連続的な幾何学情報が埋め込まれており、軽量な線形プローブを用いることで微調整やテキスト生成なしに高精度な物理測定が可能であることを実証しています。
この論文は、ユーザーの専門性や目標に応じた信頼性の高い説明を生成するために、LLM のハルシネーションを防ぎつつフィードバックループで個人化を実現する XAI 枠組み「PONTE」を提案し、医療・金融分野での評価でその有効性を示したものである。
本論文では、事前学習から適用可能な新しいアーキテクチャ拡張「NOBLE」を提案し、非線形低ランク分岐をトランスフォーマーの線形層に追加することで、最小限のパラメータ増加と計算コストでトレーニング効率を大幅に向上させることを示しています。
COLD-Steer は、ラベル付き例からの勾配降下による表現変化を推論時に近似することで、従来の手法に比べて 50 倍少ないサンプル数で大規模言語モデルの振る舞いを効率的に制御するトレーニング不要なフレームワークです。
この論文は、22 病院の 9,215 人の胎児から得られた 45,139 枚超の超音波画像で学習した AI システムが、口唇口蓋裂の診断において経験豊富な放射線科医と同等の精度を達成し、若手医師の診断精度向上と専門知識の習得加速の両方に寄与する可能性を示したものである。
本論文は、多様なデバイスや環境、質問意図に対応するため、音声エンコーダと言語生成モデルを条件付きで専門的に切り替える階層的な専門化メカニズムを導入した呼吸音質問応答システム「RAMoEA-QA」を提案し、既存モデルを上回る精度と汎化性能を達成したことを報告しています。
本論文は、市販の Wi-Fi 対応ノートパソコン(Intel AX211/BE201 チップセット搭載)を、通信機能を維持したままリアルタイムでセンチメートル単位の距離・ドップラーセンシングを可能にする「LiveSense」というプラットフォームを提案し、限られた帯域幅(160MHz)にもかかわらず商用 Wi-Fi からの高精度な距離推定を初めて実現したことを示しています。
この論文では、深層強化学習エージェントが早期の報酬信号に過剰に依存する問題を解決するため、記号的な構造をニューラルネットワークに注入する「ハイブリッド階層強化学習(H^2RL)」という 2 段階のフレームワークを提案し、論理的なオプションを用いた事前学習により長期目標指向の行動を促進し、既存の手法を上回る性能を実証しています。
本論文は、外科手術の意図や判断根拠を解説する学術動画から大規模なデータセット「SUREON」を構築し、これを用いてトレーニングされた視覚言語モデルが、従来の一般領域モデルを上回る手術推論能力を有することを示したものです。