Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis
本論文は、音声と動画データを統合して喉頭動画から重要なセグメントを抽出し、拡散モデルによる精緻化や角度偏差測定を用いて声帯麻痺の検出精度を向上させた支援診断システム「MLVAS」を提案し、その有効性を実証したものである。
6348 件の論文
本論文は、音声と動画データを統合して喉頭動画から重要なセグメントを抽出し、拡散モデルによる精緻化や角度偏差測定を用いて声帯麻痺の検出精度を向上させた支援診断システム「MLVAS」を提案し、その有効性を実証したものである。
この論文は、AI を活用したテストケース生成と検証が、従来のソフトウェアテストが抱える課題を解決し、効率性・精度・拡張性を飛躍的に向上させる可能性と、その実装における課題や実用例について考察している。
本論文は、データ移動やメモリアクセスなどのオーバーヘッドを包括的に評価する厳密なエネルギーモデルを用いて、特定の条件下(平均スパイク率が 6.4% 未満など)でのみスパイクニューラルネットワーク(SNN)が従来の量子化人工ニューラルネットワーク(QNN)を上回るエネルギー効率を実現し得ることを実証し、スマートウォッチのバッテリー寿命を倍増させる可能性を示唆しています。
この論文は、物理システムの数学的構造と安定性を保ち、入力と潜在空間の力を双方向に変換可能にする「結合振動子ネットワーク(CON)」を提案し、これにより画像からのみ学習した複雑な非線形力学を閉形式の制御理論と組み合わせて効率的に制御する手法を実現したことを示しています。
本論文は、ボルツマン分布からの効率的なサンプリングを目的として、ノイズ付きエネルギーの学習に基づく拡散サンプリング手法「NEM」と、そのバイアスと分散を調整するブートストラップ技術を組み合わせた「BNEM」を提案し、複雑な分布における最先端の性能と頑健性を示しています。
CLIP などの事前学習済み基盤モデルを活用してオンラインで視覚的プロンプトを自動生成・更新し、対照的なガイダンスを通じて不要な対象を抑制することで汎用オブジェクトトラッキングの性能を向上させる新しい手法「PiVOT」を提案する論文です。
この論文は、Mori-Zwanzig 形式に着想を得て、遅延時間変数をデータから学習するニューラル遅延微分方程式(NDDE)を提案し、部分観測条件下での非マルコフ的動的システムのモデル化において、既存の手法よりも優れた性能とデータ効率を実現することを示しています。
この論文は、畳み込みニューラルネットワークの層パラメータをニューラル常微分方程式によって記述される連続的な力学系としてモデル化する「Puppet-CNN」を提案し、入力複雑さに応じて計算量を動的に調整可能にしながら、保存される学習パラメータを大幅に削減しつつ競合する予測性能を達成することを示しています。
この論文は、生成タスクの複雑さに応じて拡散過程自体を各サンプルに動的に適応させる「入力適応型生成ダイナミクス」を提案し、固定された拡散軌道に依存する従来の手法よりも少ないサンプリングステップで高品質な画像生成を実現することを示しています。
この論文は、競合相手の状態や行動を直接知らずに学習するコンテキストフリーのマルチアームバンディットアルゴリズムが、行動の同期性によって「単純な共謀(naive collusion)」を学習する現象を解明し、その発生が使用されるアルゴリズムの確率的・決定論的特性に依存することを示しています。
本論文は、2D LiDAR とオドメトリを搭載したロボットがクラウドに生データを送信して深層学習によるリアルタイム地図構築を行う生涯 SLAM システムにおいて、センシング・通信・移動速度を統合的に設計・最適化することでエネルギー効率を最大化する手法を提案し、シミュレーションと実験でその有効性を検証したものである。
この論文は、マルチモーダルタスクにおける既存の評価指標の限界を克服するため、基準ごとのスコアを統合して総合評価を行う参照不要の指標「HarmonicEval」を提案し、4 つのタスクにわたる 18,000 件の専門家の人間評価を含む新しいベンチマーク「MMHE」を構築してその有効性を検証したものである。
この論文は、事前学習された視覚言語モデル(VLM)を活用して画像から抽象的な記述子(述語)を学習し、これを用いた記号的な世界モデルを構築することで、限られた短いデモンストレーションから未知の環境や目標、そして長期のタスクに対するゼロショットな汎化を実現するロボット制御手法を提案しています。
この論文は、ラベル付きデータと境界付近の unlabeled データを効率的に選択・生成する潜在クラスタリングベースの手法を提案し、半教師あり敵対的トレーニングのデータ量と計算コストを大幅に削減しながら、高い敵対的堅牢性を維持することを示しています。
この論文は、高計算コストやブラックボックスモデルへの適用限界といった既存のアンサンブル手法の課題を解決するため、ピボット翻訳を用いて多様な候補を生成し、それらを事後に統合する「単一モデルアンサンブルフレームワーク」を提案し、低リソース言語対における翻訳品質の向上を実証したものである。
この論文は、モデルの勾配を利用して社会的バイアスを特徴とするニューロンに符号化する新しいエンコーダー・デコーダー手法を提案し、モデルの能力を維持したままバイアスを修正・書き換えることを可能にするものである。
本論文は、符号付きネットワークにおける極性コミュニティ発見の問題に対し、サイズ不均衡を回避する新しい最適化目的関数を導入し、中立ノードを含む大規模ネットワークに拡張された効率的な局所探索アルゴリズムを提案し、その線形収束性を証明するとともに、実データおよび合成データを用いた実験で最先端手法を上回る解の質を達成したことを報告するものである。
この論文は、大規模言語モデルの連合学習において、LoRA(低ランク適応)を用いることで、学習データの記憶(memorization)を最大 10 倍削減し、性能を大幅に損なうことなくプライバシーを強化できることを示しています。
本論文は、拡散モデルに基づく構造表現プロンプトとスケール再生トレーニング機構を導入し、教師なし学習で構造情報を保持しながら高品質な単一画像ノイズ除去を実現する「Prompt-SID」を提案するものである。
この論文は、教育や医療など倫理的に敏感な領域における AI の解釈可能性と精度のバランスを定量化するため、粗粒度分割とカテゴリー統合に基づく情報損失の離散的枠組みを提案し、その数学的性質と応用可能性を示しています。