When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
この論文は、多様な訓練データを用いてLoRAで微調整されたQwen-0.5Bモデルが、音声クローンタスクにおいて話者一貫性、知覚品質、信号対雑音比のすべてにおいて凍結ベースモデルを上回ることを示し、データ多様性がLLMベースTTSの汎化性能を決定づける要因であることを実証しています。
2385 件の論文
この論文は、多様な訓練データを用いてLoRAで微調整されたQwen-0.5Bモデルが、音声クローンタスクにおいて話者一貫性、知覚品質、信号対雑音比のすべてにおいて凍結ベースモデルを上回ることを示し、データ多様性がLLMベースTTSの汎化性能を決定づける要因であることを実証しています。
本論文は、複数のガウス混合モデルクラスタリングの制約を反復的に選択・最適化する「Historical Consensus Training」を導入することで、アーキテクチャの制約やハイパーパラメータの調整なしに、変分オートエンコーダにおける後方崩壊を根本的に防止し、安定した潜在表現を学習可能にする手法を提案しています。
本論文は、従来の期待値ベースの制約では捉えきれない分布の尾部リスクや分布外故障に対処するため、最適輸送枠組みを用いた第一階確率支配制約を導入し、スペクトルリスク測度を普遍的に制御する新しい安全 RLHF 手法「RAD」を提案し、有害性の向上と分布外評価における堅牢性の両立を実証したものである。
本論文は、物体表面と手のキーポイントの接触状態を学習されたハッシュコードで条件付けされた接触カウンターを用いて、多様な接触パターンの探索を促進する「接触カバレッジ誘導探索(CCGE)」を提案し、複雑な器用な操作タスクにおける学習効率と成功率の向上、および実世界への堅牢な転移を実現したことを示しています。
本論文は、物体検出モデルから得られる明示的な空間的グラウンディング情報を視覚言語モデルに統合する「GroundCount」フレームワークを提案し、これにより数え上げタスクにおけるハルシネーションを軽減し、複数のモデルで精度向上と推論時間の短縮を実現することを示しています。
本論文は、AI(機械学習や自然言語処理)が要件管理からコード生成・テストまでの業務を自動化し、アジャイル開発の効率化とソフトウェア工学におけるイノベーションを促進する重要な触媒であることを、文献レビューと実証調査を通じて明らかにしています。
この論文は、前衛的AIシステムの評価に用いられる人間の能力向上研究(RCT)において、急速な技術進化や実環境の複雑さが因果推論の仮定と対立するという課題を16人の専門家へのインタビューを通じて明らかにし、高リスクな意思決定におけるエビデンスの限界と適切な活用方法を提言するものである。
この論文は、コンピュータサイエンスと美術史の専門家による共同研究を通じて、ビジョン・ランゲージモデルが芸術様式を認識するメカニズムを解明し、その判断根拠の約 9 割が美術史家の基準と整合していることを示しています。
この論文は、任意の有限単純グラフを 9 文字の命令アルファベットからなるコンパクトな文字列として表現する「IsalGraph」という手法を提案し、その文字列がグラフ同型不変であり、グラフ編集距離と強い相関を持つことを示しています。
既存のテキスト音楽生成モデルが抱える微細な時間制御の課題を、対データなしで動画イベントと音楽イベントの時間的変化構造をそれぞれ独立して捉える「イベント曲線」を用いることで解決し、動画に時間的に同期した音楽を生成するゼロショット手法「V2M-Zero」を提案した。
この論文は、表面温度の過渡測定から材料特性の定量的な 3 次元再構成を可能にする、微分可能な物理ソルバーを基盤としたニューラル場熱トモグラフィ(NeFTY)という新しいフレームワークを提案し、従来の手法が抱える側方拡散の無視や勾配の剛直性などの課題を克服して内部欠陥の高精度な特定を実現することを示しています。
本論文は、RGB 深度画像を表面光場のサンプリングとして捉え、これをコンパクトな潜在ベクトルに符号化することで幾何形状と視点依存の見た目を統合的に表現する「LiTo」を提案し、単一画像から照明や材質を考慮した高品質な 3D 物体を生成する手法を示しています。
この論文は、YouTube のコメディ動画から学習した LLM 批評家と制作スタジオの役割を模倣したエージェント群を用いて、 iteratively な競争と評価を通じて SNL などのスケッチショーに匹敵する高品質なコメディ動画を自動生成する AI システム「COMIC」を提案しています。
本論文は、自動運転における複雑な交通環境での歩行者検出精度向上を目指し、視覚モデルではなく座標値の分布から欠損キープイントを学習する自己教師あり敵対学習フレームワーク「SDR-GAIN」を提案し、COCO および JAAD データセットでの実験により、既存手法を上回る高精度な欠損補完とマイクロ秒レベルのリアルタイム推論を両立したことを示しています。
この論文は、EEG 信号の時間・スペクトル特徴を融合するトランスフォーマーと、既存データから新規被験者への知識転移を可能にする被験者固有アダプターを組み合わせることで、RSVP-BCI のデコーディング性能を向上させつつ新規被験者の学習データを最小化し、システムの実用化を加速させる手法「TSformer-SA」を提案しています。
本論文は、複数のカメラ角度やフィールドの遮蔽といった課題に対処するため、3D サッカー場モデルとキーポイント、および検出されたラインを活用した非線形最適化パイプライン「PnLCalib」を提案し、既存手法を上回るカメラ較正精度とロバスト性を達成したことを示しています。
本論文は、事前学習済みの拡散モデルの強固な画像知覚能力を活用し、軽量な学生モデルへの知識蒸留を通じて汎化性能を維持・向上させることで、野生環境におけるブラインド画像品質評価(IQA)の最先端性能を達成する新たな手法「DP-IQA」を提案するものである。
本論文は、歴史的テストデータと地図ネットワークを活用して事前定義なしに高リスクシナリオを予測・生成する「ScenarioFuzz」を提案し、60.3% の時間削減と 103% のバグ発見率向上を実現するとともに、58 のバグと 54 の高リスクカテゴリを特定することで自動運転システムの安全性検証を革新したことを示しています。
本論文は、自動運転車における高解像度地図の更新を目的とした分散マルチエージェント環境でのQ学習単一エージェント手法の拡張性を評価し、個々のエージェントの学習負荷を軽減しつつ、ネットワーク全体の性能を向上させることで、音声・動画・HD地図などのトラフィックにおいて単一エージェント方式と比較して大幅な遅延改善を実現することを示しています。
この論文は、部分的観測性と報酬の希薄性という課題に直面する分散型マルチエージェント強化学習において、異種エージェント間の協調を促進するために、グラフニューラルネットワークを活用した新しい内在的報酬メカニズム「CoHet」を提案し、複数のベンチマークで最先端の手法を上回る性能を実証したものである。