Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds
本論文は、MFCC に依存する従来の手法よりも複雑な南アジアの環境音を高精度に分類できる、スペクトログラムと畳み込みニューラルネットワーク(CNN)を用いた新しいマルチラベル分類手法を提案し、SAS-KIIT および UrbanSound8K データセットでの検証によりその有効性を実証したものである。
50 件の論文
本論文は、MFCC に依存する従来の手法よりも複雑な南アジアの環境音を高精度に分類できる、スペクトログラムと畳み込みニューラルネットワーク(CNN)を用いた新しいマルチラベル分類手法を提案し、SAS-KIIT および UrbanSound8K データセットでの検証によりその有効性を実証したものである。
本論文は、動的点群のオンザフライ転送によるストリーミングシステムを提案し、キャッシングや推測的転送の活用によって負荷を大幅に削減し、多数の同時接続クライアントに対応可能なスケーラビリティを実証している。
この論文は、自然画像とは異なるアニメ風景の低照度環境におけるデータ不足と不確実性に対処するため、相対的GANの概念を応用して照明の不確実性を定量化・活用する「データ相対的不確実性(DRU)フレームワーク」を提案し、既存手法を上回る視覚的・審美的な画質向上を実現したことを示しています。
マルチモーダル大規模言語モデルの推論遅延を解決するため、視覚的アノマリーを防止し文脈を維持する「V-Skip」手法を提案し、Qwen2-VL や Llama-3.2 などのモデルにおいて精度を維持したまま 2.9 倍の高速化と DocVQA での 30% 以上の性能向上を実現した。
この論文は、ジェネリックな物体追跡の汎用性と堅牢性を向上させるため、JEPA アーキテクチャを拡張して追跡モデル自体の予測を行う「GOT-JEPA」フレームワークと、オクルージョン(遮蔽)の細かなパターンを捉えて追跡精度を高める「OccuSolver」を提案し、複数のベンチマークでその有効性を示したものです。
既存のマルチモーダル感情認識手法が抱えるノイズ除去の難しさと支配的モーダリティによる不均衡の問題を解決するため、話者内・話者間の動的な感情依存関係を捉えるモダリティ別サブグラフと、注意分布の差分を用いてノイズを除去し補完性を高める適応的モダリティバランス機構を組み合わせた「AMB-DSGDN」を提案する論文です。
この論文は、拡散モデルの初期ノイズに秘密情報を埋め込む「PRoADS」という音声ステガノグラフィ手法を提案し、潜在空間最適化と後退オイラー法による逆転技術を用いて再構成誤差を最小化し、64kbps の MP3 圧縮下でも 0.15% という極めて低い誤り率を達成する堅牢なシステムを構築したことを述べています。
本論文は、長尺の複数話者音声における時間指定付き話者割り当て付きASRを実現するため、時間意識型話者追跡モジュールと音声LLMを組み合わせたエンドツーエンドシステム「G-STAR」を提案し、チャンク間の話者同一性の一貫性と微細な時間境界の両方を維持する手法を確立したものである。
本論文は、画像と動画の両方に対してスケーラブルな表現を提供する初の階層的逐次 2D ガウススプラッティングフレームワーク「P-GSVC」を提案し、層間互換性を確保する同時学習戦略により、逐次学習と比較して画質を大幅に向上させることを示しています。
この論文は、アルゴリズムや AI による要約が圧縮・自動化しつつある人間の解釈的労働を可視化し、読書自体を創造的活動として再定義する「Reading Activity Traces(RATs)」という概念を提案し、その具体例としてウィキペディア向けの「WikiRAT」を紹介することで、人間の解釈が失われることなく知的ツールを設計するための新たな基盤を築こうとするものです。
既存のテキスト音楽生成モデルが抱える微細な時間制御の課題を、対データなしで動画イベントと音楽イベントの時間的変化構造をそれぞれ独立して捉える「イベント曲線」を用いることで解決し、動画に時間的に同期した音楽を生成するゼロショット手法「V2M-Zero」を提案した。
この論文は、ポーズ情報を活用した文脈内視覚学習(PA-ICVL)を視覚言語モデルに組み込むことで、アニメーションキャラクター画像における構造的な視覚的幻覚の検出精度を大幅に向上させる新しい手法を提案し、その有効性を示しています。
この論文は、低次視覚の心理物理的測定(コントラスト感度、コントラストマスキング、コントラストマッチング)に基づいた新たなテスト枠組みを導入し、34 種類の既存の画質評価指標の特性と限界を明らかにするものである。
この論文は、ノイズを含む音声から意味情報を失わずに視覚情報を用いて特徴を洗練させるコンフォーマーベースのバトネック融合モジュールを備えたエンドツーエンドの音声増強フレームワークを提案し、LRS3 ベンチマークにおいて既存のマスクベース手法を上回る頑健な音声・視覚音声認識性能を実現することを示しています。
本論文は、複数の専門エンコーダやモジュール結合のオーバーヘッドを排除し、単一の密なトランスフォーマー・エンコーダ(Omni-C)を用いて画像・音声・テキストなどの異種モダリティを効率的に共有表現へ圧縮する手法を提案し、リソース制約のある環境でもスケーラブルなマルチモーダル学習を実現することを示しています。
VDCook は、自然言語クエリと調整可能なパラメータに基づいてリアルタイムの動画検索と合成を自動実行し、MCP を活用して継続的に進化する専門分野向け動画データ構築プラットフォームを提供するシステムです。
本論文は、大規模な非構造化データや基盤モデルの普及に伴う不確実性やスケーラビリティの課題に直面する AI 時代における人間・データ相互作用の現状を分析し、従来の効率性指標を超えて認知・知覚・デザイン原則を統合した新しい人間中心の分析システム構築の方向性を示唆しています。
この論文は、編集誤り(挿入、削除、置換など)に耐性を持つよう符号間距離制約を統合し、理論的に証明された安全性を維持しながら高い復号成功率と埋め込み容量を実現する新しい隠蔽通信手法「Alkaid」を提案するものである。
既存の手法が欠如していた音楽スタイルとの整合性や制御性を補完するため、音楽特徴とスタイルプロンプトを統合した「スタイル誘導モーション拡散(SGMD)」を提案し、Transformer 構造と空間時間的マスク機構を用いて、軌跡生成やダンスの補間・修復など多様な制御タスクに対応する高品質でスタイルに忠実なダンス生成を実現する。
本論文は、単一の RGB 画像や動画から MiDaS による深度推定や画像修復、高速な 3D 投影アルゴリズムを活用して、自由視点表示に対応する光場画像や動画を含む没入型 3D 体験を生成する拡張ライブラリ「altiro3D」を提案するものである。