LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control
この論文は、マルチモーダル拡散トランスフォーマーを用いて、テキストプロンプトの代わりに文字画像を入力し、注意メカニズムを制御することで追加学習なしに多言語ロゴを生成・様式化できる「LogoDiffuser」を提案し、その有効性を示しています。
1864 件の論文
この論文は、マルチモーダル拡散トランスフォーマーを用いて、テキストプロンプトの代わりに文字画像を入力し、注意メカニズムを制御することで追加学習なしに多言語ロゴを生成・様式化できる「LogoDiffuser」を提案し、その有効性を示しています。
本論文は、360 度室内環境における物体中心かつ視点に依存した既存の限界を克服し、歪み感知スペクトル変調やオムニ球状高密度化ヘッドを備えた「PanoAffordanceNet」フレームワークと、初の高品質パノラマアフォーダンス接地データセット「360-AGD」を提案することで、エンボディドエージェントのための包括的な環境知覚を実現するものです。
この論文は、大規模視覚言語モデルの内部アテンション機構から対象概念を主に表す視覚トークンを抽出してメモリとして活用する効率的な手法「Ego」を提案し、追加学習や外部モジュールなしで単一・複数概念および動画の個人化において最先端の性能を達成することを示しています。
本論文は、既存のバックドア防御がトリガーの除去に依存しているが、実際には訓練トリガーとは異なる「代替トリガー」が同じバックドアを確実に活性化し、防御を回避できることを理論的・実証的に示し、入力空間のトリガー除去ではなく表現空間におけるバックドア方向そのものを標的とした防御の必要性を提唱している。
この論文は、既存の説明可能 AI(XAI)手法が見過ごしがちな「概念の不在」によるニューロン活性化という因果関係が重要であることを示し、アトリビューションや特徴可視化手法の拡張を通じてこれを検出・説明する新たなアプローチを提案しています。
本論文は、テスト時にエゴセントリック視点からエクセントリック視点への行動予測を可能にする新たなタスクを提案し、マルチラベルプロトタイプ成長モジュールとテキスト・視覚の二重の手がかり整合性を活用した新しいネットワーク「DCPGN」により、既存の手法を大幅に上回る性能を実現したことを報告しています。
この論文は、粗粒度のタスクから脱却し、領域を考慮した音源のセグメンテーションと詳細な記述を同時に実現する新たな細粒度タスク「RA-SSU」を定義し、対応する大規模データセットと SOTA 性能を達成するモデル「SSUFormer」を提案しています。
本論文は、2 枚の画像からの大角度視点変化に対する新規視点合成の課題に対し、投影された点雲の信頼度に基づいて拡散モデルを制御し、見えない領域の補完とカメラ軌跡の追従を両立させる「ConfCtrl」というフレームワークを提案するものです。
本論文は、診断に有用な脳状態の時間的変化と空間的パターンを特定し、解釈可能な動的脳ネットワークモデルを構築するために、適応的な位相分割、アテンション機構、およびスパースなグラフ構造生成を組み合わせた時空間対照学習フレームワーク「BrainSTR」を提案し、自閉症スペクトラム障害、双極性障害、うつ病のデータを用いた実験でその有効性と既存の神経画像所見との整合性を検証したものである。
この論文は、大規模視覚言語モデル(VLM)の空間推論能力を活用し、点群を鳥瞰図とシーングラフに変換して自然言語からの位置特定精度を向上させる「VLM-Loc」フレームワークと、その評価用ベンチマーク「CityLoc」を提案するものです。
本論文は、複数の具象化エージェントから同時に収集された長時間の第一人称視点動画を理解する新たな課題を定義し、その評価のためのベンチマーク「MA-EgoQA」と、エージェント間の共有メモリと動的検索を活用するベースラインモデル「EgoMAS」を提案しています。
CycleULM は、ラベル付きデータや高忠実度シミュレータを必要とせず、物理モデルを模倣した翻訳学習を通じて超音波局在化顕微鏡(ULM)の解像度・精度・処理速度を大幅に向上させ、臨床応用への実用的な道筋を示す初の統一型ラベルフリー深層学習フレームワークです。
本論文は、現実のアプリケーションで生じるモダリティの欠損率の偏りを考慮し、感情分析タスクにおけるモデルの公平性と最適化の偏りを評価するための新たなベンチマーク「MissBench」と、その診断指標(MEI と MLI)を提案するものです。
本論文は、理解・推論・生成・編集を統合した軽量な 40 億パラメータのマルチモーダルモデル「InternVL-U」を提案し、大規模モデルを凌駕する性能と効率性のバランスを達成したことを報告しています。
この論文は、手首の関節座標と物体のバウンディングボックスというスパースな運動ガイダンス、物体ストレスアテンション機構、そしてマルチタスク補助学習戦略を組み合わせることで、物理的に整合性が高く制御可能な人間 - 物体相互作用(HOI)ビデオ生成を実現する「DISPLAY」というフレームワークを提案しています。
本論文は、スポーツの空間的知能を評価する初の大規模データセット「CourtSI」とベンチマーク「CourtSI-Bench」を提案し、既存の視覚言語モデルの空間認識能力の限界を明らかにするとともに、CourtSI によるファインチューニングがモデルの精度向上と汎化性能の改善に寄与することを示しています。
本論文は、大規模言語モデルの埋め込みと視覚誘導知識アダプタ、および硬い負例合成メカニズムを活用して、生成モデルに比べて推論遅延を約 100 倍削減しつつ、オープンドメイン視覚実体認識タスクで高い性能を達成する効率的な対照学習ベースライン「WikiCLIP」を提案するものです。
本論文は、点群再構成や生成における標準的な損失関数であるチャマファ距離の最適化が、局所的な正則化では解決できない勾配構造上の欠陥により「最適化しない場合よりも悪い結果」をもたらす「崩壊」を引き起こすことを示し、これを抑制するには局所領域を超えた非局所的な結合(グローバルな結合)が不可欠であることを明らかにした。
この論文は、関節角度に基づく擬似画像表現とトークン単位の遅延相互作用(MaxSim)を組み合わせることで、既存の手法が抱える細粒度対応の欠如や解釈性の低さを克服し、テキストと 3 次元人間の動きの間の高精度かつ解釈可能な検索を実現する手法を提案しています。
この論文は、利用可能な画像データと臨床メタデータを動的に統合し、GPT-4o による意味的ガイダンスを取り入れた適応型臨床意識潜在拡散モデル「ACADiff」を提案し、アルツハイマー病診断における多モダリティ脳画像の欠損補完と高品質な合成を実現したことを述べています。