WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development
本論文は、HTML の階層構造の理解と UI 画像とコードの対照的整合性を向上させる新たなファインチューニング手法「WAFFLE」を提案し、UI デザインから Web ページを自動生成するタスクにおいて既存手法を大幅に上回る性能を達成したことを示しています。
5561 件の論文
本論文は、HTML の階層構造の理解と UI 画像とコードの対照的整合性を向上させる新たなファインチューニング手法「WAFFLE」を提案し、UI デザインから Web ページを自動生成するタスクにおいて既存手法を大幅に上回る性能を達成したことを示しています。
本論文は、現実世界の劣化を考慮しつつ、潜在空間での勾配整合経路(LaGAR)モジュールを導入して拡散モデルの推論速度を 200 倍以上高速化し、画質も向上させた新しい全天球画像超解像フレームワーク「RealOSR」を提案するものです。
本論文は、手術動画における長期的な時間的整合性を保ちつつ、計算コストを抑えて物体中心の表現を学習し、ゼロショットドメイン適応も可能にする自己教師あり物体発見モデル「Slot-BERT」を提案し、実世界の手術データセットにおいて最先端の手法を上回る性能を実証したものである。
本論文は、MLP、トリプレーン、ハッシュテーブルなど多様なアーキテクチャを持つ NeRF を、事前学習されたグラフメタネットワークと対照的学習を用いてアーキテクチャに依存しない潜在空間へ変換し、分類や検索、言語タスクにおいて既知・未知のアーキテクチャにわたって頑健な推論を可能にする初のフレームワークを提案するものである。
本論文は、サイクル整合性を損失関数として用いた自己教師ありマルチグラフマッチング手法を提案し、教師データなしで線虫(C. elegans)の 3D 顕微鏡画像における細胞核のセマンティック注釈を可能にする初のアトラスを構築し、最先端の教師あり手法と同等の精度を達成したことを報告しています。
本論文は、自動運転車の交通標識認識システムに対する敵対的パッチ攻撃に対し、事前知識や多段階処理を必要とせず、モデル非依存かつリアルタイム処理に適した生成敵対ネットワーク(GAN)ベースの単一段階防御手法を提案し、攻撃下での分類精度を大幅に向上させることを示しています。
この論文は、自然言語による指示で異常の定義を動的に変更可能な新しいオープンワールド型動画異常検出パラダイムを提案し、その学習に必要な大規模な事前学習用データセット「PreVAD」と、弱教師あり学習と対照学習を組み合わせたモデル「LaGoVAD」を開発して、ゼロショット設定で最先端の性能を達成したことを示しています。
本論文は、拡散モデルの効率的な生成を実現するため、中間ステップの冗長計算を回避する「スケーリング・ワイス・ディストーション(SwD)」フレームワークと、分布一致を促進する新しいパッチレベルの MMD 目的関数を提案し、既存手法を大幅に上回る生成速度と品質を達成したことを報告しています。
本論文は、投影法と特徴量選択を組み合わせたハイブリッドな差分プライバシーフレームワークを提案し、MPII データセット上で非公開モデルに迫る精度(ε=0.8 で PCKh@0.5 が 82.61%)を維持しつつ、2 次元人体ポーズ推定におけるプライバシー保護を実現した世界初の包括的な研究である。
この論文は、ビデオ拡散モデル内の注意機構に基づく不確実性を定量化することで、生成の品質と一貫性を向上させる新しいノイズ選択フレームワーク「ANSE」を提案しています。
本論文は、自律走行車の BEV 3D 物体検出器の脆弱性を暴露するため、対象車両自体を改変せず環境に配置可能な、視覚的・時間的に一貫性のあるユニバーサルな敵対的オブジェクト生成フレームワーク「SABER」を提案するものである。
本論文は、静電場モデルの課題を解決し、クォークと反クォークの強い相互作用に着想を得た「相互作用場マッチング(IFM)」という新しいデータ生成・転送手法を提案し、その有効性を示したものである。
本論文は、STEM 分野に偏重した既存の評価基準では見落とされがちな人文社会科学(HSS)領域の多言語・学際的推論能力を評価するため、専門家と自動エージェントが協働して生成した 1 万 3000 件以上のデータセット「HSSBench」を提案し、最先端のマルチモーダル大規模言語モデルが依然としてこの分野において大きな課題に直面していることを示しています。
本論文は、大規模な動画モデルの微調整を必要とせず、キーフレームやスタイル画像などのフレームレベル信号を用いて高品質な制御動画生成を実現する「Frame Guidance」というトレーニング不要の手法を提案し、メモリ効率と一貫性を向上させる新しい潜在空間処理法を開発したことを示しています。
本論文は、既存の強化学習手法が多モーダル知覚能力の向上に不十分であることを指摘し、視覚注釈の整合性を報酬として与える「Perception-R1」を提案することで、少量のデータで多モーダル推論能力を大幅に向上させる新たなアプローチを提示しています。
本論文は、校正されていない動画ストリームからリアルタイムかつオンラインで動的な 3D 場を復元し、最適化ベースの手法に比べて 1200 倍の高速化を実現する、新しい完全フォワード型のフレームワーク「StreamSplat」を提案するものです。
この論文は、拡散モデルの推論速度を向上させるために、ネットワークパラメータや参照画像の変更を必要とせず、遺伝的アルゴリズムを用いてモデル固有の効率的なキャッシュスケジュールを学習する「ECAD」という手法を提案し、既存の手法を上回る高速化と画質の両立を実現したことを報告しています。
本論文は、テキストから生成された画像を「合成知覚」として活用することで、テキスト中心の推論タスクにおいて潜在的な視覚的事前知識を解放し、大規模言語モデルの性能を向上させる可能性とその条件を体系的に検証したものである。
自律運転システムの訓練・評価に不可欠なリアルタイムかつインタラクティブな交通シミュレーションを実現するため、トランスフォーマーモデルを用いてシーンをトークン列として連続的に生成する新しいフレームワーク「SceneStreamer」を提案し、その高忠実度と汎用性を検証した論文です。
本論文は、拡散モデルのサンプリング過程において、条件付きノイズ信号に基づいてガイダンススケールを動的に調整する「アニーリングガイダンススケジューラ」を提案し、追加の計算コストやメモリ消費なしに画像の品質とテキストとの整合性を大幅に向上させる手法を報告しています。