Pinterest Canvas: Large-Scale Image Generation at Pinterest
Pinterest は、厳格な製品要件を満たすために汎用モデルではなくタスク固有のデータセットで迅速に微調整した専門モデル群を採用し、背景強化やアスペクト比の拡張などにおいて大幅なエンゲージメント向上と他社モデルを上回る性能を実現した大規模画像生成システム「Canvas」を提案しています。
4181 件の論文
Pinterest は、厳格な製品要件を満たすために汎用モデルではなくタスク固有のデータセットで迅速に微調整した専門モデル群を採用し、背景強化やアスペクト比の拡張などにおいて大幅なエンゲージメント向上と他社モデルを上回る性能を実現した大規模画像生成システム「Canvas」を提案しています。
この論文は、フローマッチングモデルのトレーニングにおける損失重み付けや出力パラメータ化の選択が、データ多様体の次元、モデル構造、データセットサイズとどのように相互作用するかを体系的に分析し、設計上の実用的な知見を提供することを目的としています。
本論文は、視覚言語モデルの凍結された特徴空間にテキスト生成経路では表現され得ない連続的な幾何学情報が埋め込まれており、軽量な線形プローブを用いることで微調整やテキスト生成なしに高精度な物理測定が可能であることを実証しています。
本論文は、大規模なデータと計算資源への依存を排し、効率的な教師信号設計(MUST)を採用することで、限られたリソースでも最先端の性能を発揮する放射線学基盤モデル「GreenRFM」を提案し、臨床現場での民主化と公平な発展を可能にすることを示しています。
医療画像など専門分野における動画アノテーションの効率化を目指し、DINOv3 特徴量と SIREN ベースの隐式ニューラル表現を組み合わせることで、点とマスクの両方のアノテーションを動画内および動画間で高精度に伝播させる軽量フレームワーク「Match4Annotate」を提案する。
本論文は、外部モデルへの依存を排除し、異質なノイズレベルを適用する「デュアルタイムステップスケジューリング」により表現学習と生成タスクを統合した自己教師ありフローマッチング手法「Self-Flow」を提案し、画像・動画・音声など多様なモダリティにおいて優れたスケーラビリティと生成品質を実現することを示しています。
本論文は、密集した作物の樹冠内でのロボット収穫を支援するため、個体分割された器官の点群データから物理的接続と方向条件付きの遮蔽関係を推論し、標的果実へのアプローチ経路における遮蔽葉をランキングする「SG-DOR」と呼ばれる関係性フレームワークを提案するものである。
この論文は、22 病院の 9,215 人の胎児から得られた 45,139 枚超の超音波画像で学習した AI システムが、口唇口蓋裂の診断において経験豊富な放射線科医と同等の精度を達成し、若手医師の診断精度向上と専門知識の習得加速の両方に寄与する可能性を示したものである。
この論文は、畳み込みニューラルネットワークとトランスフォーマーの両アーキテクチャに適用可能で、情報ボトルネック原理に基づく自己信頼度マップを生成し、高忠実度かつ広範な汎用性を持つ視覚的説明フレームワーク「SCAN」を提案するものです。
この論文は、イベント局所化やセグメンテーションなど個別に研究されてきた多様な音声・視覚タスクを離散トークン列に変換して統一し、マルチスケール時空間知覚ネットワークとクロスモーダルガイダンスを組み合わせた「AV-Unified」と呼ばれる統合フレームワークを提案し、複雑な音声・視覚シーンの包括的理解を実現するものです。
この論文は、単一光線仮定を破る拡散型 LiDAR の画素ごとに RGB 画像平面での有効支持領域と相対的な空間感度を推定し、走査型後方反射パッチと背景差分を用いて LiDAR と RGB の対応関係を明示的に取得する空間較正手法を提案し、ams OSRAM TMF8828 上でその有効性を実証しています。
本論文は、事前学習済み拡散モデルの再学習なしに、言語的否定を意味制約として投影する訓練不要な手法「NEGATE」を提案し、画像から動画生成まで一貫して否定表現を正確に制御できる新たな枠組みを確立したものである。
本論文は、XFEM による切除条件付き変形予測を含む手術シミュレーションにおいて、高忠実度ソルバーの計算コストを回避しつつ、マルチ解像度ゲート付きトランスフォーマー「SurgFormer」を用いて大規模メッシュ上の組織変形をリアルタイムかつ高精度に推定する手法を提案し、関連するデータセットも公開している。
この論文は、自動運転におけるマルチソース・マルチモーダルデータの冗長性を定量的に評価し、冗長なラベルを除去することで物体検出性能が向上することを実証することで、データ品質の新たな視点を提供するものです。
本論文は、カメラ運動や物体の移動に伴う空間関係の継続的な再評価を必要とする egocentric 4D 推論タスクにおいて、タスク固有の認知構造に合わせた思考テンプレートと報酬関数を導入する二段階フレームワーク「EgoReasoner」を提案し、限られたデータ量で既存の大型モデルを大幅に上回る性能を達成したことを報告しています。
本論文は、従来の対照学習に基づく視覚エンコーダの限界を克服し、テキスト専用の大規模言語モデルから初期化された「Penguin-Encoder」を採用することで、モデルの拡張に依存せずともリソース制約環境下で高精度な視覚言語理解を実現する軽量な VLM「Penguin-VL」を提案しています。
本論文は、外科手術の意図や判断根拠を解説する学術動画から大規模なデータセット「SUREON」を構築し、これを用いてトレーニングされた視覚言語モデルが、従来の一般領域モデルを上回る手術推論能力を有することを示したものです。
SCOPE は、既存の 3D セグメンテーション手法にプラグアンドプレイで統合可能なフレームワークとして、ベース学習段階の未ラベル背景領域から高信頼性の疑似インスタンスを抽出してプロトタイププールを構築し、新規カテゴリの少量サンプルと融合させることで、リトレーニングやパラメータ追加なしに少数ショット 3D セグメンテーションの性能を大幅に向上させつつ忘却を抑制する手法です。
この論文は、大規模言語モデル(LLM)の推論能力と鳥瞰図(BEV)表現の空間的一貫性を統合した「BEVLM」を提案し、これにより複雑な運転シナリオにおける推論精度と安全上の重要な状況におけるエンドツーエンドの走行性能を大幅に向上させることを示しています。
本論文は、テキスト、音声、画像の理解と生成を統合する初の「Omni-Diffusion」と呼ばれるマルチモーダルモデルを提案し、従来の自己回帰アーキテクチャに代わり、マスクベースの離散拡散モデルを基盤として用いることで、既存のシステムと同等かそれ以上の性能を達成することを示しています。