Locating and Editing Figure-Ground Organization in Vision Transformers
この論文は、合成図形を用いた知覚的競合実験を通じて、Vision Transformer(BEiT)が図地組織の曖昧さを後期層で解決し、凸性の優位性を決定づける特定の機能単位(特にアテンションヘッド L0H9)を特定し、その単一ヘッドの調整によって知覚的決定の分布を連続的に変化させられることを示しました。
4167 件の論文
この論文は、合成図形を用いた知覚的競合実験を通じて、Vision Transformer(BEiT)が図地組織の曖昧さを後期層で解決し、凸性の優位性を決定づける特定の機能単位(特にアテンションヘッド L0H9)を特定し、その単一ヘッドの調整によって知覚的決定の分布を連続的に変化させられることを示しました。
この論文は、拡散モデルで生成された動画に物理シミュレータを統合して物体の運動軌跡を物理法則に準拠させ、さらにテスト時のテクスチャ最適化手法により一貫性を高めることで、物理的に整合性が高く視覚的品質も保たれた動画生成を実現する「PSIVG」という新しいフレームワークを提案しています。
本論文は、水槽環境における屈折歪みを考慮したステレオビジョン手法とYOLOv11-Poseネットワークを組み合わせ、小型淡水魚の非侵襲的な成長モニタリングを可能にする新しいシステムを提案し、スラウェシ米魚のデータセットを用いてその有効性を検証したものである。
本論文は、既存のゼロショットモデル「nnInteractive」の少数パラメータを継続的に適応させる「CLoPA」を提案し、多様な医療画像タスクにおいて単一のトレーニングエピソードで専門家レベルの性能を達成し、特に複雑な幾何学構造を持つ標的においても効果的であることを示しています。
この論文は、物理的な探索が困難な状況でもエージェントが目標状況への未来の軌道を精神的にシミュレーションし、状況に即した推論を行うことを可能にするため、想像に基づく探索シミュレーションと推論評価のための大規模データセット「WanderDream」を提案し、その有効性を検証したものです。
本論文は、従来の視覚トークナイザーが抱える因果性の欠如や順序付けの課題を解決し、MeanFlow デコーダーと VF M 特徴量に基づく正則化手法を採用することで、ImageNet 再構成において最先端の性能を達成する 1 次元因果画像トークナイザー「CaTok」を提案するものである。
Pinterest は、厳格な製品要件を満たすために汎用モデルではなくタスク固有のデータセットで迅速に微調整した専門モデル群を採用し、背景強化やアスペクト比の拡張などにおいて大幅なエンゲージメント向上と他社モデルを上回る性能を実現した大規模画像生成システム「Canvas」を提案しています。
この論文は、フローマッチングモデルのトレーニングにおける損失重み付けや出力パラメータ化の選択が、データ多様体の次元、モデル構造、データセットサイズとどのように相互作用するかを体系的に分析し、設計上の実用的な知見を提供することを目的としています。
本論文は、視覚言語モデルの凍結された特徴空間にテキスト生成経路では表現され得ない連続的な幾何学情報が埋め込まれており、軽量な線形プローブを用いることで微調整やテキスト生成なしに高精度な物理測定が可能であることを実証しています。
本論文は、大規模なデータと計算資源への依存を排し、効率的な教師信号設計(MUST)を採用することで、限られたリソースでも最先端の性能を発揮する放射線学基盤モデル「GreenRFM」を提案し、臨床現場での民主化と公平な発展を可能にすることを示しています。
医療画像など専門分野における動画アノテーションの効率化を目指し、DINOv3 特徴量と SIREN ベースの隐式ニューラル表現を組み合わせることで、点とマスクの両方のアノテーションを動画内および動画間で高精度に伝播させる軽量フレームワーク「Match4Annotate」を提案する。
本論文は、外部モデルへの依存を排除し、異質なノイズレベルを適用する「デュアルタイムステップスケジューリング」により表現学習と生成タスクを統合した自己教師ありフローマッチング手法「Self-Flow」を提案し、画像・動画・音声など多様なモダリティにおいて優れたスケーラビリティと生成品質を実現することを示しています。
本論文は、密集した作物の樹冠内でのロボット収穫を支援するため、個体分割された器官の点群データから物理的接続と方向条件付きの遮蔽関係を推論し、標的果実へのアプローチ経路における遮蔽葉をランキングする「SG-DOR」と呼ばれる関係性フレームワークを提案するものである。
この論文は、22 病院の 9,215 人の胎児から得られた 45,139 枚超の超音波画像で学習した AI システムが、口唇口蓋裂の診断において経験豊富な放射線科医と同等の精度を達成し、若手医師の診断精度向上と専門知識の習得加速の両方に寄与する可能性を示したものである。
この論文は、畳み込みニューラルネットワークとトランスフォーマーの両アーキテクチャに適用可能で、情報ボトルネック原理に基づく自己信頼度マップを生成し、高忠実度かつ広範な汎用性を持つ視覚的説明フレームワーク「SCAN」を提案するものです。
この論文は、イベント局所化やセグメンテーションなど個別に研究されてきた多様な音声・視覚タスクを離散トークン列に変換して統一し、マルチスケール時空間知覚ネットワークとクロスモーダルガイダンスを組み合わせた「AV-Unified」と呼ばれる統合フレームワークを提案し、複雑な音声・視覚シーンの包括的理解を実現するものです。
この論文は、単一光線仮定を破る拡散型 LiDAR の画素ごとに RGB 画像平面での有効支持領域と相対的な空間感度を推定し、走査型後方反射パッチと背景差分を用いて LiDAR と RGB の対応関係を明示的に取得する空間較正手法を提案し、ams OSRAM TMF8828 上でその有効性を実証しています。
本論文は、事前学習済み拡散モデルの再学習なしに、言語的否定を意味制約として投影する訓練不要な手法「NEGATE」を提案し、画像から動画生成まで一貫して否定表現を正確に制御できる新たな枠組みを確立したものである。
本論文は、XFEM による切除条件付き変形予測を含む手術シミュレーションにおいて、高忠実度ソルバーの計算コストを回避しつつ、マルチ解像度ゲート付きトランスフォーマー「SurgFormer」を用いて大規模メッシュ上の組織変形をリアルタイムかつ高精度に推定する手法を提案し、関連するデータセットも公開している。
この論文は、自動運転におけるマルチソース・マルチモーダルデータの冗長性を定量的に評価し、冗長なラベルを除去することで物体検出性能が向上することを実証することで、データ品質の新たな視点を提供するものです。