Locating and Editing Figure-Ground Organization in Vision Transformers

この論文は、合成図形を用いた知覚的競合実験を通じて、Vision Transformer(BEiT)が図地組織の曖昧さを後期層で解決し、凸性の優位性を決定づける特定の機能単位(特にアテンションヘッド L0H9)を特定し、その単一ヘッドの調整によって知覚的決定の分布を連続的に変化させられることを示しました。

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

この論文は、拡散モデルで生成された動画に物理シミュレータを統合して物体の運動軌跡を物理法則に準拠させ、さらにテスト時のテクスチャ最適化手法により一貫性を高めることで、物理的に整合性が高く視覚的品質も保たれた動画生成を実現する「PSIVG」という新しいフレームワークを提案しています。

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

本論文は、水槽環境における屈折歪みを考慮したステレオビジョン手法とYOLOv11-Poseネットワークを組み合わせ、小型淡水魚の非侵襲的な成長モニタリングを可能にする新しいシステムを提案し、スラウェシ米魚のデータセットを用いてその有効性を検証したものである。

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

本論文は、既存のゼロショットモデル「nnInteractive」の少数パラメータを継続的に適応させる「CLoPA」を提案し、多様な医療画像タスクにおいて単一のトレーニングエピソードで専門家レベルの性能を達成し、特に複雑な幾何学構造を持つ標的においても効果的であることを示しています。

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

この論文は、物理的な探索が困難な状況でもエージェントが目標状況への未来の軌道を精神的にシミュレーションし、状況に即した推論を行うことを可能にするため、想像に基づく探索シミュレーションと推論評価のための大規模データセット「WanderDream」を提案し、その有効性を検証したものです。

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

本論文は、従来の視覚トークナイザーが抱える因果性の欠如や順序付けの課題を解決し、MeanFlow デコーダーと VF M 特徴量に基づく正則化手法を採用することで、ImageNet 再構成において最先端の性能を達成する 1 次元因果画像トークナイザー「CaTok」を提案するものである。

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Pinterest は、厳格な製品要件を満たすために汎用モデルではなくタスク固有のデータセットで迅速に微調整した専門モデル群を採用し、背景強化やアスペクト比の拡張などにおいて大幅なエンゲージメント向上と他社モデルを上回る性能を実現した大規模画像生成システム「Canvas」を提案しています。

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

この論文は、フローマッチングモデルのトレーニングにおける損失重み付けや出力パラメータ化の選択が、データ多様体の次元、モデル構造、データセットサイズとどのように相互作用するかを体系的に分析し、設計上の実用的な知見を提供することを目的としています。

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

GreenRFM: Toward a resource-efficient radiology foundation model

本論文は、大規模なデータと計算資源への依存を排し、効率的な教師信号設計(MUST)を採用することで、限られたリソースでも最先端の性能を発揮する放射線学基盤モデル「GreenRFM」を提案し、臨床現場での民主化と公平な発展を可能にすることを示しています。

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

医療画像など専門分野における動画アノテーションの効率化を目指し、DINOv3 特徴量と SIREN ベースの隐式ニューラル表現を組み合わせることで、点とマスクの両方のアノテーションを動画内および動画間で高精度に伝播させる軽量フレームワーク「Match4Annotate」を提案する。

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

本論文は、外部モデルへの依存を排除し、異質なノイズレベルを適用する「デュアルタイムステップスケジューリング」により表現学習と生成タスクを統合した自己教師ありフローマッチング手法「Self-Flow」を提案し、画像・動画・音声など多様なモダリティにおいて優れたスケーラビリティと生成品質を実現することを示しています。

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed 💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

本論文は、密集した作物の樹冠内でのロボット収穫を支援するため、個体分割された器官の点群データから物理的接続と方向条件付きの遮蔽関係を推論し、標的果実へのアプローチ経路における遮蔽葉をランキングする「SG-DOR」と呼ばれる関係性フレームワークを提案するものである。

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

この論文は、22 病院の 9,215 人の胎児から得られた 45,139 枚超の超音波画像で学習した AI システムが、口唇口蓋裂の診断において経験豊富な放射線科医と同等の精度を達成し、若手医師の診断精度向上と専門知識の習得加速の両方に寄与する可能性を示したものである。

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

この論文は、イベント局所化やセグメンテーションなど個別に研究されてきた多様な音声・視覚タスクを離散トークン列に変換して統一し、マルチスケール時空間知覚ネットワークとクロスモーダルガイダンスを組み合わせた「AV-Unified」と呼ばれる統合フレームワークを提案し、複雑な音声・視覚シーンの包括的理解を実現するものです。

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

本論文は、XFEM による切除条件付き変形予測を含む手術シミュレーションにおいて、高忠実度ソルバーの計算コストを回避しつつ、マルチ解像度ゲート付きトランスフォーマー「SurgFormer」を用いて大規模メッシュ上の組織変形をリアルタイムかつ高精度に推定する手法を提案し、関連するデータセットも公開している。

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs