cs.CV 件の論文 | Gist.Science

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Pinterest は、厳格な製品要件を満たすために汎用モデルではなくタスク固有のデータセットで迅速に微調整した専門モデル群を採用し、背景強化やアスペクト比の拡張などにおいて大幅なエンゲージメント向上と他社モデルを上回る性能を実現した大規模画像生成システム「Canvas」を提案しています。

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

この論文は、フローマッチングモデルのトレーニングにおける損失重み付けや出力パラメータ化の選択が、データ多様体の次元、モデル構造、データセットサイズとどのように相互作用するかを体系的に分析し、設計上の実用的な知見を提供することを目的としています。

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

本論文は、視覚言語モデルの凍結された特徴空間にテキスト生成経路では表現され得ない連続的な幾何学情報が埋め込まれており、軽量な線形プローブを用いることで微調整やテキスト生成なしに高精度な物理測定が可能であることを実証しています。

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

本論文は、大規模なデータと計算資源への依存を排し、効率的な教師信号設計（MUST）を採用することで、限られたリソースでも最先端の性能を発揮する放射線学基盤モデル「GreenRFM」を提案し、臨床現場での民主化と公平な発展を可能にすることを示しています。

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

医療画像など専門分野における動画アノテーションの効率化を目指し、DINOv3 特徴量と SIREN ベースの隐式ニューラル表現を組み合わせることで、点とマスクの両方のアノテーションを動画内および動画間で高精度に伝播させる軽量フレームワーク「Match4Annotate」を提案する。

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

本論文は、外部モデルへの依存を排除し、異質なノイズレベルを適用する「デュアルタイムステップスケジューリング」により表現学習と生成タスクを統合した自己教師ありフローマッチング手法「Self-Flow」を提案し、画像・動画・音声など多様なモダリティにおいて優れたスケーラビリティと生成品質を実現することを示しています。

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed ⓘ💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

本論文は、密集した作物の樹冠内でのロボット収穫を支援するため、個体分割された器官の点群データから物理的接続と方向条件付きの遮蔽関係を推論し、標的果実へのアプローチ経路における遮蔽葉をランキングする「SG-DOR」と呼ばれる関係性フレームワークを提案するものである。

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

この論文は、22 病院の 9,215 人の胎児から得られた 45,139 枚超の超音波画像で学習した AI システムが、口唇口蓋裂の診断において経験豊富な放射線科医と同等の精度を達成し、若手医師の診断精度向上と専門知識の習得加速の両方に寄与する可能性を示したものである。

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SCAN: Visual Explanations with Self-Confidence and Analysis Networks

この論文は、畳み込みニューラルネットワークとトランスフォーマーの両アーキテクチャに適用可能で、情報ボトルネック原理に基づく自己信頼度マップを生成し、高忠実度かつ広範な汎用性を持つ視覚的説明フレームワーク「SCAN」を提案するものです。

Gwanghee Lee, Sungyoon Jeong, Kyoungson Jhang2026-03-09💻 cs

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

この論文は、イベント局所化やセグメンテーションなど個別に研究されてきた多様な音声・視覚タスクを離散トークン列に変換して統一し、マルチスケール時空間知覚ネットワークとクロスモーダルガイダンスを組み合わせた「AV-Unified」と呼ばれる統合フレームワークを提案し、複雑な音声・視覚シーンの包括的理解を実現するものです。

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

Spatial Calibration of Diffuse LiDARs

この論文は、単一光線仮定を破る拡散型 LiDAR の画素ごとに RGB 画像平面での有効支持領域と相対的な空間感度を推定し、走査型後方反射パッチと背景差分を用いて LiDAR と RGB の対応関係を明示的に取得する空間較正手法を提案し、ams OSRAM TMF8828 上でその有効性を実証しています。

Nikhil Behari, Ramesh Raskar2026-03-09💻 cs

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

本論文は、事前学習済み拡散モデルの再学習なしに、言語的否定を意味制約として投影する訓練不要な手法「NEGATE」を提案し、画像から動画生成まで一貫して否定表現を正確に制御できる新たな枠組みを確立したものである。

Taewon Kang, Ming C. Lin2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

本論文は、XFEM による切除条件付き変形予測を含む手術シミュレーションにおいて、高忠実度ソルバーの計算コストを回避しつつ、マルチ解像度ゲート付きトランスフォーマー「SurgFormer」を用いて大規模メッシュ上の組織変形をリアルタイムかつ高精度に推定する手法を提案し、関連するデータセットも公開している。

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving

この論文は、自動運転におけるマルチソース・マルチモーダルデータの冗長性を定量的に評価し、冗長なラベルを除去することで物体検出性能が向上することを実証することで、データ品質の新たな視点を提供するものです。

Yuhan Zhou, Mehri Sattari, Haihua Chen, Kewei Sha2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

本論文は、カメラ運動や物体の移動に伴う空間関係の継続的な再評価を必要とする egocentric 4D 推論タスクにおいて、タスク固有の認知構造に合わせた思考テンプレートと報酬関数を導入する二段階フレームワーク「EgoReasoner」を提案し、限られたデータ量で既存の大型モデルを大幅に上回る性能を達成したことを報告しています。

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

本論文は、従来の対照学習に基づく視覚エンコーダの限界を克服し、テキスト専用の大規模言語モデルから初期化された「Penguin-Encoder」を採用することで、モデルの拡張に依存せずともリソース制約環境下で高精度な視覚言語理解を実現する軽量な VLM「Penguin-VL」を提案しています。

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

本論文は、外科手術の意図や判断根拠を解説する学術動画から大規模なデータセット「SUREON」を構築し、これを用いてトレーニングされた視覚言語モデルが、従来の一般領域モデルを上回る手術推論能力を有することを示したものです。

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

SCOPE は、既存の 3D セグメンテーション手法にプラグアンドプレイで統合可能なフレームワークとして、ベース学習段階の未ラベル背景領域から高信頼性の疑似インスタンスを抽出してプロトタイププールを構築し、新規カテゴリの少量サンプルと融合させることで、リトレーニングやパラメータ追加なしに少数ショット 3D セグメンテーションの性能を大幅に向上させつつ忘却を抑制する手法です。

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

この論文は、大規模言語モデル（LLM）の推論能力と鳥瞰図（BEV）表現の空間的一貫性を統合した「BEVLM」を提案し、これにより複雑な運転シナリオにおける推論精度と安全上の重要な状況におけるエンドツーエンドの走行性能を大幅に向上させることを示しています。

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

本論文は、テキスト、音声、画像の理解と生成を統合する初の「Omni-Diffusion」と呼ばれるマルチモーダルモデルを提案し、従来の自己回帰アーキテクチャに代わり、マスクベースの離散拡散モデルを基盤として用いることで、既存のシステムと同等かそれ以上の性能を達成することを示しています。

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

← 前へ次へ →