cs.CV 件の論文 | Gist.Science

Spatial Calibration of Diffuse LiDARs

この論文は、単一光線仮定を破る拡散型 LiDAR の画素ごとに RGB 画像平面での有効支持領域と相対的な空間感度を推定し、走査型後方反射パッチと背景差分を用いて LiDAR と RGB の対応関係を明示的に取得する空間較正手法を提案し、ams OSRAM TMF8828 上でその有効性を実証しています。

Nikhil Behari, Ramesh Raskar2026-03-09💻 cs

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

本論文は、事前学習済み拡散モデルの再学習なしに、言語的否定を意味制約として投影する訓練不要な手法「NEGATE」を提案し、画像から動画生成まで一貫して否定表現を正確に制御できる新たな枠組みを確立したものである。

Taewon Kang, Ming C. Lin2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

本論文は、XFEM による切除条件付き変形予測を含む手術シミュレーションにおいて、高忠実度ソルバーの計算コストを回避しつつ、マルチ解像度ゲート付きトランスフォーマー「SurgFormer」を用いて大規模メッシュ上の組織変形をリアルタイムかつ高精度に推定する手法を提案し、関連するデータセットも公開している。

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving

この論文は、自動運転におけるマルチソース・マルチモーダルデータの冗長性を定量的に評価し、冗長なラベルを除去することで物体検出性能が向上することを実証することで、データ品質の新たな視点を提供するものです。

Yuhan Zhou, Mehri Sattari, Haihua Chen, Kewei Sha2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

本論文は、カメラ運動や物体の移動に伴う空間関係の継続的な再評価を必要とする egocentric 4D 推論タスクにおいて、タスク固有の認知構造に合わせた思考テンプレートと報酬関数を導入する二段階フレームワーク「EgoReasoner」を提案し、限られたデータ量で既存の大型モデルを大幅に上回る性能を達成したことを報告しています。

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

本論文は、従来の対照学習に基づく視覚エンコーダの限界を克服し、テキスト専用の大規模言語モデルから初期化された「Penguin-Encoder」を採用することで、モデルの拡張に依存せずともリソース制約環境下で高精度な視覚言語理解を実現する軽量な VLM「Penguin-VL」を提案しています。

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

本論文は、外科手術の意図や判断根拠を解説する学術動画から大規模なデータセット「SUREON」を構築し、これを用いてトレーニングされた視覚言語モデルが、従来の一般領域モデルを上回る手術推論能力を有することを示したものです。

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

SCOPE は、既存の 3D セグメンテーション手法にプラグアンドプレイで統合可能なフレームワークとして、ベース学習段階の未ラベル背景領域から高信頼性の疑似インスタンスを抽出してプロトタイププールを構築し、新規カテゴリの少量サンプルと融合させることで、リトレーニングやパラメータ追加なしに少数ショット 3D セグメンテーションの性能を大幅に向上させつつ忘却を抑制する手法です。

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

この論文は、大規模言語モデル（LLM）の推論能力と鳥瞰図（BEV）表現の空間的一貫性を統合した「BEVLM」を提案し、これにより複雑な運転シナリオにおける推論精度と安全上の重要な状況におけるエンドツーエンドの走行性能を大幅に向上させることを示しています。

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

本論文は、テキスト、音声、画像の理解と生成を統合する初の「Omni-Diffusion」と呼ばれるマルチモーダルモデルを提案し、従来の自己回帰アーキテクチャに代わり、マスクベースの離散拡散モデルを基盤として用いることで、既存のシステムと同等かそれ以上の性能を達成することを示しています。

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

この論文は、マルチモーダル大規模言語モデル（MLLM）の画像分類性能が評価プロトコルの欠陥やアノテーションの質に大きく依存しており、これらの問題を修正することで教師ありモデルとの性能差が縮小し、MLLM が大規模データセットの作成支援にも有効であることを示しています。

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

この論文は、動画予測ニューラルネットワークを用いて新たな視覚運動錯覚を生成するモデル（EIGen）を開発し、人間も同様に錯覚することを確認することで、錯覚が脳の予測機能に起因する可能性を示し、人工知能研究において生物の「意図的な失敗」を模倣する価値を提唱しています。

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

本論文は、生物の知覚適応を模倣し、予測誤差とベイズ的驚きという自由エネルギー原理の構成要素を統合した「FEP-Nav」と呼ばれるフレームワークを提案し、勾配ベースの更新なしにリアルタイムで知覚を適応させることで、ノイズや欠損のある環境下でもロボットが堅牢に視覚ナビゲーションを遂行できることを示しています。

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

本論文は、既存のテキストベースの 3D 編集手法が抱える一貫性の欠如という課題を解決するため、拡散モデルのスコア歪みサンプリング（SDS）を編集タスク向けに改良した「SDS-E」を導入し、指示に基づき元のアバターの形状を維持しつつ高品質な 3D 人間のテクスチャ編集を実現する「InstructHumans」フレームワークを提案するものです。

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本論文は、ハイブリッドウィンドウアテンションや報酬バックプロパゲーション、トークン長を考慮した学習戦略などの新技術を導入し、生成速度と画質を両立させた高性能な動画生成フレームワーク「EasyAnimate」を提案し、VBench リーダーボードおよび人間評価において最先端の性能を達成したことを報告しています。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Motion-Aware Animatable Gaussian Avatars Deblurring

本論文は、人間の運動速度や強度によるブレを考慮した物理モデルと 3D 運動モデルを統合し、多視点のぼやけた動画から直接鮮明な 3D 人間アバターを再構築する新たな手法を提案しています。

Muyao Niu, Yifan Zhan, Qingtian Zhu + 5 more2026-03-06💻 cs

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

この論文は、事前学習済み動画拡散モデルをテスト時に微調整し、最初のフレームでの可視領域マスクのみを入力として用いることで、物体が完全に隠蔽されている場合でもゼロショットで物体の可視・非可視領域を推定する新しいパイプライン「Track Anything Behind Everything (TABE)」を提案しています。

Finlay G. C. Hudson, William A. P. Smith2026-03-06💻 cs

Learnable Sparsity for Vision Generative Models

本論文は、大規模拡散モデルの再学習を必要とせず、学習可能なスパース化マスクと時間ステップ勾配チェックポイント法を用いて、メモリ効率を維持しつつパラメータを最大 20% 削減できるモデル非依存の構造化剪定フレームワークを提案するものである。

Yang Zhang, Er Jin, Wenzhong Liang + 5 more2026-03-06💻 cs

Flatness Guided Test-Time Adaptation for Vision-Language Models

本論文は、トレーニング時の平坦な最小値とテスト時の損失平坦領域の整合性を活用する「Flatness-Guided Adaptation (FGA)」フレームワークを提案し、テスト時の計算コストを抑えつつ視覚言語モデルの分布シフトへの適応性能を大幅に向上させることを示しています。

Aodi Li, Liansheng Zhuang, Xiao Long + 2 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

この論文は、2D 視覚ダイナミクスだけでは不十分な深度方向の移動を伴う操作タスクに対応するため、自己教師あり学習を通じて 3D 世界モデルと方策学習を統合し、推論速度を犠牲にすることなく操作性能を大幅に向上させる「3D 先見性」を備えた新しい操作フレームワークを提案しています。

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

← 前へ次へ →