cs.CV 件の論文 | Gist.Science

Computer vision-based estimation of invertebrate biomass

この論文は、画像のみから無脊椎動物の乾燥重量を推定し、生物多様性モニタリングを効率化するため、BIODISCOVER 装置で得られる面積や沈降速度などの新規予測変数を用いた線形モデルと、単一・多視点・メタデータ対応の深層学習アーキテクチャによるアプローチを提案し、個体レベルで 10〜20% の中央値誤差を実現したことを報告しています。

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

本論文は、パノラマ歯科 X 線画像の分析において、反復的な検査と左右対称性の理解を可能にする強化学習ベースの自律型ビジョン・ランゲージモデル「OralGPT-Plus」を提案し、専門家の診断経路を含むデータセット「DentalProbe」と新しいベンチマーク「MMOral-X」を用いてその有効性を示したものである。

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

本論文は、2D 画像からの弱教師ありセマンティックセグメンテーションの精度向上を目的として、最新のフィードフォワード 3D 復元技術を用いて 3D 幾何構造を補助教師信号として活用し、スパースな注釈からシーン全体への注釈伝播を可能にする「Rewis3d」というフレームワークを提案し、追加のラベルや推論コストを増やすことなく既存手法を 2〜7% 上回る性能を達成したことを報告しています。

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

本論文は、スライド画像の階層構造を保存する領域ネスト型選択的走査と、診断パターンの多様性に対応する混合専門家モデルを統合した「MoEMambaMIL」を提案し、9 つのタスクで最先端の性能を達成したことを示しています。

Dongqing Xie, Yonghuang Wu2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

この論文は、DINOv3 を基盤とした深度推定モデルと ALS データを用いてトレーニングされた CHMv2 を紹介し、既存の製品と比較して森林の高さ推定精度を大幅に向上させ、高い森林におけるバイアスを低減し、樹冠の細部をより正確に捉えた全球メータ解像度の林冠高マップを提示するものである。

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

本論文は、セマンティックに同等なプロンプト間の一貫性を欠くという SAM3 の課題を「プロンプトグループ」概念で再定義し、品質誘導正則化とロジットレベルの整合性制約を導入することで、アーキテクチャ変更なしにテキスト誘導核分割のロバスト性と汎化性能を大幅に向上させるフレームワークを提案しています。

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

本論文は、リアルタイムシーングラフ生成の精度と速度のバランスを最適化するため、REACT 基盤を拡張し、クロスアテンション機構を活用して推論速度を 20% 向上させながら関係予測精度を 10% 改善した新モデル「REACT++」を提案するものです。

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

この論文は、侵食や欠損、不規則な形状といった実世界の課題に直面する文化遺産の断片再構成に対し、自動解法と人間のインタラクションを統合したハイブリッド枠組みを提案し、大規模な断片の再構築において精度と効率を大幅に向上させることを示しています。

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

この論文は、顔属性学習におけるアノテーションの不一致を軽減するため、学習に悪影響を与えるサンプルを特定し、潜在拡散オートエンコーダーを用いて画像レベルでラベルと視覚内容の整合性を保ちながら修正する「DiffInf」という新しいフレームワークを提案し、その有効性を示したものである。

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

この論文は、合成図形を用いた知覚的競合実験を通じて、Vision Transformer（BEiT）が図地組織の曖昧さを後期層で解決し、凸性の優位性を決定づける特定の機能単位（特にアテンションヘッド L0H9）を特定し、その単一ヘッドの調整によって知覚的決定の分布を連続的に変化させられることを示しました。

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

この論文は、拡散モデルで生成された動画に物理シミュレータを統合して物体の運動軌跡を物理法則に準拠させ、さらにテスト時のテクスチャ最適化手法により一貫性を高めることで、物理的に整合性が高く視覚的品質も保たれた動画生成を実現する「PSIVG」という新しいフレームワークを提案しています。

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

本論文は、水槽環境における屈折歪みを考慮したステレオビジョン手法とYOLOv11-Poseネットワークを組み合わせ、小型淡水魚の非侵襲的な成長モニタリングを可能にする新しいシステムを提案し、スラウェシ米魚のデータセットを用いてその有効性を検証したものである。

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

本論文は、既存のゼロショットモデル「nnInteractive」の少数パラメータを継続的に適応させる「CLoPA」を提案し、多様な医療画像タスクにおいて単一のトレーニングエピソードで専門家レベルの性能を達成し、特に複雑な幾何学構造を持つ標的においても効果的であることを示しています。

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

この論文は、物理的な探索が困難な状況でもエージェントが目標状況への未来の軌道を精神的にシミュレーションし、状況に即した推論を行うことを可能にするため、想像に基づく探索シミュレーションと推論評価のための大規模データセット「WanderDream」を提案し、その有効性を検証したものです。

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

本論文は、従来の視覚トークナイザーが抱える因果性の欠如や順序付けの課題を解決し、MeanFlow デコーダーと VF M 特徴量に基づく正則化手法を採用することで、ImageNet 再構成において最先端の性能を達成する 1 次元因果画像トークナイザー「CaTok」を提案するものである。

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Pinterest は、厳格な製品要件を満たすために汎用モデルではなくタスク固有のデータセットで迅速に微調整した専門モデル群を採用し、背景強化やアスペクト比の拡張などにおいて大幅なエンゲージメント向上と他社モデルを上回る性能を実現した大規模画像生成システム「Canvas」を提案しています。

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

この論文は、フローマッチングモデルのトレーニングにおける損失重み付けや出力パラメータ化の選択が、データ多様体の次元、モデル構造、データセットサイズとどのように相互作用するかを体系的に分析し、設計上の実用的な知見を提供することを目的としています。

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

本論文は、視覚言語モデルの凍結された特徴空間にテキスト生成経路では表現され得ない連続的な幾何学情報が埋め込まれており、軽量な線形プローブを用いることで微調整やテキスト生成なしに高精度な物理測定が可能であることを実証しています。

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

本論文は、大規模なデータと計算資源への依存を排し、効率的な教師信号設計（MUST）を採用することで、限られたリソースでも最先端の性能を発揮する放射線学基盤モデル「GreenRFM」を提案し、臨床現場での民主化と公平な発展を可能にすることを示しています。

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

医療画像など専門分野における動画アノテーションの効率化を目指し、DINOv3 特徴量と SIREN ベースの隐式ニューラル表現を組み合わせることで、点とマスクの両方のアノテーションを動画内および動画間で高精度に伝播させる軽量フレームワーク「Match4Annotate」を提案する。

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

← 前へ次へ →