cs.CV 件の論文 | Gist.Science

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

本論文は、大規模視覚言語モデルの性能向上を目的として、手動注釈なしで損失に基づいて最適な視覚プロンプトを自動的に検索・選択する軽量フレームワーク「AutoV」を提案し、多様なタスクで顕著な性能向上を実現したことを報告しています。

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

本論文は、複雑な視覚的推論を包括的に評価する新たなベンチマーク「TreeBench」を提案し、その課題を克服するために強化学習を用いて局所化と推論を同時に監督するトレーニング手法「TreeVGR」を開発し、最先端モデルの性能向上を実証しています。

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

本論文は、脳腫瘍セグメンテーションの高精度かつ軽量な実装を可能にするため、モダリティ適応型エンコーダ、グラフに基づく多モーダル協調相互作用モジュール、およびボクセル再細化アップサンプリングモジュールを組み合わせた「GMLN-BTS」という新しいネットワークを提案し、主要な 3D トランスフォーマーと比べてパラメータ数を 98% 削減しつつ最先端の性能を達成したことを示しています。

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

本論文は、任意のノイズパターンを扱えるよう拡散モデルの設計空間を拡張し、画像復元タスクにおけるノイズの複雑化による計算コスト増大を防ぐ新たな理論的枠組み「EDA」を提案し、医療画像および自然画像の多様な復元タスクにおいて高い汎用性と性能を実証したものである。

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

本論文は、組織病理画像における高細胞密度や異質性、そして臨床的な分割意図とピクセルレベルの教師信号の乖離といった課題に対処するため、視覚基盤モデルに初めて直接選好最適化（DPO）を適用し、多様なノイズを含むプロンプトから正確な分割を可能にする「SAMPO」という新たなファインチューニングフレームワークを提案するものです。

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Optimizing Multi-Modality Trackers via Significance-Regularized Tuning

この論文は、事前学習済みモデルの一般化能力と適応性のバランスを最適化するために、パラメータの重要度を統合正則化として組み込んだ新規フレームワーク「SRTrack」を提案し、多モーダル追跡タスクにおいて最先端の性能を達成したことを報告しています。

Zhiwen Chen, Jinjian Wu, Zhiyu Zhu + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

この論文は、大規模な障害物回避を可能にするために特権情報（到達時間マップ）と新しい損失関数を活用した強化学習ベースの四旋回飛行ロボットナビゲーション手法を提案し、シミュレーションおよび屋外実機実験において高い成功率と安全性を実証したものである。

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

本論文は、計算リソースが限られた遠隔物体の局所化問題に対し、マルチビュー三角測量や粒子フィルタを用いた手法を提案し、ドローンによる画像セグメンテーションと GNSS 位置情報からなるノイズの多い画像系列を用いたシミュレーションおよび実証実験により、山火事監視などの安全クリティカルなタスクへの信頼性ある適用可能性を示したものである。

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

本論文は、拡散モデルの理論的整合性を保ちつつ粗いアンカー軌道から文脈を考慮した高品質な計画を生成する「BridgeDrive」という新しい拡散ブリッジ方策を提案し、自律運転の閉ループ計画タスクにおいて最先端の性能を達成したことを報告しています。

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

VAE 潜在空間の不均一な分散が引き起こす変数崩壊を解消するため、すべての入出力を固定半径の超球面上に制約する「SphereAR」を提案し、これにより画像生成における連続トークン自己回帰モデルが、従来の拡散モデルやマスク生成モデルを凌駕する新たな最先端性能を達成しました。

Guolin Ke, Hui Xue2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

この論文は、従来の空間と時間の分離表現や明示的なフレーム補正に依存せず、連続的な 3 次元フーリエ場（VFF）を用いて任意の空間・時間位置での高品質な動画超解像を実現し、複数のベンチマークで最先端の性能と計算効率を達成した手法を提案しています。

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

本論文は、第一人称視点の観測ノイズに耐性を持つ軌道予測を実現するため、実世界ノイズを含む履歴とクリーンな未来軌道を対応させた初のベンチマーク「EgoTraj-Bench」を提案し、歴史的観測のノイズ除去と将来の運動予測を同時に行う双フローモデル「BiFlow」を開発して最先端の性能と堅牢性を示したものです。

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

この論文は、薄い雲の特徴の欠如や訓練サンプルの質の問題を克服するため、スペクトル特徴と多スケール深層学習ネットワークを組み合わせる弱教師あり雲検出手法「SpecMCD」を提案し、GF-1 衛星画像を用いた実験で既存手法を大幅に上回る精度を達成したことを示しています。

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

本論文は、静的な教師あり学習の限界を克服し、GRPO（群相対方策最適化）と報酬モデルを活用して物理法則に基づくアーティファクトを検出・説明する、強化学習に基づく最先端の AI 生成動画検出システム「VidGuard-R1」を提案するものである。

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

脊椎疾患の AI 診断におけるレベル認識や多モーダル推論の課題を解決するため、臨床医と共同で脊椎専門の大規模データセット「SpineMed-450k」と評価基準「SpineBench」を構築し、これらを用いて微細な脊椎レベルの推論能力を飛躍的に向上させたことを示した論文です。

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

本論文は、スポーツ中継におけるスポンサーロゴの回転や傾きに対応した高精度な検出と可視性分析を実現する「ExposureEngine」というシステムと、それを訓練・評価するための新しいデータセットを提案し、自然言語によるレポート生成機能も備えた包括的なソリューションを提示しています。

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

IBM は、Sentinel-2 衛星データで事前学習され、従来のコーデックを凌駕する高圧縮率とゼロショットの雲除去機能を実現する、地球観測データ専用のニューラルコーデック「TerraCodec」を提案しました。

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

本論文は、3D 幾何学の事前知識や明示的な姿勢パラメータ化を一切用いずに、入力と出力の拡張とペアごとの姿勢推定を組み合わせることで、カメラ姿勢とシーン内容を分離し、異なる 3D シーン間での姿勢表現の転移を可能にする初の自己教師あり新規視点合成モデル「XFactor」を提案し、その転移性を新たな指標で実証したものである。

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

本論文は、事前学習済みのテキスト - 動画生成モデルと 3D 再構成ネットワークをモデル結合（stitching）と報酬微調整により統合する汎用フレームワーク「VIST3A」を提案し、従来のガウススプラット出力モデルを大幅に上回る高品質なテキスト -3D 生成を実現するものである。

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

本論文は、脳腫瘍のセグメンタリングにおいて、空間充填曲線やゲート融合モジュールを活用して計算効率とロバスト性を大幅に向上させた双解像度双方向 Mamba モデル「DRBD-Mamba」を提案し、BraTS2023 における厳密な評価を通じて既存の最先端手法を上回る精度と 15 倍の効率化を実現したことを示しています。

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

← 前へ次へ →