cs.CV 件の論文 | Gist.Science

Stateful Token Reduction for Long-Video Hybrid VLMs

本論文は、アテンションと状態空間モデル（Mamba）を混在させるハイブリッド型長動画 VLM において、トークンの重要度が層間で変動する特性を踏まえ、段階的な削減スケジュールと言語意識型スコアリングを導入することで、精度を維持しつつプリフィル速度を大幅に向上させる手法を提案しています。

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko + 7 more2026-03-03🤖 cs.AI

AdURA-Net: Adaptive Uncertainty and Region-Aware Network

本論文は、放射線報告の曖昧さや多ラベルデータにおける「不確実性」ラベルの扱いを改善するため、解剖学的複雑性を捉える適応的拡張畳み込みとディリクレ証拠学習を組み合わせた信頼性の高い胸疾患分類フレームワーク「AdURA-Net」を提案するものです。

Antik Aich Roy, Ujjwal Bhattacharya2026-03-03🤖 cs.AI

Optimisation of SOUP-GAN and CSR-GAN for High Resolution MR Images Reconstruction

この研究は、アーキテクチャの改良やハイパーパラメータ調整、スペクトル正規化などの手法を用いて SOUP-GAN と CSR-GAN を最適化し、高解像度の MRI 画像再構成においてそれぞれ異なる長所（CSR-GAN は高周波詳細とノイズ低減、SOUP-GAN は構造保持とノイズ低減）を示すことで、医療診断の精度向上に寄与する画像品質改善手法を提案したものです。

Muneeba Rashid, Hina Shakir, Humaira Mehwish + 2 more2026-03-03⚡ eess

Efficient Flow Matching for Sparse-View CT Reconstruction

この論文は、確率的なノイズ注入を排除し、連続するステップで速度場を再利用することで推論効率を大幅に向上させつつ、スパースビュー CT 再構成の品質を維持する決定論的フローマッチングに基づく新しいフレームワーク「FMCT」とその効率的な変種「EFMCT」を提案するものです。

Jiayang Shi, Lincen Yang, Zhong Li + 3 more2026-03-03⚡ eess

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

既存の視覚推論ベンチマークの課題を克服するため、6 つの推論領域にわたる 10 種類のタスクから構成され、生成タスクと構造的な誤答を含む選択タスクの両方を通じて厳密な検証を可能にする「TACIT Benchmark」を提案し、そのデータセットと評価基盤を公開した。

Daniel Nobrega Medeiros2026-03-03🤖 cs.AI

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

本論文は、視覚依存タスクにおける推論時の計算スケーリングに伴う視覚情報の忘却問題を解決するため、追加の強化学習ファインチューニングなしで、推論文脈に意味的に関連する視覚トークンのコアセットを再注入することで視覚的基盤を強化する「VisRef」というフレームワークを提案し、既存手法を上回る性能向上を実証しています。

Soumya Suvra Ghosal, Youngeun Kim, Zhuowei Li + 6 more2026-03-03🤖 cs.AI

Physical Evaluation of Naturalistic Adversarial Patches for Camera-Based Traffic-Sign Detection

この論文は、自律走行車向けにカスタマイズした CompGTSRB データセットを用いて YOLOv5 を訓練し、GAN により生成した自然な敵対的パッチ（NAPs）が物理環境において停止標識の検出精度を低下させることを、Quanser QCar 実験台を用いた一連の実験で実証し、その評価手法と防御策の必要性を示しています。

Brianna D'Urso, Tahmid Hasan Sakib, Syed Rafay Hasan + 1 more2026-03-03🤖 cs.AI

Pretty Good Measurement for Radiomics: A Quantum-Inspired Multi-Class Classifier for Lung Cancer Subtyping and Prostate Cancer Risk Stratification

本論文は、量子状態識別に基づく「Pretty Good Measurement」を多クラス分類器として提案し、非小細胞肺癌の組織型分類や前立腺がんのリスク層別化という放射線オミクス研究において、既存の古典的手法と同等かそれ以上の性能を示すことを実証したものである。

Giuseppe Sergioli, Carlo Cuccu, Giovanni Pasini + 4 more2026-03-03⚛️ quant-ph

Scaling Quantum Machine Learning without Tricks: High-Resolution and Diverse Image Generation

本論文は、古典的な画像データセット（MNIST、Fashion-MNIST、SVHN）を用いて、次元削減やパッチ分割などの工夫を一切行わずに単一の量子生成モデルで高解像度かつ多様な画像を生成し、量子 Wasserstein GAN の新たな最先端性能を達成したことを報告しています。

Jonas Jäger, Florian J. Kiwit, Carlos A. Riofrío2026-03-03⚛️ quant-ph

Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization

本論文は、可視光と赤外線の両方のモダリティを同時に撹乱し、スペクトル間の不一致を軽減するために位置と色の最適化を統合した新たな敵対的パッチ生成手法「AP-PCO」を提案し、視覚・赤外線密予測タスクにおけるモデルの堅牢性評価を可能にするものである。

He Li, Wenyue He, Weihang Kong + 1 more2026-03-03💻 cs

Ozone Cues Mitigate Reflected Downwelling Radiance in LWIR Absorption-Based Ranging

オゾン吸収の特徴を利用した新しい 2 手法（4 波長法と超分光法）により、反射された降下放射の影響を推定・補正し、パッシブ長波赤外線吸収測距の精度を大幅に向上させることが実証されました。

Unay Dorken Gallastegi, Wentao Shangguan, Vaibhav Choudhary + 4 more2026-03-03⚡ eess

Seeking Necessary and Sufficient Information from Multimodal Medical Data

本論文は、医療画像などのマルチモーダルデータから「結果に必要かつ十分」な特徴を学習するために、確率的な必要十分性（PNS）をモダリティ不変成分とモダリティ固有成分に分解して拡張し、欠損モダリティへの頑健性と予測精度の向上を実現する手法を提案し、合成データおよび実世界医療データでその有効性を検証したものである。

Boyu Chen, Weiye Bao, Junjie Liu + 5 more2026-03-03💻 cs

Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

Proof-of-Perception（PoP）は、マルチモーダル推論を計算可能なグラフとして表現し、各ステップにコンフォーマル保証による信頼性証明を組み込むことで、計算リソースを効率的に配分しながら誤りや幻覚を抑制し、高い精度と信頼性を両立する新しいツール利用フレームワークを提案しています。

Arya Fayyazi, Haleh Akrami2026-03-03💻 cs

Diffusion-Based Low-Light Image Enhancement with Color and Luminance Priors

この論文は、照度、影、色不変性などの物理的事前知識を構造化制御埋め込みモジュール（SCEM）を通じて拡散モデルに統合し、LoLv1 でのみ学習した後に他データセットでも優れた汎化性能と最先端の低照度画像增强を実現する手法を提案しています。

Xuanshuo Fu, Lei Kang, Javier Vazquez-Corral2026-03-03💻 cs

Percept-Aware Surgical Planning for Visual Cortical Prostheses with Vascular Avoidance

この論文は、血管回避や灰白質の制約を考慮しつつ、予測される知覚結果を最適化するために、電極配置を微分可能な前方モデルを用いた制約付き最適化問題として定式化し、視覚皮質インプラントの手術計画を改善するフレームワークを提案しています。

Galen Pogoncheff, Alvin Wang, Jacob Granley + 1 more2026-03-03💻 cs

Deep Learning-Based Meat Freshness Detection with Segmentation and OOD-Aware Classification

本研究は、U-Net によるセグメンテーションと OOD 検知機能を備えた深層学習フレームワークを提案し、EfficientNet-B0 を用いて包装・未包装肉の鮮度を高精度に分類するとともに、スマートフォン上での実用性を検証したものである。

Hutama Arif Bramantyo, Mukarram Ali Faridi, Rui Chen + 2 more2026-03-03⚡ eess

Unsupervised Semantic Segmentation in Synchrotron Computed Tomography with Self-Correcting Pseudo Labels

本論文は、シンクロトロン CT 画像の大量データに対する手動アノテーションの必要性を排除し、クラスタリングによる疑似ラベルの生成と Unbiased Teacher 手法を用いた自己修正を組み合わせた新たな教師なしセグメンテーション枠組みを提案し、マグネシウム結晶などのサンプルにおいて基線となる疑似ラベルよりも精度を大幅に向上させることを示しています。

Austin Yunker, Peter Kenesei, Hemant Sharma + 3 more2026-03-03💻 cs

DiffSOS: Acoustic Conditional Diffusion Model for Speed-of-Sound Reconstruction in Ultrasound Computed Tomography

本論文は、物理的制約を統合した条件付き拡散モデル「DiffSOS」を提案し、超音波コンピュータ断層撮影（USCT）において、従来の手法が抱える計算コストや解像度の課題を克服し、高忠実度かつ推論速度が速く、さらに信頼性の指標となる不確実性を推定可能な音速再構成を実現したことを述べています。

Yujia Wu, Shuoqi Chen, Shiru Wang + 3 more2026-03-03💻 cs

SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning

マルチモーダル大規模言語モデルの空間認識能力の限界を克服するため、軽量なアライメント機構と構造化されたシーン推論（SSR）を導入し、大規模な事前学習なしに 3D 幾何特徴を 2D 視覚意味論に統合することで、VSI-Bench などで SOTA 性能を達成する手法を提案する。

Yi Zhang, Youya Xia, Yong Wang + 7 more2026-03-03💻 cs

PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models

3D 視覚言語モデルにおける 3D-テキスト対データの不足と幾何学的情報の劣化という課題に対し、中間点クラウドトークンと視覚入力トークンの整合性を制約する軽量な特徴レベルの整合正則化手法「PointAlign」を提案し、限られた計算コストで分類やキャプション生成タスクの性能を大幅に向上させることを示した。

Yuanhao Su, Shaofeng Zhang, Xiaosong Jia + 1 more2026-03-03💻 cs

← 前へ次へ →