cs.CV 件の論文 | Gist.Science

Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

本論文は、約 5,000 万の動画クリップからゼロから構築された大規模動画基盤モデル「Summer-22B」の開発において、データセットエンジニアリングが最も重要な要素であり、メタデータ駆動型のキュレーションやμP パラメータ化などの技術的知見を体系的に報告したものです。

Simo Ryu, Chunghwan Han2026-03-03🤖 cs.LG

Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

GUI 環境における KV キャッシュの過剰なメモリ使用量と遅延を解消するため、UI 要素の空間的注目度と操作軌道の意味的冗長性を考慮した新しいスコアリング手法「ST-Lite」を提案し、学習なしでキャッシュサイズを大幅に削減しながら高速な推論と高い性能を両立させることを実証した。

Bowen Zhou, Zhou Xu, Wanli Li + 2 more2026-03-03🤖 cs.LG

Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning

本論文は、LoRA ベースの継続的学習において、タスク共有とタスク固有の方向性をエネルギーに基づく目的関数で分離し、勾配整合最適化と閉形式の再較正を導入することで、知識の共有と干渉の回避を両立する新しい手法「LoDA」を提案し、既存手法を上回る性能を実証したものである。

Lingfeng He, De Cheng, Huaijie Wang + 3 more2026-03-03🤖 cs.LG

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

本論文は、動画生成モデルにおける透かし抽出の同期依存性と時間的歪みへの脆弱性を解決するため、フレーム順序に依存しないシャッフルキー方式と時間的歪みに耐性のある差分アテンション機構を導入した、高忠実度かつ高頑健なテキストから動画への生成透かしフレームワーク「SKeDA」を提案するものです。

Yang Yang, Xinze Zou, Zehua Ma + 2 more2026-03-03🤖 cs.AI

A Case Study on Concept Induction for Neuron-Level Interpretability in CNN

この論文は、ADE20K データセットで有効性が示された概念誘導に基づく CNN 隠れニューロンの解釈性フレームワークが、大規模なシーン認識ベンチマークである SUN2012 データセットにも適用可能であることを実証したケーススタディです。

Moumita Sen Sarma, Samatha Ereshi Akkamahadevi, Pascal Hitzler2026-03-03🤖 cs.AI

Stateful Token Reduction for Long-Video Hybrid VLMs

本論文は、アテンションと状態空間モデル（Mamba）を混在させるハイブリッド型長動画 VLM において、トークンの重要度が層間で変動する特性を踏まえ、段階的な削減スケジュールと言語意識型スコアリングを導入することで、精度を維持しつつプリフィル速度を大幅に向上させる手法を提案しています。

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko + 7 more2026-03-03🤖 cs.AI

AdURA-Net: Adaptive Uncertainty and Region-Aware Network

本論文は、放射線報告の曖昧さや多ラベルデータにおける「不確実性」ラベルの扱いを改善するため、解剖学的複雑性を捉える適応的拡張畳み込みとディリクレ証拠学習を組み合わせた信頼性の高い胸疾患分類フレームワーク「AdURA-Net」を提案するものです。

Antik Aich Roy, Ujjwal Bhattacharya2026-03-03🤖 cs.AI

Optimisation of SOUP-GAN and CSR-GAN for High Resolution MR Images Reconstruction

この研究は、アーキテクチャの改良やハイパーパラメータ調整、スペクトル正規化などの手法を用いて SOUP-GAN と CSR-GAN を最適化し、高解像度の MRI 画像再構成においてそれぞれ異なる長所（CSR-GAN は高周波詳細とノイズ低減、SOUP-GAN は構造保持とノイズ低減）を示すことで、医療診断の精度向上に寄与する画像品質改善手法を提案したものです。

Muneeba Rashid, Hina Shakir, Humaira Mehwish + 2 more2026-03-03⚡ eess

Efficient Flow Matching for Sparse-View CT Reconstruction

この論文は、確率的なノイズ注入を排除し、連続するステップで速度場を再利用することで推論効率を大幅に向上させつつ、スパースビュー CT 再構成の品質を維持する決定論的フローマッチングに基づく新しいフレームワーク「FMCT」とその効率的な変種「EFMCT」を提案するものです。

Jiayang Shi, Lincen Yang, Zhong Li + 3 more2026-03-03⚡ eess

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

既存の視覚推論ベンチマークの課題を克服するため、6 つの推論領域にわたる 10 種類のタスクから構成され、生成タスクと構造的な誤答を含む選択タスクの両方を通じて厳密な検証を可能にする「TACIT Benchmark」を提案し、そのデータセットと評価基盤を公開した。

Daniel Nobrega Medeiros2026-03-03🤖 cs.AI

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

本論文は、視覚依存タスクにおける推論時の計算スケーリングに伴う視覚情報の忘却問題を解決するため、追加の強化学習ファインチューニングなしで、推論文脈に意味的に関連する視覚トークンのコアセットを再注入することで視覚的基盤を強化する「VisRef」というフレームワークを提案し、既存手法を上回る性能向上を実証しています。

Soumya Suvra Ghosal, Youngeun Kim, Zhuowei Li + 6 more2026-03-03🤖 cs.AI

Physical Evaluation of Naturalistic Adversarial Patches for Camera-Based Traffic-Sign Detection

この論文は、自律走行車向けにカスタマイズした CompGTSRB データセットを用いて YOLOv5 を訓練し、GAN により生成した自然な敵対的パッチ（NAPs）が物理環境において停止標識の検出精度を低下させることを、Quanser QCar 実験台を用いた一連の実験で実証し、その評価手法と防御策の必要性を示しています。

Brianna D'Urso, Tahmid Hasan Sakib, Syed Rafay Hasan + 1 more2026-03-03🤖 cs.AI

Pretty Good Measurement for Radiomics: A Quantum-Inspired Multi-Class Classifier for Lung Cancer Subtyping and Prostate Cancer Risk Stratification

本論文は、量子状態識別に基づく「Pretty Good Measurement」を多クラス分類器として提案し、非小細胞肺癌の組織型分類や前立腺がんのリスク層別化という放射線オミクス研究において、既存の古典的手法と同等かそれ以上の性能を示すことを実証したものである。

Giuseppe Sergioli, Carlo Cuccu, Giovanni Pasini + 4 more2026-03-03⚛️ quant-ph

← 前へ次へ →

cs.CV

Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

A Case Study on Concept Induction for Neuron-Level Interpretability in CNN

Stateful Token Reduction for Long-Video Hybrid VLMs

AdURA-Net: Adaptive Uncertainty and Region-Aware Network

Optimisation of SOUP-GAN and CSR-GAN for High Resolution MR Images Reconstruction

Efficient Flow Matching for Sparse-View CT Reconstruction

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

Physical Evaluation of Naturalistic Adversarial Patches for Camera-Based Traffic-Sign Detection

Pretty Good Measurement for Radiomics: A Quantum-Inspired Multi-Class Classifier for Lung Cancer Subtyping and Prostate Cancer Risk Stratification

Scaling Quantum Machine Learning without Tricks: High-Resolution and Diverse Image Generation

Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization

Ozone Cues Mitigate Reflected Downwelling Radiance in LWIR Absorption-Based Ranging

Seeking Necessary and Sufficient Information from Multimodal Medical Data

Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

Diffusion-Based Low-Light Image Enhancement with Color and Luminance Priors

Percept-Aware Surgical Planning for Visual Cortical Prostheses with Vascular Avoidance