cs.CV 件の論文 | Gist.Science

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

農業ビジョン分野におけるモデルの汎化性能向上を目指し、複数のチームが独立して収集した多様なフィールドデータを用いた「AgrI Challenge」というデータ中心のコンペティション枠組みと、クロスチーム検証（CTV）という評価手法を提案し、単一ソース学習の限界とマルチソース協調学習の有効性を示した。

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

本論文は、複数の予測時間軸における冗長な計算を削減しつつ、スパースな事象監視下で確率的な空間分布を生成する長期的な山火事リスク予測を実現するために、早期の去ノイズ段階を共有し後段で分岐する階層的拡散モデル「N-Tree Diffusion」を提案し、実世界のデータセットを用いた評価で精度向上と推論コストの削減を実証したものです。

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

Task learning increases information redundancy of neural responses in macaque visual cortex

マカクにおける視覚課題の学習は、ベイズ推論の予測と一致して、ニューロン応答の情報冗長性を増加させ、個々のニューロンが運ぶ情報を増大させることが示されました。

Shizhao Liu, Anton Pletenev, Ralf M. Haefner, Adam C. Snyder2026-03-10💻 cs

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

本論文は、曖昧な視覚質問に対する戦略的な応答生成を可能にするため、曖昧さのレベルと最適な対応戦略を分類した新しいデータセット「AQuA」を提案し、これを用いて微調整された視覚言語モデルが曖昧さを認識し、不確実性を管理して文脈に適した戦略で応答する能力を実証したものです。

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

この論文は、深層学習の予測精度を維持しつつ臨床的透明性を確保するため、CTA 画像から形態学的および血流力学的な臨床概念を介して脳動脈瘤を分類する解釈可能な 3D コンセプトボトルネックモデルを提案し、その有効性を検証したものである。

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

VIVECaption: A Split Approach to Caption Quality Improvement

この論文は、VLM による画像キャプション生成の課題を解決し、著作権に配慮した高品質な学習データ構築を目指すため、評価指標の体系化と構造化されたキャプション生成のためのデータ選定・モデル微調整を組み合わせた「VIVECaption」という二面アプローチを提案するものです。

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

本論文は、既存の歯科画像データセットの限界を克服するため、視覚言語モデルを用いて単一の歯の画像から包括的な説明文を生成する手法を提案し、ガイド付きプロンプトが画像の視覚的特徴を的確に記述する質の高いキャプション生成に有効であることを示しています。

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

既存の万能画像復元モデルが複数の劣化を同時に学習する際に発生する干渉と忘却の問題を解決するため、専門的なエキスパートを組み合わせるマルチブランチの混合エキスパートアーキテクチャを採用し、大規模かつ制御可能な万能画像復元を実現する「UnSCAR」を提案する。

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

本論文は、ドメイン不変性を促進する二重レベルの敵対的学習とクエリ組み合わせに基づくトリプレット教師あり学習を導入し、季節や天候、昼夜など多様なドメイン変化に対して最先端の性能を達成する新しいクエリベースのドメイン非依存ビジュアルプレイス認識モデル「QdaVPR」を提案しています。

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

この論文は、空間階層と周波数意味の 2 つの次元でテキスト事前知識を分離し、大規模な DisText-SR データセットと多ブランチの条件付きガイダンスを活用することで、高品質かつ制御可能な拡散モデルに基づく画像超解像を実現する DTPSR を提案しています。

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

本論文は、モバイル GUI エージェントの汎化性能評価を目的とした新たなベンチマーク「AndroidWorld-Generalization」と、GRPO を活用したスケーラブルな強化学習システムを提案し、教師あり微調整ベースラインを上回る性能向上と、未見のタスクやアプリに対する汎化における課題を明らかにしたものです。

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

本論文は、学習プロセスに合わせてサンプルの重要性を動的に判断し、損失と不確実性の複合報酬に基づいてデータ選択を最適化するエンドツーエンドの「Data Agent」を提案し、ImageNet-1k や MMLU などのタスクにおいて性能を維持しつつトレーニングコストを 50% 以上削減できることを実証しています。

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

この論文は、サポート画像の領域異質性とクエリ応答の不均一性という課題を解決するため、信頼性重み付きプロトタイプマイニングと幾何学的適応閾値選択を導入し、トレーニング不要なワンショットポリープセグメンテーションの精度を大幅に向上させた「RPG-SAM」というフレームワークを提案するものです。

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

← 前へ次へ →

cs.CV

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

Task learning increases information redundancy of neural responses in macaque visual cortex

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

VIVECaption: A Split Approach to Caption Quality Improvement

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

Generalization in Online Reinforcement Learning for Mobile Agents

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Image Generation Models: A Technical History

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing